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内 容 提 要 


本 书 讨论 了 Linux 内 核 的 概念 、 结 构 和 实现 。 主 要 内 容 包括 多 任务 、 调 度 和 进程 管理 ， 物 理 内 存 的 管理 


以 及 内 核 与 相关 硬 伯 





拟 文件 


对 时 间 相 关 功 能 的 处 理 ， 页 面 回收 和 页 交换 的 相关 机 制 以 及 中 


关键 的 部 分 进行 讲解 ， 帮 助 读者 掌握 重要 的 知识 点 ， 从 而 在 和 运 | 





系统，Ext 文件 系统 








属性 和 访问 控制 表 的 实现 方式 ， 内 核 中 网 络 的 实现 ， 系 统 j 
F 计 的 实现 等 。 此 外 ， 本 书 借助 内 核 源 代码 中 最 














本 书 适合 Linux 内 核 爱 好 者 阅读 。 
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的 交互 ， 用 户 空间 的 进程 如 何 访问 虚拟 内 存 ， 如 何 编写 设备 驱动 程序 ， 模 块 机 制 以 及 虚 





周 用 的 实现 方式 ， 内 核 





] 中 充分 展现 Linux 系统 的 魅力 。 
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UNIX 操 作 系统 以 简单 、 一 致 、 优 雅 的 设计 著称 ， 这 种 真正 非凡 的 特性 使 得 UNIX 系 统 在 超过 1/4 
世界 。 而 且 ， 正 是 由 于 Linux 的 鞍 勃 发 展 ， 发 源 于 UNIX 的 思想 才 依 然 活力 依 






































虑 后 立即 改 























旧 ， 并 在 可 预见 的 未 来 其 发 展 势头 会 一 直 持 续 下 去 。 

IILinux 操 作 系统 带 有 某 种 强烈 的 吸引 力 ， 前 述 的 两 段 引 文 很 好 地 描述 了 这 种 吸引 力 的 精神 
本 质 。UNIX 操 作 系统 诞生 于 贝尔 实验 室 ，Dennis Ritchie 是 其 发 明 人 之 一 。 他 在 引文 中 提 到 ， 只 有 天 
才 才 能 欣赏 UNIX 操 作 系统 的 简单 性 ， 这 是 否 是 完全 正确 的 呢 ? 显然 不 是 ， 因 为 Ritchie 在 经 过 全 面 考 
口 ， 称 程序 员 也 同样 有 资格 欣赏 UNIX 操 作 系统 。 
IILinux 操 作 系统 的 源 代码 复杂 、 文 档 少 、 对 程序 员 的 要 求 高 ， 要 想 看 懂 这 些 代码 并 不 是 一 
































































































































始 感受 到 内 核 源 代码 中 毛 能 获得 的 远见 卓识 ， 那 就 很 难 逃 脱 Linux 的 吸引 











件 容 邹 避 。 但 只 
力 了 。 在 此 我 给 读者 提 
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品 信心 后 : 





























旦 开始 潜心 钻研 操作 系统 内 核 , 就 很 容易 沉溺 于 此 种 乐趣 之 中 。 














事实 上 ，Benny Goodheart 和 James Cox 在 其 书 The Magic Garden Explained (该 书 解释 了 UNIX System V 


的 内 部 实现 机 人 


疯 ! 
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授 Linux 原 于 


AAS 








判 ) 的 序言 中 ， 早 已 对 此 做 过 说 明 《〈 前 文 第 二 段 引 文 )。 当 然 ，Linux 肯 定 也 能 让 读者 发 


























须 熟悉 C 






















































































手册 ， 引 导读 者 阅读 内 核 源 代 码 ， 并 使 得 读者 能 够 更 敏锐 地 体会 到 这 些 代 码 的 
美丽 、 优 雅 ， 以 及 相关 概念 在 设计 上 的 美学 取向 。 当 然 ， 要 理解 内 核 ， 是 有 一 些 前 提 条 件 

如 果 对 您 来 说 C 只 是 一 个 字母 ， 或 者 是 一 门 外 语 ， 那 可 以 休 侨 。 操 作 系统 绝 非 仅仅 是 一 
相关 的 算法 绝对 是 有 益 无 害 的 。 最 后 ， 如 果 读 者 对 计算 机 体系 结构 有 一 定 的 
了 解 ， 而 不 是 仅仅 知道 如 何 造 一 个 新 奇 的 机 箱 ， 那 就 更 有 用 了 。 从 学 术 观 点 来 看 ， 上 述 要 求 比较 接近 
于 系统 程序 设计 、 算 法 和 操作 系统 原理 课程 。 本 书 的 前 一 版 本 已 经 在 几 所 大 学 用 于 向 高 年 级 本 科 生 讲 
里 ， 我 希望 这 一 版 也 能 用 于 同样 的 目的 。 
+ 前 述 的 所 有 主题 都 进行 详细 讲解 ， 在 读者 思考 拿 在 手 里 的 这 本 大 部 头 书 的 时 候 ( 当 
为 书 太 厚 ， 没 拿 在 手 里 )， 读 者 肯定 会 同意 我 的 看 法 。 如 果 某 个 主题 与 内 核 没 有 直接 的 关 
理解 内 核 的 运作 机 制 是 必需 的 ， 那 么 我 会 在 书 中 相关 之 处 简要 介绍 它 。 如 果 读 者 需要 更 透彻 
识 ， 可 以 查阅 我 推荐 的 有 关 计 算 机 原理 方面 的 图 书 。 市面 上 有 大 量 的 教科 书 可 供 选 择 ， 











的 。 读 者 必 








































































































































































































































































































有 启发 性 ,包括 Brian W. Kernighan 和 Denis M. Ritchie 的 C Programming Language 


VI 0 0 





[KR88]; Andrew S. Tanenbaum 的 Modern Operating Systems [Tan07] 〈 该 书 是 关于 一 般 操作 系统 的 基础 


知识 )，Andrew S. Tanenbaum 币 











此 外 ， 附 录 C 包 含 了 一 些 
设计 中 并 未 广泛 应 用 。 





HAlbert S. Woodhull 的 Operating Systems:Design and Implementation [TW06] 


(该 书 是 关于 UNIX 操 作 系统 (Minix) 的 )，W. Richard Stevens 和 Stephen A. Rago 的 《UNIX 环 境 高 级 编 
程 ( 第 2 版 )》[SR05]“ 该 书 是 关于 用 户 空间 程序 设计 的 )， 还 有 John L. Hennessy 和 David A. Patterson 的 
两 本 书 Computer Architecture 和 Computer Organization and Design [HP06, PH07] 〈 这 两 本 书 是 关于 计算 
机 体系 结构 基础 的 )。 上 述 图 书 都 是 公认 的 经 


















































内 核 中 ] 到 的 GNU C 编 洋 器 扩展 的 相关 信息 ， 但 这 些 扩展 在 一 般 的 程序 





























在 撰写 本 书 第 一 版 时 ， 内 核 的 发 布 基 本 上 不 存在 预定 计划 。 正 如 我 在 附录 F 中 讨论 到 的 ， 这 一 点 
在 内 核 2.6 的 开发 期 间 发 生 了 很 大 的 变化 ,内 核 开发 者 在 这 方面 做 了 很 好 的 改进 ,开始 以 可 预测 的 间隔 











周期 性 地 发 布 新 版 本 。 我 所 讨 













































































论 的 内 容 集 中 于 内 核 版 本 2.6.24, 但 也 包含 了 一 些 对 2.6.25 和 2.6.26 版 本 















































改变 。 























质 性 的 方面 ， 那 将 是 可 翡 的 。 






































的 引用 ， 这 两 个 版 本 是 在 本 书 定稿 后 发 布 的 ， 只 不 过 发 布 时 本 书 尚 未 出 版 。 由 于 对 整个 内 核 的 许多 
全 面 的 修改 已 经 合并 到 2.6.24 版 本 ， 因 此 选择 这 个 版 本 作为 本 书 的 目标 还 算是 不 错 。 虽然 与 本 书 中 讨 
论 的 代码 相 比 ， 在 比较 新 版 本 的 内 核 中 ， 茶 些 细节 已 经 发 生 了 变化 ， 但 大 的 方面 会 保持 一 段 时 间 不 
-ss 



















































































在 讨论 内 核 的 各 个 组 件 和 子 系统 时 , 我 试图 忽略 不 重要 的 细节 , 以 避免 使 本 书 的 篇 幅 过 长 。 同样， 
我 尽力 保持 本 书 的 行文 与 内 核 源 代码 之 间 的 联系 。 目 前 的 情况 还 是 比较 幸运 的 ， 由 于 Linux 的 存在 ， 
使 得 我 们 能 够 查看 一 个 真正 的 、 












































可 工作 的 、 产 品级 操作 系统 的 源 代码 ， 因 此 如 果 忽 视 了 内 核 的 这 种 本 
为 保证 书 的 篇 幅 不 至 于 太 长 ， 我 只 能 选择 内 核 源 代码 中 那些 最 关键 的 部 





























分 进行 陈述 。 在 理解 Linux 内 核 的 结构 和 实现 的 过 程 中 ， 阅 读 和 使 用 实际 的 源 代 码 是 必 不 可 少 的 一 个 











步 又。 附录 F 介 绍 了 一 些 技巧 ， 











能 够 使 得 阅读 和 使 用 源 代 码 容易 一 些 。 





关于 Linux (和 一 般 的 UNIX 操 作 系统 ) 的 一 个 特别 有 趣 的 事实 是 : 它 很 能 调动 人 的 情绪 。 在 因 特 


网 上 有 关 操 作 系 统 的 Flame wars( 特 指 UseNet 上 的 激烈 争论 ) 和 如 询 的 找 术 排 论 可 能 是 个 例子 ， 但 


有 哪个 UNIX 以 外 的 操作 系统 会 














Garfinkel 等 编辑 ) 来 论述 习 恶 这 种 系统 到 底 有 多 好 呢 ? 在 为 第 一 版 写 序言 时 ， 我 提 到 ， 茶 个 国际 软件 
公司 用 难 解 的 控告 和 争论 来 应 对 Linux， 这 对 未 来 而 言 并 不 是 坏 信 号 。 五 年 以 后 ， 形 势 已 经 改善 ， 前 




































































专门 有 一 本 小 册子 〈 指 7 Unix-Haters Handbook[GWS94]， 由 Simson 






































述 的 厂商 已 经 私下 接受 了 下 述 的 事实 : Linux 已 经 成 为 操作 系统 领域 中 一 个 重要 的 竞争 者 。 在 下 一 个 


五 年 ， 情 况 当 然 会 变 得 更 好 。 




















毫 不 夸张 ， 我 承认 自己 肯 








本 书 能 够 感染 到 你 ， 那 么 我 为 












































定 是 被 Linux 迷 住 了 《有 时 候 ， 我 可 以 肯定 自己 几乎 因此 而 疯狂 )。 如 果 
写作 此 书 付出 的 大 量 心血 都 是 值得 的 ! 
































改进 建议 和 批评 意见 可 以 发 送 到 wm@linux-kernel.net, 或 经 由 www.wrox.com 反 馈 给 我 。 当 然 ， 如 





































































































果 有 人 告诉 我 他 很 喜欢 这 本 书 ， 那 我 会 非常 高 兴 ! 
本 书 涵盖 的 内 容 
本 书 讨论 了 Linux 内 核 的 概念 、 结 构 和 实现 。 各 章 分 别 介绍 了 下 述 主题 
口 第 1 章 概述 Linux 内 核 , 讲述 了 内 核 的 总 体 图 景 ， 后 续 音 节 则 根据 总 体 结构 对 内 核 进 和 J 更 详细 的 
Se 
口 第 2 章 讨论 了 多 任务 、 调 度 和 进程 管理 的 基本 知识 ， 并 分 析 了 这 些 基本 技术 和 概念 抽象 的 实现 
方式 。 
口 第 3 章 讨 论 了 如 何 管理 物理 内 存 。 本 章 既 讨论 了 内 核 与 相关 人 硬件 的 交互 ， 也 讨论 了 内 核 内 部 通 











0 0 va 





过 伙 介 








第 4 章 继续 对 内 存 进 行 讨论 ， 讲 解 了 用 
虚拟 内 存 视 图 所 需要 





系统 和 slab 分 配器 来 分 配 内 存 的 方式 。 
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5 章 介 
I 何 相互 通信 。 














介绍 了 保证 内 




















器 系统 上 正确 
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站 空间 的 进程 如 何 访 问 虚拟 内 存 ， 以 及 在 内 核 层面 实现 
的 详细 的 数据 结构 和 相关 机 制 。 
核能 够 在 多 处 到 














前 运作 所 需 的 机 制 。 此 外 ， 本 章 还 介绍 了 进程 























6 章 引导 





OD 
WW hr HR HR 
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有 8 章 讨 论 了 虚拟 文 





读者 玫 


里 解 如 何 编 
7 音 阐述 了 模块 机 制 ， 该 机 4 



































0O 








写 设备 驱动 程序 ， 使 内 核 支 持 新 的 硬件 。 
草 能 够 向 内 核 动态 添加 新 的 功能 。 

















牛 系统 ， 这 是 内 核 中 
包括 物理 文件 系统 和 虚拟 文件 系统 。 
9 章 讲解 了 Ext 文 件 系统 族 ， 包 括 Ext2 和 Ext3 文 件 系 统 ， 
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11 章 给 








10 章 继续 讨论 文人 
层 提供 关于 内 核 的 元 信 ， 
了 Ext 文 伯 
名 12 章 讨论 内 核 
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EF 系统 ， 包 括 procfs 和 sysfs。 这 











判 表 





个 一 般 的 间接 层 ， 能 够 支持 各 种 各 样 的 不 同文 件 系 





这 是 很 多 Linux 系 统 安装 的 标准 选项 。 
































DOD 
R hi hi ne 
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和 13 章 介绍 了 系统 调 


有 14 章 对 中 断 





















































































































































个 文件 系统 并 非 用 来 存储 信息 ， 而 是 向 用 
息 。 此 外 ， 本 章 阐述 了 一 些 减 轻 编 写 文件 系统 负担 的 方法 。 

系统 属性 和 访问 控 
络 的 实现 ， 内 容 集 
] 的 实现 方式 ， 系 统 调用 是 从 用 户 
触发 内 核 活 动 的 方式 进行 了 分 析 ， 并 介绍 了 内 核 中 将 工作 延迟 至 后 续 时 间 点 执 


的 实现 方式 ， 
于 IPv4、TCP、 





























这 两 者 有 助 于 提高 系统 的 安全 性 。 
UDP 和 netfilter。 





层 请 求 内 核 服务 的 标准 机 制 。 



































行 的 机 制 。 
口 第 15 章 说 明了 内 核对 时 间 相 关 功 能 的 处 理 ， 包 括 了 高 低 两 种 分 辨 率 的 情形 。 
口 第 16 章 讨论 了 借助 于 页 缓存 和 块 缓存 来 加 速 内 核 操 作 。 
口 第 17 章 讨论 了 如 何 对 内 存 中 缓存 的 数据 与 持久 存储 设备 上 的 数据 源 进行 同步 。 
口 第 18 章 介绍 了 页 面 回收 和 页 交换 的 相关 机 制 。 
口 第 19 章 介绍 了 审计 的 # 细 记录 内 核 的 活动 。 
口 附录 A 讨论 了 内 核 所 支持 的 各 种 计算 机 体系 结构 的 特点 。 
口 附录 B 简 述 了 有 效 使 用 内 核 源 代码 的 各 种 工具 和 方法 。 
口 附录 C 提 供 了 关于 C 语 言 的 一 些 技术 札记 ， 并 讨论 了 GNU C 编 译 器 的 结构 。 
口 附录 D 给 出 了 内 核 的 
口 附录 E 介 绍 了 ELF 二 进 制 格式 。 
口 附录 F 讨 论 了 内 核 开 发 的 许多 社会 性 的 方面 ， 以 及 Linux 内 核 社区 。 
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在 此 列 出 这 数 千 人 的 姓名 ， 但 按照 真正 的 UNTX 行 事 风格 ， 读 者 很 容易 














for file in SALL_FILES_COVER 


PED_IN_THIS_BOOK; do 





git log --pretty="format:%an" 


sort -u -k 2,2 


我 非常 


























忌服 这 些 程序 员 所 做 的 工作 ， 他 们 
本 书 的 演变 发 展 已 经 超过 7 年 。 第 一 版 的 写作 经 历 了 
出 版 〈 德 文 版 ) 。 第 一 版 讲述 了 2.6.0 版 本 的 内 核 。 


$file; done 








是 本 书 真 正 















































全 评估 时 , 使 用 本 书 第 一 版 作为 底层 设计 文档 


的 蓝本 ， 因 
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不 支 者 不 太 明 
授权 出 版 英文 版 。 














接 




















的 
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下 来 ， 我 又 特地 将 本 书 的 
有 若干 人 士 参 与 了 本 书 的 演变 过 程 ， 
帮助 下 ， 将 本 书 德 文 版 翻译 为 英文 ， 完 成 了 
La Pietra 在 幕后 牵线 帮忙 ， 使 得 翻 
也 感 询 
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虽然 他 
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年 ， 最 终 在 2003 年 
1 于 在 对 Red Hat Enterprise 
此 要 求 更 新 书 的 内 容 至 


惠普 公司 
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KopPer 和 Hans Lohr， 同 他 1 
他 们 帮助 我 完成 了 本 书 。 
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意见 。 我 很 高 兴 收 到 所 有 这 些 意见 和 建议 。 另 外 ， 出 版 社 曾 经 对 德 文 
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的 作者 给 予 了 无 限 耐 心 。 该 作者 
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简介 和 概述 











时 作 系 统 不 仅 是 信息 技术 中 非常 吸引 人 的 一 部 分 , 而 且 还 是 公众 争论 的 主题 ” 在 此 发 展 过 程 
未 中，Linux 发 挥 了 举足轻重 的 作用 。 然 而 仅仅 10 年 前 ， 学 术 用 操作 系统 和 商用 操作 系统 还 是 
有 着 严格 区 分 的 : 前 者 相对 简单 而 且 可 获得 源 代码 ; 对 后 者 而 言 , 虽然 不 同 的 操作 系统 性 能 各 不 相同 ， 
但 其 源 代码 一 直 都 是 受到 良好 保护 的 秘密 。 现 在 ， 任 何人 都 可 以 从 因特网 下 载 Linux (或 任何 其 他 自 
操作 系统 ) 的 源 代码 进行 研究 。 
Linux 现 在 已 经 安装 到 了 数 百 万 台电 脑 上 ， 无 论 是 家 庭 用 户 还 是 专业 人 员 ， 都 可 以 在 Linux 上 执行 
各 种 任务 。 无 论 是 手表 中 的 微型 嵌入 式 系统 ， 还 是 大 规模 并 行 大 型 机 ，Linux 都 可 以 在 无 数 领域 大 展 
身手 。 而 这 使 得 Linux 的 源 代码 非常 有 趣 。 一 个 合理 可 靠 、 基 础 牢固 的 概念 〈UNIX 操 作 系统 ) 结合 
强大 的 创新 以 及 学 术 性 操作 系统 所 缺乏 的 解决 问题 的 强烈 倾向 ， 这 就 是 为 什么 Linux 具 备 如 此 强大 吸 
引力 的 原因 。 
本 书 描述 了 内 核 的 主要 功能 , 解释 了 其 内 部 的 结构 , 并 研究 了 其 实现 。 由 于 所 讨论 主题 的 复杂 性 ， 
我 假定 读者 已 经 对 操作 系统 和 C 语 言 系统 程序 设计 有 一 定 的 基础 〈 当 然 ， 对 Linux 系 统 的 熟悉 是 不 言 而 
喻 的 )。 我 会 简要 介绍 与 常见 操作 系统 问题 相关 的 几 个 基础 概念 ， 但 本 书 主要 的 内 容 则 集中 于 Linux 内 
核 的 实现 。 市 场 上 有 许多 讲述 操作 系统 基础 概念 的 教材 ， 对 某 一 特定 主题 不 熟悉 的 读者 ， 可 以 找 一 本 
看 看 。 例 如 ，Tanenbaum 写 的 两 本 杰出 的 入 门 书籍 ([TW06] 和 [Tan07])。 
本 书 要 求 读 者 有 牢固 的 C 语 言 程序 设计 基础 。 因为 内 核 使 用 了 C 语 言 的 许多 高 级 技巧 , 尤其 是 GNU 
C 编 译 器 的 许多 专门 特性 。 附 录 C 讨 论 了 C 语 言 的 一 些 精 微 之 处 ， 即 使 优秀 的 程序 员 可 能 也 未 必 熟 悉 这 
些 。 由 于 Linux 必 然 与 系统 硬件 〈 特 别 是 CPU) 有 非常 直接 的 交互 ， 因 此 了 解 一 点 计算 机 结构 的 基础 知 
识 是 很 有 用 的 。 该 主题 也 有 很 多 入 门 书籍 可 用 ， 在 参考 文献 章节 中 列 出 了 一 些 相关 书籍 。 在 深入 讲解 
CPU 的 知识 时 〈 大 多 数 情况 下 ， 我 都 以 IA-32 或 AMD64 体 系 结构 为 例 ， 因 为 Linux 在 这 些 体 系 结构 上 很 
常用 )， 我 会 解释 相关 硬件 的 细节 。 在 讨论 不 常见 的 机 制 时 ， 我 会 解释 机 制 背后 的 一 般 性 概念 ， 但 对 
于 某 个 特定 的 特性 如 何在 用 户 空间 中 使 用 ， 则 需要 读者 查询 书 中 指明 的 手册 页 。 
本 章 将 概述 内 核 所 涉及 的 各 种 领域 ， 并 在 后 续 章 节 中 对 相应 的 子 系统 进行 长 篇 曾 述 之 前 ， 先 行 说 
明 其 基本 关系 。 
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G@ 本 书 不 打算 参与 意识 形态 上 的 讨论 ， 诸如 Linux 是 否 是 一 个 真正 的 操作 系统 。 当 然 它 事实 上 只 是 一 个 内 核 , 没有 划 
他 组 件 是 无 法 正常 运转 的 。 在 我 谈 到 Linux 操 作 系 统 而 没有 明确 地 提 及 类 似 工程 的 简称 时 , 这 并 不 意味 着 我 没有 意 
识 到 该 工程 的 重要 性 。 这 里 的 类 似 工程 主要 是 指 GNU 工 程 ， 如果 在 名 称 上 使 用 Linux 而 不 是 GNU/Linux， 该 工程 的 
人 士 一 般 会 很 敏感 。 我 的 理由 简单 而 实用 。 我 们 需要 建立 何 种 界限 , 才能 在 引用 时 不 产生 像 GNU/IBM/RedHat/HP/ 
KDE/Linux 这 样 见 长 的 结构 呢 ?” 如 果 读 者 觉得 这 个 脚注 没有 意义 ， 可 以 参考 网 页 www.gnu.org/gnu/linux-and- 
gnu.html， 该 文 总 述 了 GNU 工 程 的 地 位 。 在 澄清 了 所 有 的 意识 形态 问题 之 后 ， 我 保证 在 本 书 其 余 的 部 分 不 会 再 出 
现 长 达 半 页 的 脚注 了 。 
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1.1 


本 的 内 核 ， 该 版 本 发 布 于 
该 已 经 发 布 ， 所 以 某 些 旨 
沉沉 、 训 无 乐趣 的 系统 ， 
者 述 的 口 口 在 本 质 上 是 不 变 的 。 对 于 2.6.24 版 
该 版 本 有 一 些 根本 性 的 改动 。 很 自然 ， 开 


内 核 的 任务 


在 纯 技术 层面 上 ， 
并 充当 底层 驱动 程序 ， 
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对 系统 


核 进行 研究 。 
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的 命令 。 





实际 的 工作 0 0 完成 与 应 








序 与 便 伯 
因此 内 核 是 





F 本 身 没 有 联系 "， 只 
一 台 增 强 的 计算 机 。 








是 吕 





当 若 干 条 





蛙 序 在 同一 





来 看 ， 


系统 


读者 





然 会 有 所 改变 ， 这 是 不 可 避免 的 。 如 
不 会 选择 本 书 了 。 
本 来 说 ， 这 一 点 特别 1 


也 很 可 能 训 











件 与 软件 之 间 的 一 个 中 间 
的 各 种 设备 和 组 伯 





内 核 可 以 被 认为 是 一 台 0 0D DUODD ， 
1， 在 内 核 寻 址 硬盘 时 ， 它 必须 确定 使 用 哪个 路 径 来 从 磁盘 
那个 路 径 向 磁盘 发 送 哪 一 


条 命令 ， 


发 者 也 无 法 隔 一 


进行 





意味 着 ， 在 阅读 本 书 
果 不 是 这 样 ， 
尽管 一 些 细 节 将 会 


F 确 。 天 


动态 性 









































夜 就 折腾 一 些 
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将 计算 机 抽象 到 一 
内 存 复制 数据 ， 数 据 的 








于 内 核 的 演变 比较 快速 ， 读 者 很 自然 会 问 本 书 内 容 涵盖 了 哪 一 个 内 核 版 本 。 我 选择 了 2.6.24 版 
时 ， 新 版 本 的 内 核 应 
那 Linux 将 


会 成 为 
发 生变 化 ， 但 














为 与 更 早 的 版 本 比较 ， 
此 类 特 | 性 上 LE 来 o 





慨 。 其 作用 是 将 应 用 程序 的 请 求 传递 给 硬件 ， 
寻 址 。 尽 管 如 此 ， 仍 然 可 以 从 其 他 一 些 有 趣 的 


个 高 层次 











等 等 。 另 一 方面 ， 应 


j 程 序 只 需 发 出 传输 数据 
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程序 是 不 相干 的 ， 











与 内 核 有 联系 ， 


中 并 发 运行 时 ， 也 可 











内 核 是 应 用 程序 所 知道 的 层次 结 





以 将 内 核 视 为 0D 口 口 口 口 


为 内 核 抽象 了 相关 的 细节 
构 中 的 最 底层 ， 





核 负 责 将 可 用 共享 资 汤 
E 系 统 的 完整 性 。 


还 需要 保 说 




















男 一 种 
于 向 计算 机 发 送 请 求 。 
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方式 与 其 他 函数 相同 。 
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当前 ， 
(D 微 内 





核 : 


实现 策略 


是 将 内 核 视 为 口 ， 
借助 于 





C 标 准 库 ， 


原 〈 包 括 CPU 时 间 、 和 磁盘 


一 其 提供 


系统 调用 
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时 序 就 像 























I 





























在 操作 系统 实现 方面 ， 











这 种 范 型 中 ， 


能 都 委托 给 一 些 独立 进程 ， 
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只 有 最 基本 的 功 负 





这 些 进程 通过 明确 定 
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(2) 宏 内 


间 支 持 复杂 通信 和 需要 额外 的 CPU 时 
奋进 展 甚 微 。 


核 : 与 微 内 核 相 反 ， 3 


| 微 内 核实 现 的 。 但 系统 调用 层次 上 的 处 理 
的 方法 ， 因 为 系统 的 各 个 前 
扩 术 。 这 种 方法 的 其 他 好 处 包括 : 动态 可 





义 昌 





两 种 主要 的 范 型 。 
直接 




















的 通信 接口 与 中 心 内 核 通信 。 例 如 ， 
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与 系统 本 身 的 通信 和 需要 用 到 最 2 








间 、 网 络 连接 等 ) 分 配 到 各 个 系统 进程 ， 


。 通 常 , 口 口 口 口 用 
是 普通 函数 一 样 ， 其 调用 


1 中 央 内 核 〈 即 微 内 核实 现 。 
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外 部 的 服务 器 进程 实现 。) 理论 
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间 ， 所 以 


宏 内 核 是 构建 系统 内 核 的 传统 方法 。 在 这 种 方法 中 ， 





人 码 ， 


已 





函数 都 可 以 访问 内 核 











因为 在 
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括 所 有 子 系统 〈 如 内 存 管 理 、 








Ph 所 有 其 他 部 分 。 
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Q@ CPU 是 一 


个 例外 情况 ,程序 访问 CPU 显然 是 不 可 








了 分 彼此 都 很 清楚 地 划分 
扩展 性 


来 ， 同 时 也 迫使 程序 员 使 用 “ 




















上 ， 这 是 一 种 很 








4” 程序 


‘清洁 
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究 领 域 














文件 系统 、 设 备 驱 动 
如 果 编 程 时 不 小 心 ， 
的 性 能 仍然 强 于 微 内 核 ，Linux 仍 然 是 依据 这 种 范 型 


避免 的 。 




















程序 ) 都 打包 到 一 个 文件 中 。 
很 可 能 会 导致 源 代码 中 出 现 复杂 的 嵌 套 。 
实现 的 《以 前 亦 如 


i 
管 微 内 核 在 各 种 下 











内 核 的 全 部 代 
内 核 中 的 每 个 





比 )。 




















尽管 如 此 ， 并 非 所 有 可 能 的 指令 对 应 








程序 都 是 可 











的 。 
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但 其 中 已 经 引进 了 一 个 重要 的 革新 。 在 系统 运行 中 , 口 口 可 以 插入 到 内 核 代 码 中 ， 也 可 以 移 除 ， 这 使 
得 可 以 向 内 核 动态 添加 功能 ， 弥 补 了 宏 内 核 的 一 些 缺 陷 。 模 块 特性 依赖 于 内 核 与 用 户 层 之 间 设 计 精 巧 
的 通信 方法 ， 这 使 得 模块 的 热 插 拔 和 动态 装载 得 以 实现 。 


1.3 内核 的 组 成 部 分 


本 方 概述 了 内 核 的 各 个 组 成 部 分 ， 以 及 我 们 将 在 后 续 章 节 中 详细 研究 的 各 个 领域 。 尺 管 Linux 是 
整体 式 的 宏 内 核 ， 但 其 具有 相当 良好 的 结构 。 尽 管 如 此 ，Linux 内 核 各 个 组 成 部 分 之 间 的 彼此 交互 是 
不 可 避免 的 。 各 部 分 会 共享 数据 结构 ， 而 且 与 严格 隔离 的 系统 相 比 ， 各 部 分 《因为 性 能 原因 ) 协同 工 
作 时 需要 更 多 的 函数 。 在 后 续 章 节 中 ， 尽 管 我 试图 将 向 前 引用 的 次 数 降 至 最 低 ， 但 也 不 得 不 经 常 引用 
内 核 的 其 他 组 成 部 分 〈 即 其 他 章节 )。 为 此 我 会 在 这 里 简短 介绍 各 个 组 成 部 分 ， 使 读者 能 对 各 个 部 分 
在 内 核 整体 结构 中 的 作用 和 地 位 有 一 定 的 印象 。 图 1-1 是 一 个 粗略 的 草图 ， 概 述 了 组 成 完整 Linux 系 统 
的 各 个 层次 ， 以 及 内 核 所 包含 的 一 些 重要 子 系统 。 但 要 注意 ， 各 个 子 系统 之 间 实 际 上 会 以 各 种 方式 进 
行 交 互 ， 图 中 给 出 的 只 是 其 中 一 部 分 。 





































































































































































































应 用 程序 


户 空间 

| CC 网络 之 C 区 种 驱动 程序 
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内 核 空间 下 内 存 管理 进程 管理 
硬件 特定 于 体系 结构 的 代码 
图 1-1 Linux 内 核 的 高 层次 概述 以 及 完整 的 Linux 系 统 中 的 各 个 层次 





1.3.1 ” 进程、 进程 切换 、 调 度 


传统 上 ，UNIX 操 作 系 统 下 运行 的 应 用 程序 、 服 务 器 及 其 他 程序 都 称 为 0D 口 。 每 个 进程 都 在 CPU 
的 0 口 口 口中 分 配 地 址 空间 。 各 个 进程 的 地 址 空间 是 完全 独立 的 , 因此 进程 并 不 会 意识 到 彼此 的 存在 。 
从 进程 的 角度 来 看 ， 它 会 认为 自己 是 系统 中 唯一 的 进程 。 如 果 进程 想 要 彼此 通信 (例如 交换 数据 )， 
那么 必须 使 用 特定 的 内 核 机 制 。 
于 Linux 是 多 任务 系统 ， 它 支持 《看 上 去 ) 并 发 执行 的 若干 进程 。 系 统 中 同时 真正 在 运行 的 进 
程 数目 最 多 不 超过 CPU 数目 ， 因 此 内 核 会 按照 短 的 时 间 间 隔 在 不 同 的 进程 之 间 切 换 《〈 用 户 是 注意 不 到 
的 )， 这 样 就 造成 了 同时 处 理 多 进程 的 假象 。 这 里 有 两 个 问题 。 
(1) 内 核 借助 于 CPU 的 帮助 ， 负 责 进程 切换 的 技术 细节 。 必 须 给 各 个 进程 造成 一 种 错觉 ， 即 CPU 
是 可 用 的 。 通 过 在 撤销 进程 的 CPU 资源 之 前 保存 进程 所 有 与 状态 相关 的 要 素 ， 并 将 进程 置 于 空闲 状 
， 即 可 达到 这 一 目的 。 在 重新 激活 进程 时 ， 则 将 保存 的 状态 原样 恢复 。 进 程 之 间 的 切换 称 之 为 0 品 
Ds。 

(2) 内 核 还 必须 确定 0 在 现存 进程 之 间 共 享 CPU 时 间 。 重 要 进程 得 到 的 CPU 时 间 多 一 点 ， 次 要 
进程 得 到 的 少 一 点 。 确 定 哪个 进程 运行 多 长 时 间 的 过 程 称 为 DD 。 
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1.3.2 UNIX 进程 

Linux 对 进程 采用 了 一 种 层次 系统 ， 每 个 进程 都 依赖 于 一 个 父 进 程 。 内 核 启 动 init 程 序 作为 第 一 
个 进程 ， 该 进程 负责 进一步 的 系统 初始 化 操作 ， 并 显示 登录 提示 符 或 图 形 登录 界面 〈 现 在 使 用 比较 广 
泛 ) 。 因 此 init 是 进程 树 的 根 ， 所 有 进程 都 直接 或 间接 起 源 自 该 进程 ， 如 下 面 的 pstree 程 序 的 输出 
所 示 。 其 中 init 是 一 个 树 型 结构 的 顶端 ， 而 树 的 分 支 不 断 向 下 扩展 。 

wolfgang@meitner> pstree 

init-+-acpid 
-bonobo-activati 
-Cron 
-cupsd 
-2*[dbus-daemon] 
-dbus-launch 
-dcopserver 
-dhcpcd 
-esd 
-eth1 
-events/0 
-gam_server 
=geonfd=2 
-gdm---gdm-+-X 

'-startkde-+-kwrapper 
'-ssh-agent 



































































































































-gnome-vfs-daemo 

-gpg-agent 

-hald-addon-acpi 

-kaccess 

-kded 

-kdeinit-+-amarokapp---2* [amarokapp] 





-evolution-alarm 
-kinternet 
-kio_file 
-klauncher 
-konqueror 
-konsole---bash-+-pstree 
'-xemacs 
-kwin 
-nautilus 
'-netapplet 

-kdesktop 

-kgpg 

-khelper 

-kicker 

-klogd 

-kmix 

-knotify 

-kpowersave 

-kscd 

-ksmserver 

-ksoftiragqd/0 

-kswapd0 

-kthread-+-aio/0 








|-ata/0 
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该 树 型 
制 ， 





度 来 看 是 这 样 。Linux 


EE 


结构 的 扩展 方式 与 
分 别 是 fork 和 exec。 
(1) fork 可 以 创建 当 
用 执行 之 后 ， 


| -kacpid 

| -kblocka/0 
|-kgameportd 
| -khubd 
|-kseriod 

医 


-2*[pdflush] 


'-reiserfs/0 





























新 进程 的 








前 进程 的 











系统 中 有 两 个 进程 ， 都 

















write) ， 


例如 ， 


为 齐 
Ya 





1. 线程 


进程 并 不 是 内 核 支持 的 唯 





= 


主要 的 原 
问 的 情况 下 父 进程 和 子 进 程 可 以 共 
日 fork 的 一 





二 月 
览 器 将 执行 Eork， 复 
(2) exec 将 一 个 新 


所 的 数据 。 























个 副本 ， 父 进 








执行 同样 的 操作 。 
使 用 了 一 种 众所周知 的 技术 来 使 fork 操 作 更 高 
里 是 将 内 存 复 制 操 





作 延 迟到 父 进程 或 子 进程 向 某 内 存 页 面 写 入 数据 

















用 

















种 可 能 


的 情况 是 ， 用 
制 其 代码 ， 接 下 来 子 进程 中 将 启动 适当 


同一 内 存 页 。 


户 打 开 男 一 


创建 方式 密切 相关 。UNIX 操 作 系 统 中 





he 


只 有 
































父 进程 内 

















-AN 











存 的 内 容 将 被 复制 ， 


至 少 从 程序 的 


JPID (进程 ID) 不 同 。 在 该 系统 调 


有 两 种 创建 新 进程 的 机 























1 效 , 该 技术 称 为 DD DD 《copy on 





























的 ] 





个 浏览 TA 
操作 建立 新 窗 





| 


口 。 如 果 选 中 了 对 应 
器。 
































程序 力 











然后 








还 有 














种 形式 是 0 0 (有 了 时 











程 可 能 


1 若干 线程 组 成 ， 这 些 





概念 已 经 








心 公 储 





JDE 





始 执行 


所 程序 。 








0 载 到 当前 进程 的 内 存 中 并 执行 。 















































5 线程 共 





种 程序 执行 
也 称 为 0DDDDD )。 线 程 也 已 
k 享 同样 的 数据 和 资源 ， 但 可 
成 到 许多 现代 编程 语言 中 ,例如 Java。 











而 线程 则 是 
图 像 时 。 
载 区 























通常 济 
象 ， 并 使 月 
浏览 器 定义 了 一 个 例 程 来 加 


与 主 程序 六 











览 器 只 
日 某 种 通信 机 种 











线程 和 主 程 
同一 内 存 




















Linux 














序 共享 同样 的 地 ] 
区 而 采取 的 互 斥 机 制 外 ,就 不 需要 
jclone 方 法 创建 线程 。 





可 
Ej 





与 父 进 程 共 
度 上 允许 








2. 命名 空 





线程 与 进程 之 间 的 连 


间 


好 执行 几 次 fork 和 exec 调 用 ， 


载 图 像 ， 
址 空间 ， 





主 程 户 


F 行 运行 的 程序 函数 或 例 程 。 


| 将 接收 的 数据 提供 给 主 程序 。 在 使 





可 以 将 例 程 作 


该 特性 是 有 





旧 程 序 的 内 存 页 将 刷 出 





























简 而 言 之 ， 














以 此 





为 线程 启动 ， 


的 ， 


用 


进程 可 








的 选项 ， 











前 ， 在 只 读 访 
浏 
其 内 容 将 替换 
E 式 。 除 了 口 DODDD (有 时 也 称 为 UNIX 进 程 ) 之 外 ， 
已 经 出 现 相当 长 的 一 段 时 间 ， 本 质 上 一 个 进 


能 执行 程序 中 不 同 的 代码 路 径 。 
以 看 作 一 个 正在 执行 的 程序 ， 


线程 








例如 在 浏 

















览 器 需要 并 行 加 




















线程 时 , 这 种 情况 更 


使 用 参数 不 同 的 多 个 线程 























动 就 








可 以 访问 接 














其 工 











、 哪 些 资源 为 线程 独立 创 
续 转 换 。 








图 


在 内 核 2.6 的 开发 期 间 ， 对 命名 空 
到 不 同 的 系统 视图 。 














么 通信 
作 方 式 类 似 于 fork， 但 


疏 到 的 数据 。 因 
.图 1-2 说 明了 有 和 没有 线程 





此 
































的 程序 之 


























建 。 这 种 细 


无 线程 


会 


有 线程 








1-2 和 没有 























线程 的 进程 对 


启用 了 精确 的 检查 ， 以 确认 哪些 
粒度 的 资源 分 配 扩 展 了 一 般 的 线程 概念 ， 








国 | 地 址 空间 


一 一 > 控制 流 
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在 一 





载 若 干 





创建 阁 干 并行 的 进程 实例 。 这 些 进程 负责 加 
EE 容易 处 理 一 些 。 
可 。 
除了 为 防止 线程 访问 
闻 的 差别 。 
6 资源 
定 程 


由 于 





传统 的 Linux 〈 与 一 般 的 UNIX 


间 的 支持 被 和 


长 成 到 了 廊 











操作 系统 ) 使 











F 多 子 系统 中 。 这 使 得 不 同 的 进程 可 以 看 
































j 许 多 全 局 量 ， 例 如 进程 ID 。 


系统 
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的 每 个 进程 都 有 一 个 唯一 标识 符 〈ID)， 用 户 〈 或 其 他 进程 ) 可 使 用 ID 来 访问 进程 ， 例 如 向 进程 发 一 
个 信号 。 启 用 命名 空间 之 后 ， 以 前 的 全 局 资源 现在 具有 不 同 分 组 。 每 个 命名 空间 可 以 包含 一 个 特定 的 
PID 人 集合， 或 可 以 提供 文件 系统 的 不 同 视图 , 在 某 个 命名 空间 中 挂 载 的 卷 不 会 传播 到 其 他 命名 空间 中 。 

命名 空间 很 有 用 处 。 举 例 来 说 ， 该 特性 对 虚拟 主机 供应 商 是 有 益 的 。 他 们 不 必 再 为 每 个 用 户 准 备 
一 台 物 理 计算 机 ， 而 是 通过 称 为 0D 口 的 命名 空间 来 建立 系统 的 多 个 视图 。 从 容器 内 部 看 来 这 是 一 个 完 
整 的 Linux 系 统 , 而 且 与 其 他 容器 没有 交互 。 容 器 是 彼此 分 离 的 。 每 个 容器 实例 看 起 来 就 像 是 运行 Linux 
的 一 台 计 算 机 ， 但 事实 上 一 台 物 理 机 器 可 以 同时 运转 许多 这 样 的 容器 实例 。 这 有 助 于 更 有 效 地 使 用 资 
源 。 与 完全 的 虚拟 化 解决 方案 (如 KVM) 相 比 ， 计 算 机 上 只 需要 运行 一 个 内 核 来 管理 所 有 的 容器 。 
并 非 内 核 的 所 有 部 分 都 完全 支持 命名 空间 ,在 分 析 各 个 子 系统 时 ， 我 会 讨论 相应 子 系统 对 命名 空 
间 的 支持 程度 。 
1.3.3 ”地 址 空间 与 特权 级 别 
在 开始 讨论 虚拟 地 址 空间 之 前 ， 我 们 需要 修订 一 些 符号 约定 。 在 本 书 中 ， 我 使 用 缩写 KiB、MiB 
和 GiB 作 为 容量 单位 ， 分 别 表 示 2™”"、2”、2”" 字 节 。 
于 内 存 区 域 是 通过 指针 寻 址 ， 因 此 CPU 的 字 长 决定 了 所 能 管理 的 地 址 空间 的 最 大 长 度 。 对 32 位 
系统 (如 IA-32、PPC、m68k)， 是 2”B=4GiB， 对 更 现代 的 64 位 处 理 器 (如 Alpha、Sparc64、IA-64、 
AMD64)， 可 以 管理 2%B。 
也 址 空间 的 最 大 长 度 与 实际 可 用 的 物理 内 存 数 量 无 关 ， 因 此 被 称 为 0DDDD 。 使 用 该 术语 的 
另 一 个 理由 是 ， 从 系统 中 每 个 进程 的 角度 来 看 ， 地 址 空间 中 只 有 自身 一 个 进程 ， 而 无 法 感知 到 其 他 进 
程 的 存在 。 应 用 程序 无 需 关注 其 他 程序 的 存在 ， 好 像 计算 机 中 只 有 一 个 进程 一 样 。 

Linux 将 虚拟 地 址 空间 划分 为 两 个 部 分 ， 分 别称 为 IUDD 和 000D ， 如 图 1-3 所 示 。 


232 或 264 
内 核 空间 
TASK_SIZE 
















































































































































































































































































































































































































































































































































































































































































0 
图 1-3 ”虚拟 地 址 空间 的 划分 


系统 中 每 个 用 户 进 程 都 有 自身 的 虚拟 地 址 范围 ， 从 0 到 TASK_sIZE。 用 户 空间 之 上 的 区 域 (从 
TASK_SIZE 到 2”” 或 2%) 保留 给 内 核 专 用 ， 用 户 进程 不 能 访问 。TASK_sIzE 是 一 个 特定 于 计算 机 体系 结 
构 的 常数 ， 把 地 址 空间 按 给 定 比 例 划 分 为 两 部 分 。 例 如 在 IA-32 系 统 中 ， 地 址 空间 在 3 GiB 处 划分 ， 攻 
此 每 个 进程 的 虚拟 地 址 空间 是 3 GiB。 由 于 虚拟 地 址 空间 的 总 长 度 是 4 GiB, 所 以 内 核 空间 有 1 GiB 可 用 。 
尽管 实际 的 数字 依 不 同 的 计算 机 体系 结构 而 不 同 ， 但 一 般 概 念 都 是 相同 的 。 因 此 我 在 进一步 讨论 中 将 
使 用 例子 中 的 这 些 值 。 

这 种 划分 与 可 用 的 内 存 数量 0 口 。 由 于 地 址 空间 虚拟 化 的 结果 , 口 0 用户 进程 都 认为 自身 有 3 GiB 
内 存 。 各 个 系统 进程 的 用 户 空间 是 完全 彼此 分 离 的 。 而 虚拟 地 址 空间 顶部 的 内 核 空 间 总 是 同样 的 ,无 
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论 当前 执行 的 是 哪个 进程 。 
注意 ，64 位 计算 机 的 情况 可 能 更 复杂 ， 因 为 它们 在 实际 管理 自身 巨大 的 理论 虚拟 地 址 空间 时 ， 倾 
向 于 使 用 小 于 64 的 位 数 。 实 际 使 用 的 位 数 一 般 小 于 64 位 ， 如 42 位 或 47 位 。 因 此 ， 地 址 空间 中 实际 可 寻 
址 的 部 分 小 于 理论 长 度 。 但 无 论 如 何 ， 该 值 仍然 大 于 计算 机 上 实际 可 能 的 内 存 数量 ， 因 此 是 完全 够 用 
的 。 这 种 做 法 的 一 个 优点 是 ， 与 寻 址 完整 的 虚拟 地 址 空间 相 比 ， 管 理 有 效 地 址 空间 所 需 的 位 数 较 少 ， 
因此 CPU 可 以 节省 一 些 工作 量 。 这样， 虚拟 地 址 空间 会 包含 一 些 不 可 寻 址 的 洞 ， 所 以 图 1-3 描 述 的 简单 
情况 是 不 完全 正确 的 。 我 们 将 在 第 4 章 更 详细 地 讨论 该 主题 。 
1. 特权 级 别 
内 核 把 虚拟 地 址 空间 划分 为 两 个 部 分 ， 因 此 能 够 保护 各 个 系统 进程 ， 使 之 彼此 隔离 。 所 有 的 现代 
CPU 都 提供 了 几 种 特权 级 别 ， 进 程 可 以 驻 留 在 某 一 特权 级 别 。 每 个 特权 级 别 都 有 各 种 限制 ， 例 如 对 执 
行 某 些 汇编 语言 指令 或 访问 虚拟 地 址 空间 某 一 特定 部 分 的 限制 。IA-32 体 系 结构 使 用 4 种 特权 级 别 构成 
的 系统 ， 各 级 别 可 以 看 作 是 环 。 内 环 能 够 访问 更 多 的 功能 ， 外 环 则 较 少 ， 如 图 1-4 所 示 。 


IA-32 Linux 特权 降低 
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图 1-4 特权 级 别 的 环 状 系统 


尽管 英特尔 处 理 器 区 分 4 种 特权 级 别 ， 但 Linux 只 使 用 两 种 不 同 的 状态 : 核心 态 和 用 户 状态 。 两 种 
状态 的 关键 差别 在 于 对 高 于 TASK_srzE 的 内 存 区 域 的 访问 。 简 而 言 之 , 在 用 户 状态 禁止 访问 内 核 空间 。 
用 户 进程 不 能 操作 或 读 取 内 核 空间 中 的 数据 ， 也 无 法 执行 内 核 空间 中 的 代码 。 这 是 内 核 的 专用 领域 。 
这 种 机 制 可 防止 进程 无 意 间 修 改 彼此 的 数据 而 造成 相互 干扰 。 

从 用 户 状态 到 核心 态 的 切换 通过 0 0 0 的 特定 转换 手段 完成 , 且 系 统 调用 的 执行 因 具 体系 统 而 
不 同 。 如 果 普通 进程 想 要 执行 任何 影响 整个 系统 的 操作 例如 操作 输入 /输出 装置 ， 则 只 能 借助 于 系 
统 调用 向 内 核发 出 请 求 。 内 核 首先 检查 进程 是 否 0 0 执行 想 要 的 操作 , 然后 代表 进程 执行 所 需 的 操作 ， 
接 下 来 返回 到 用 户 状态 。 

除了 代表 用 户 程序 执行 代码 之 外 ， 内 核 还 可 以 由 异步 硬件 中 断 激活 ， 然 后 在 0 0 0 0 口中 运行 。 
与 在 进程 上 下 文中 运行 的 主要 区 别 是 ， 在 中 断 上 下 文中 运行 不 能 访问 虚拟 地 址 空间 中 的 用 户 空间 部 
分 。 因 为 中 断 可 能 随机 发 生 ， 中 断 发 生 时 可 能 是 任 一 用 户 进程 处 于 活动 状态 ， 由 于 该 进程 基本 上 与 中 
断 的 原因 无 关 ， 因 此 内 核 无 权 访问 当前 用 户 空间 的 内 容 。 在 中 断 上 下 文中 运行 时 ， 内 核 必须 比 正常 情 
况 更 加 谨慎 ， 例 如 ， 不 能 进入 睡眠 状态 。 在 编写 中 断 处 理 程序 时 需要 特别 注意 这 些 ， 第 2 章 会 详细 讨 
论 相关 问题 。 图 1-5 概 述 了 不 同 的 执行 上 下 文 。 
除了 普通 进程 ， 系 统 中 还 有 0 0 0 0 在 运行 。 内 核 线程 也 不 与 任何 特定 的 用 户 空间 进程 相关 联 ， 
因此 也 无 权 处 理 用 户 空间 。 不 过 在 其 他 许多 方面 ， 内 核 线程 更 像 是 普通 的 用 户 层 应 用 程序 。 与 在 中 
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上 下 文 运转 的 内 核 相 比 , 内 核 线程 可 以 进入 睡眠 状态 , 也 可 以 像 系统 中 的 普通 进程 一 样 被 调度 器 跟踪 。 
内 核 线程 可 用 于 各 种 用 途 : 从 内 存 和 块 设 备 之 间 的 数据 同步 ， 到 帮助 调度 器 在 CPU 上 分 配 进 程 。 我 们 
在 本 书 中 会 经 常 遇 到 它们 。 

































































We a 
和 
户 空间 < 2 | 禁止 访问 
2 
AN 


一 一 
、 箭头 表示 CPU 
系统 调用 。 从 系统 调用 《 (< ) 在 此 贡生 
返回 

图 1-5 在 核心 态 和 用 户 状 态 执 行 。CPU 大 多 数 时 间 都 在 执行 用 户 空间 中 的 代码 。 当 应 用 程序 执行 

系统 调用 时 ， 则 切换 到 核心 态 ， 内 核 将 完成 其 请 求 。 在 此 期 间 ， 内 核 可 以 访问 虚拟 地 址 空 
间 的 用 户 部 分 。 在 系统 调用 完成 之 后 ，CPU 切 换 回 用 户 状态 。 硬 件 中 断 也 会 使 CPU 切换 到 

核心 态 ， 这 种 情况 下 内 核 不 能 访问 用 户 空间 
请 注意 ， 在 ps 命令 的 输出 中 很 容易 识别 内 核 线程 ， 其 名 称 都 置 于 方 括号 内 。 


wolfgang@meitner> ps fax 


































































































































































































PID TTY STAT TIME COMMAND 
2 ? S< 0:00 [kthreadd] 
3 了? S< 0:00 _ [migration/0 
4 3 S< 0:00 [ksoftizddq/0] 
5 2? S< 0:00 _ [migration/1] 
6 2 S< 0:00 _ [ksoftirqd/1 
了 32 S< 0:00 _ [migration/2] 
8 ? S< 0:00 _ [ksoftiraqd/2] 
9 ? S< 0:00 _ [migration/3 
1L0 © S< 0:00 _ [ksoftirqd/3] 
开业 .党 S< 0:00 _ [events/0] 

12 ? S< 0:00 _ [events/1] 

1 3 交 S< 0:00 _ [events/2] 

14 ? S< 0:00 _ [events/3] 

15: 总 Sz 0:00 _ [khelper] 
15162 ? S< 0:00 _ [jfsCommit] 
15163 ? S< 0:00 _ [jfsSync] 

在 多 处 理 器 系统 上 ， 许 多 线程 启动 时 指定 了 CPU， 并 限制 只 能 在 某 个 特定 的 CPU 上 运行 。 从 内 核 


























线程 名 称 之 后 的 斜 线 和 CPU 编号 可 以 看 到 这 一 点 。 
2. 虚拟 和 物理 地 址 空间 
大 多 数 情况 下 ， 单 个 虚拟 地 址 空间 就 比 系统 中 可 用 的 物理 内 存 要 大 。 在 每 个 进程 都 有 自身 的 虚拟 
地 址 空间 时 ， 情 况 也 不 会 有 什么 改善 。 因 此 内 核 和 CPU 必须 考虑 如 何 将 实际 可 用 的 物理 内 存 映 射 到 虚 
拟 地 址 空间 的 区 域 。 
可 取 的 方法 是 用 页 表 来 为 0 日 地 址 分 配 日 地 址 。 虚 拟 地 址 关系 到 进程 的 用 户 空间 和 内 核 空 间 ， 
而 物理 地 址 则 用 来 寻 址 实际 可 用 的 内 存 。 原 理 如 图 1-6 所 示 。 
图 中 所 示 两 个 进程 的 虚拟 地 址 空间 ， 都 被 内 核 划 分 为 很 多 等 长 的 部 分 。 这 些 部 分 称 之 为 0 。 物 理 
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内 存 也 划分 为 同样 大 小 的 页 。 






































图 1-6 ”虚拟 和 物理 地 址 


图 1-6 中 的 箭头 标明 了 虚拟 地 址 空间 中 的 页 如 何 分 配 到 物理 内 存 页 。 例 如 ， 进 程 A 的 虚拟 内 存 页 1 
映射 到 物理 内 存 页 4， 而 进程 B 的 虚拟 内 存 页 1 映射 到 物理 内 存 页 5。 由 此 可 见 , 不同 进程 的 同一 虚拟 地 
址 实际 上 具有 不 同 的 含义 。 
物理 内 存 页 经 常 称 作品 口 。 相 比 之 下 ,， 口 则 专 指 虚 拟 地 址 空间 中 的 页 。 

虚拟 地 址 空间 和 物理 内 存 之 间 的 映射 也 使 得 进程 之 间 的 隔离 有 一 点 点 松动 。 我 们 的 例子 即 包 含 了 
一 个 由 两 个 进程 显 式 共享 的 页 帧 。 进 程 A 的 页 5 和 进程 B 的 页 1 都 指向 物理 页 帧 5S。 这 种 情况 是 可 能 的 ， 
因为 两 个 虚拟 地 址 空间 中 的 页 (虽然 在 不 同 的 位 置 ) 可 以 映射 到 同一 物理 内 存 页 。 由 于 内 核 负 责 将 虚 
拟 地 址 空间 映射 到 物理 地 址 空间 ， 因 此 可 以 决定 哪些 内 存 区 域 在 进程 之 间 共 享 ， 哪 些 不 共享。 

图 1-6 表 明 并 非 虚 拟 地 址 空间 的 所 有 页 都 映射 到 某 个 页 帧 。 这 可 能 是 因为 页 没有 使 用 ， 或 者 是 数 
据 尚 不 需要 使 用 而 没有 载 入 内 存 中 。 还 可 能 是 页 已 经 换 出 到 人 硬盘， 将 在 需要 时 再 换 回 内 存 。 

最 后 请 注意 , 称呼 用 户 运行 的 应 用 程序 时 , 有 两 个 等 价 的 名 词 可 用 。 其 中 之 一 是 0 QD 0D (userland)， 
BSD 社 区 更 喜欢 使 用 该 术语 来 称呼 所 有 不 属于 内 核 的 东西 。 男 一 种 说 法 是 称 某 个 应 用 程序 在 0D 0 0 口 
运行 。 应 该 注意 到 , 口 DD 这 个 名 词 总 是 指 应 用 程序 本 身 ， 而 DDDUD 则 不 仅 可 以 表示 应 用 程序 ， 还 
指 代 了 应 用 程序 所 运行 的 虚拟 地 址 空间 的 一 部 分 ， 与 0 口 口 口 相 对 。 


1.3.4 页 表 


用 来 将 虚拟 地 址 空间 映射 到 物理 地 址 空间 的 数据 结构 称 为 0 口 。 实 现 两 个 地 址 空间 的 关联 最 容易 
的 方法 是 使 用 数组 ， 对 虚拟 地 址 空间 中 的 每 一 页 ， 都 分 配 一 个 数组 项 。 该 数组 项 指向 与 之 关联 的 页 帧 ， 
但 有 一 个 问题 。 例 如, IA-32 体 系 结构 使 用 4 KiB 页 , 在 虚拟 地 址 空间 为 4GiB 的 前 提 下 ， 则 需要 包含 100 
万 项 的 数组 。 在 64 位 体系 结构 上 ， 情 况 会 更 糟糕 。 每 个 进程 都 需要 自身 的 页 表 ， 因 此 系统 的 所 有 内 存 
都 要 用 来 保存 页 表 ， 也 就 是 说 这 个 方法 是 不 切实 际 的 。 
因为 虚拟 地 址 空间 的 大 部 分 区 域 都 没有 使 用 ， 因 而 也 没有 关联 到 页 帧 ,那么 就 可 以 使 用 功能 相同 
但 内 存 用 量 少 得 多 的 模型 : 多 级 分 页 。 

为 减少 页 表 的 大 小 并 容许 忽略 不 需要 的 区 域 , 计算 机 体系 结构 的 设计 会 将 虚拟 地 址 划分 为 多 个 部 
分 ， 如 图 1-7 所 示 。( 具 体 在 地 址 字 的 哪些 位 区 域 进行 划分 ， 可 能 依 不 同 的 体系 结构 而 异 ， 但 这 与 现在 
我 们 讨论 的 内 容 不 相关 )。 在 例子 中 ， 我 将 虚拟 地 址 划分 为 4 部 分 ， 这 样 就 需要 一 个 0] 口 的 页 表 。 大 多 
数 体系 结构 都 是 这 样 的 做 法 。 但 有 一 些 采 用 了 四 级 的 页 表 ， 而 Linux 也 采用 了 四 级 页 表 。 为 简化 场景 ， 
我 在 这 里 会 一 直 用 三 级 页 表 曾 述 。 
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个 数组 《每 个 进程 有 且 仪 有 























组 的 起 始 地 址 ， 这 些 数组 





















































当然 ， 该 方法 也 有 
































个 )， 该 数组 是 所 谓 的 
称 为 DD DDD (Page Middle Directory，PMD )。 
虚拟 地 址 中 的 第 二 个 部 分 称 为 PMD， 在 通过 PGD 
来 索引 PMD。PMD 的 数组 项 也 是 指针 ， 指 
虚拟 地 址 的 第 三 个 部 
页 帧 之 间 的 映射 就 此 完成 ， 
虚拟 地 址 最 后 的 一 部 分 称 为 0 DD 。 它 指定 了 页 
向 地 址 空间 中 唯一 定义 的 某 个 
页 表 的 一 个 特色 在 于 ， 对 虚拟 
用 单个 数组 的 方法 相 比 ， 多 级 页 表 
个 缺点 。 每 次 访问 内 存 时 ，， 











向 下 一 级 数组 ， 称 为 0 
分 称 为 PTE (Page Table Entry， 页 表 数 组 
项 是 指向 页 帧 的 。 








因为 页 表 的 数 引 

































































(1) CPU 中 有 一 个 专 I 


化 了 内 存 访 问 操作 。 








(2) 地 址 转换 中 出 现 最 频繁 的 那些 地 址 ， 保 存 至 


时 地址 。CPU 试 图 用 下 面 两 种 方法 加 速 该 过 程 。 
] 的 部 分 称 为 MMU (Memory Management Unit， 








虚拟 地 址 的 第 一 部 分 称 为 DUODDD (Page Global Directory，PGD)。PGD 用 于 索引 进程 中 的 
局 页 目录 或 PGD。PGD 的 数组 项 指向 男 一 些 数 








FP 的 数组 项 找到 对 应 的 PMD 之 后 ， 则 使 用 PMD 
0 或 D00。 

1 )， 用 作 页 表 的 索引 。 虚 拟 内 存 页 和 
内 部 的 一 个 字 节 位置。 归根 结 底 ， 每 个 地 址 都 指 
的 区 域 ， 不 必 创建 中 间 页 目录 或 页 表 。 与 前 述 使 


必须 逐 级 访问 多 个 数组 才能 将 虚拟 地 址 转换 为 物 





0U000D0D0 >》， 该 单元 优 





| 称 为 0DUD DODODDODOD (Translation Lookaside 














Buffsr，TLB ) 的 CPU 高 速 绥 存 中 。 无 需 敢 





大 大 加 速 了 地 址 转换 





在 许多 体系 结构 中 高 速 缓存 的 运转 是 透明 的 ， 但 某 些 体系 结构 则 需要 内 核 专门 处 理 。 这 更 意味 着 











的 页 表 即 可 从 高 速 缓存 直接 获得 地 址 数据 ， 因 而 





















































每 当 页 表 的 内 容 变化 时 必须 使 TLB 高 速 缓存 无 效 。 内 核 中 凡 涉 及 操作 页 表 之 处 都 必须 调用 相应 的 指 





令 。 如 果 针对 不 需要 此 类 操作 的 体系 结构 编译 内 核 ， 则 相 


1. 与 CPU 的 交互 


IA-32 体 系 结构 在 将 虚拟 地 址 映射 到 物理 ( 
Sparc64、IA -64 等 ) 地 址 空间 比较 大 ， 需 要 三 级 或 四 级 的 页 表 ， 内 核 与 体系 结构 0 0 D 部 分 总 





使 用 四 级 页 表 。 




















对 于 只 支持 二 级 或 三 级 页 表 的 CPU 来 说 , 内核 









































使 用 了 两 级 页 表 。 而 64 位 体系 结构 
达 














吉 构 0 口 口 代码 必须 通过 空 




















表 进 行 仿真 。 因 此 ， 内 存 4 


2. 内 存 映 射 


ra 











已 





理 代 码 剩 余部 分 的 实现 是 与 CPU 无 关 的 。 








自动 变 为 空 操作 。 


Alpha、 
:是 假定 
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表 对 缺少 的 页 




















0 ODDO 是 一 种 重要 


的 提 














将 任意 来 源 的 数据 传输 到 进 

















户 应 用 程序 。 映 射 方法 可 以 









































程 的 虚拟 地 志 


也 址 空间 区 域 ， 可 以 像 普通 内 存 那 
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样 用 通常 的 方法 访问 。 但 任何 修改 都 会 自动 传输 到 原 数 据 源 。 这 样 就 可 以 使 用 相同 的 函数 来 处 理 完全 
不 同 的 目标 对 象 。 例如 , 文件 的 内 容 可 以 映射 到 内 存 中 。 处理 只 需 读 取 相 应 的 内 存 即 可 访问 文件 内 容 ， 
或 向 内 存 写 入 数据 来 修改 文件 的 内 容 。 内 核 将 保证 任何 修改 都 会 自动 同步 到 文件 中 。 
内 核 在 实现 设备 驱动 程序 时 直接 使 用 了 内 存 映 射 。 外 设 的 输入 /输出 可 以 映射 到 虚拟 地 址 空间 的 
区 域 中 。 对 相关 内 存 区 域 的 读 写 会 由 系统 重 定向 到 设备 ， 因 而 大 大 简化 了 驱动 程序 的 实现 。 
1.3.5 ”物理 内 存 的 分 配 
在 内 核 分 配 内 存 时 ， 必 须 记 录 页 帧 的 已 分 配 或 空 亲 状态 ， 以 免 两 个 进程 使 用 同样 的 内 存 区 域 。 由 
于 内 存 分 配 和 释放 非常 频繁 ， 内 核 还 必须 保证 相关 操作 尽快 完成 。 内 核 可 以 只 分 配 完整 的 页 帧 。 将 内 
存 划分 为 更 小 的 部 分 的 工作 ， 则 委托 给 用 户 空间 中 的 标准 库 。 标 准 库 将 来 源 于 内 核 的 页 帧 拆 分 为 小 的 
区 域 ， 并 为 进程 分 配 内 存 。 
1. 伙伴 系统 
内 核 中 很 多 时 候 要 求 分 配 连 续 页 。 为 快速 检测 内 存 中 的 连续 区 域 ,内 核 采用 了 一 种 古老 而 历经 检 
验 的 技术 : 000D0 。 
系统 中 的 空闲 内 存 块 总 是 两 两 分 组 ， 每 组 中 的 两 个 内 存 块 称 作 伙伴 。 伙 伴 的 分 配 可 以 是 彼此 独立 
的 。 但 如 果 两 个 伙伴 都 是 空闲 的 ， 内 核 会 将 其 合并 为 一 个 更 大 的 内 存 块 ， 作 为 下 一 层次 上 某 个 内 存 块 
的 伙伴 。 图 1-8 示 范 了 该 系统 ， 图 中 给 出 了 一 对 伙伴 ， 初 始 大 小 均 为 8 页 。 
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图 1-8 ”伙伴 系统 



































内 核对 所 有 大 小 相同 的 伙伴 (1、2、4、8、16 或 其 他 数目 的 页 )， 都 放置 到 同一 个 列表 中 管理 。 
各 有 8 页 的 一 对 伙伴 也 在 相应 的 列表 中 。 
如 果 系 统 现在 需要 8 个 页 帧 ， 则 将 16 个 页 帧 组 成 的 块 拆 分 为 两 个 伙伴 。 其 中 一 块 用 于 满足 应 用 程 
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序 的 请 求 ， 而 剩余 的 8 个 页 帧 则 放置 到 对 应 8 页 大 小 内 存 块 的 列表 中 。 


如 果 下 一 个 请 求 





只 需要 2 个 连续 页 帧 ， 则 





























口 


一块 放置 回 伙 
一 个 则 传递 给 应 




















华 胸 
程序 。 























在 应 用 程 请 
更 大 的 内 存 块 放 

在 系统 长 
1 运行 ， 忆 


于 | 
征 

















若干 页 帧 是 空闲 





内 存 块 ， 而 从 性 能 


释放 内 存 时 


口 








的 ，1 


He 














这 种 效应 ， 但 























! 无 法 完全 消除 。 妇 


























， 内 核 可 以 直接 检查 地 址 ， 来 ; 
到 伙伴 列表 刚好 是 内 存 块 分 裂 的 逆 过 程 。 这 提高 了 较 大 
期 运行 时 ， 服 务 器 运行 儿 个 晤 
P 么 会 发 生 称 为 0 0 的 内 存 
日 却 散 布 在 物理 
考虑 ， 却 又 很 需要 使 月 




















PF, 这 











18 页 组 成 的 块 会 分 裂 成 2 个 伙伴 





广 ? 


间断 是 否 能 够 创建 一 组 


每 个 包含 4 个 页 帧 。 其 





| 表 中 ， 而 男 一 个 再 次 分 裂 成 2 个 伙伴 ， 每 个 包含 2 页 。 其 中 一 个 回 到 伙伴 系统 ， 男 





伙伴 ， 并 合并 为 一 个 
































内 存 块 可 用 的 可 能 性 。 




















期 乃至 几 个 























管理 


地 址 


EE 问题 。 频 繁 和 
空间 的 各 处 。 
较 大 的 连续 内 









































1 果 在 大 块 的 连续 

































































是 很 了 
的 分 配 和 释放 页 帧 可 
换 句 话说 ， 系 统 中 缺乏 0 口 页 帧 组 
存 块 。 通 过 伙伴 系统 可 以 在 某 种 程度 上 减少 


E 常 的 ， 许 多 桌 





面 系统 也 趋向 于 长 期 开 











二 


月 可 








内 存 中 间 刚 好 有 一 个 页 帧 分 配 











致 一 种 情况 : 系统 中 有 
成 的 较 大 的 














显 











去， 很 显然 这 两 块 空 






























































尽 
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闲 的 内 存 是 无 法 合并 的 。 在 内 核 版 本 2.6.24 开 发 期 间 ， 增 加 了 一 些 有 效 措施 来 防止 内 存 人 碎片 ， 我 会 在 
第 3 章 更 详细 地 讨论 相关 的 底层 实现 机 制 。 

2. slab 缓 存 

内 核 本 身 经 常 需 要 比 完整 页 帧 小 得 多 的 内 存 块 。 由 于 内 核 无 法 使 用 标准 库 的 函数 ， 因 而 必须 在 伙 
伴 系统 基础 上 自行 定义 额外 的 内 存 管 理 层 ， 将 伙伴 系统 提供 的 页 划分 为 更 小 的 部 分 。 该 方法 不 仅 可 以 
分 配 内 存 ， 还 为 频繁 使 用 的 小 对 象 实现 了 一 个 一 般 性 的 缓存 一 一 slab0 口 。 它 可 以 用 两 种 方法 分 配 内 存 。 

(1) 对 频繁 使 用 的 对 象 ， 内 核定 义 了 只 包含 了 所 需 类 型 对 象 实例 的 缓存 。 每 次 需要 某 种 对 和 象 时 ， 
可 以 从 对 应 的 缓存 快速 分 配 〈 使 用 后 释放 到 缓存 )。slab 绥 存 自 动 维护 与 伙伴 系统 的 交互 ， 在 缓存 用 
时 会 请 求 新 的 页 帧 。 








(2) 对 通常 情况 下 小 内 存 块 的 分 配 ， 内 核 针对 不 同 大 小 的 对 象 定义 了 一 组 slab 绥 存 ， 可 以 像 














































































































































































































户 空 
































间 编 程 一 样 ， 用 相同 的 函数 访问 这 些 缓存 。 不 同 之 处 是 这 些 函 数 都 增加 了 前 级 k， 表 明 是 与 内 核 相 关 
联 的 : kmalloc 和 kfree。 
虽然 slab 分 配器 在 各 种 工作 负荷 下 的 性 能 都 很 好 ， 但 在 真正 规模 庞大 的 超级 计算 机 上 使 用 时 ， 出 
现 了 一 些 可 伸缩 性 问题 。 另 一 方面 ， 对 真正 微小 的 嵌入 式 系统 来 说 ，slab 分 配器 的 开销 可 能 又 太 大 了 。 
内 核 提 供 了 slab 分 配器 的 两 种 备 选 方案 ,可 用 于 在 相应 的 场景 下 替换 slab 分 配器 并 提供 更 好 的 性 能 。 对 
内 核 的 其 他 部 分 而 言 ， 这 3 种 方案 的 接口 相同 ， 因 而 不 必 关 注 内 核 中 实际 编译 进来 的 底层 分 配器 是 哪 
一 个 。 由 于 slab 分 配 仍然 是 内 核 的 标准 方法 ， 因 此 我 不 会 详细 讨论 备 选 方案 。 图 1-9 综 述 了 伙伴 系统 、 
slab 分 配器 以 及 内 核 其 他 方面 之 间 的 关联 。 
国人 
伙伴 系统 分 配器 口 小 方 格 表示 页 帧 
口 口 口 上 口 口 口 
图 1-9 ”页 帧 的 分 配 由 伙伴 系统 进行 ， 而 slab 分 配器 则 负责 分 配 小 内 存 以 及 提供 一 般 性 的 内 核 缓存 

















3. 页 面 交 换 和 页 面 回收 



























































0000 通过 利 








位 得 








空间 作为 扩展 内 存 ， 从 而 增 大 了 可 








] 的 内 存 。 在 内 





核 需要 更 多 内 存 时 ， 不 


1.3 中 
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经 党 使 用 的 页 可 以 写 入 硬盘。 如 果 再 需要 访问 相关 数据 ， 内 核 会 将 相应 的 页 切换 回 内 存 。 通 过 0 0 口 








0DD ， 这 种 切换 操作 对 应 用 程序 是 透明 的 。 换 出 的 页 可 以 通过 特别 的 页 表 项 标识 。 在 进程 试图 访问 


此 类 页 帧 时 ，CPU 则 启动 一 个 可 以 被 内 核 截取 的 缺 页 异常 。 此 时 内 核 可 以 ) 
































全 不 可 见 的 。 
DODOO0OD0 用 



































等 人 硬盘 上 的 数据 切换 到 内 存 





中 。 接 下 来 用 户 进程 可 以 恢复 运行 。 由 于 进程 无 法 感知 到 缺 页 异常 ， 所 以 页 的 换 入 和 换 出 对 进程 是 完 





于 将 内 存 映射 被 修改 的 内 容 与 底层 的 块 设备 同步 ,为 此 有 时 也 简称 为 0 口 口 口 。 数 据 








刷 出 后 ， 内 核 即 























可 将 页 帧 用 于 其 他 用 途 〈 类 似 于 页 面 交 换 ) 。 内 核 的 数据 结构 包含 了 与 此 相关 的 所 有 


























信息 ， 当 再 次 需要 该 数据 时 ， 





1.3.6 ”计时 
内 核 必须 外 





的 时 音标 。 名 为 j 
增 。 每 种 计算 机 底层 体系 结构 都 提 
























































可 根据 相关 信息 从 硬盘 找到 相应 的 数据 并 加 载 。 


E 够 测量 时 间 以 及 不 同时 间 点 的 时 差 ， 进 程 调度 就 会 用 到 该 功能 。jiffies 是 一 个 合适 








iffies_64 和 jiffies( 分 别 是 64 位 和 32 位 〉 的 全 局 变 

















量 ， 会 按 恒定 的 时 间 间 隔 递 














供 了 一 些 执行 周 期 性 操作 的 手段 ， 通 常 














述 的 两 个 全 局 变 




















允许 的 前 提 下 ， 
来 计量 时 间 。 








中 断 是 没有 意义 
是 很 有 用 的 ， 例 




















计时 的 周期 是 可 以 0 0 
的 ， 这 会 阻止 处 理 


jiffies 递 增 的 频率 同体 系 
和 1 000 中 间 。 换 言 之 ， 














内 核 可 使 用 高 分 昼 

















量 的 更 新 可 使 用 底 


jiffies 的 


改变 的 。 























导体 系 结构 提供 的 各 种 定时 器 机 制 执行 。 
结构 有 关 , 取决 于 内 核 中 一 个 主要 的 常数 Hz。 该 常数 的 值 通常 介 于 100 
值 每 秒 递 增 的 次 数 在 100 至 1 000 次 之 间 。 
基于 jiffies 的 计时 相对 粒度 较 粗 ， 因 为 目前 1 000 Hz 已 经 算 不 上 很 高 的 频率 了 。 在 底层 硬件 能 


if 率 的 定时 器 提供 额外 的 计时 手段 ， 能 够 以 纳 秒 级 的 精确 度 和 分 辨 率 











的 形式 是 定时 器 中 断 。 对 前 


















































如 笔记 本 电脑 和 和 奶 入 式 系统 。 
1.3.7 ”系统 调用 



































在 没有 或 无 需 频 繁 的 周期 性 操作 的 情况 下 ， 周 期 性 地 产生 定时 器 
器 降低 耗 电 进入 睡眠 状态 。 动 态 改变 计时 周期 对 于 供电 受 限 的 系统 














DO0ODOD 是 用 户 进程 与 内 核 交 互 的 经 典 方法 。POSIX 标 准 定义 了 许多 系统 调用 ， 以 及 这 些 系统 调 




















口 进程 管理 :创建 新 进程 ， 


口 信号 : 发 送信 号， 





护 机 制 来 保证 系 





口 目录 和 文件 系统 : 
口 保护 机 制 : 




















必 在 所 有 遵从 POSIX 的 系统 包 所 Linux 上 的 语义 。 传统 的 系统 调 


查 

















询 信息 ， 调 试 。 














定时 器 以 及 相关 处 理 机 制 。 














出 了 要 求 。 这 些 函数 不 外 





口 文件 : 创建 、 打 开 和 关闭 文件 ， 从 文件 读 取 和 向 文件 写 入 ， 查 询 信 


用 按 不 同类 别 分 组 ， 如 下 所 示 。 


息 和 状态 。 














创建 、 删 除 和 重 命名 目录 ， 查 询 信息 ， 链 接 ， 变 
读 取 和 变更 UID/GID， 命 名 空间 的 处 理 。 
口 定时 器 函数 : 定时 器 函数 和 统计 信息 。 
所 有 这 些 函 数 都 对 内 核 提 


























统 稳定 性 或 安全 不 受 危及 。 此 外 许多 调用 依赖 内 核 内 部 的 弓 











据 或 结果 ， 这 也 


状态 切换 到 核心 态 。Linux 对 此 没 





导致 了 无 法 在 用 























更 目录 。 








上 以 普通 的 用 户 库 形式 实现 ， 因 为 需要 特别 的 保 





吉 构 或 函数 来 得 到 所 需 的 数 





户 空 间 实现 。 在 发 出 系统 调用 时 ， 处 理 器 必须 改变 特权 级 别 ， 从 用 户 


二 下 




















了 标准 化 的 做 法 ， 因 为 每 个 硬件 平台 都 提 

















在 同样 的 体系 











结构 上 也 会 根据 人 处 型 
























































在 IA-32 处 理 器 上 执行 系统 调用 ， 
了 一 种 不 同 的 方法 来 执行 二 进 制 








架构 的 现代 处 理 






































器 也 提供 了 专用 




















供 了 特定 的 机 制 。 有 时 候 ， 











器 类 型 使 用 不 同 的 方法 实现 。 尽 管 Linux 使 用 了 一 个 专用 软件 中 断 
其 他 UNIX 操 作 系 统 在 IA-32 上 的 软件 仿真 “iBCS 仿 真 器 ， 则 采用 
程序 (汇编 语言 爱好 者 会 知道 ， 是 1cal117 或 1cal1127 调 用 门 ) 。IA-32 




















的 





[ 编 语 名 来 执行 系统 调用 。 这 在 旧 系统 上 是 不 可 用 的 ， 因 此 无 法 用 














14 [0UIU 00000 



























































到 所 有 计算 机 上 。 对 所 有 的 处 理 器 来 说 ， 一 个 共同 点 就 是 : 用 户 进程 要 从 用 户 状态 切换 到 核心 态 ， 并 
将 系统 关键 任务 委派 给 内 核 执行 ， 系 统 调 用 是 必由之路 。 


1.3.8 设备 驱动 程序 、 块 设备 和 字符 设备 


设备 驱动 程序 用 于 与 系统 连接 的 输入 /输出 装置 通信 ， 如 人 硬盘、 软驱 、 各 种 接口 、 声 卡 等 。 按 照 
经 典 的 UNIX 艇 言 “万物 丝 文 件 ”(everything is a file)， 对 外 设 的 访问 可 利用 /aev 目 录 下 的 设备 文件 来 
完成 ， 程 序 对 设备 的 处 理 完全 类 似 于 常规 的 文件 。 设 备 驱动 程序 的 任务 在 于 文 持 应 用 程序 经 由 设备 文 
件 与 设备 通信 。 换 言 之 ， 使 得 能 够 按 适当 的 方式 在 设备 上 读 取 / 写 入 数据 。 

外 设 可 分 为 以 下 两 类 。 

(1) 字符 设备 : 提供 连续 的 数据 流 ， 应 用 程序 可 以 顺序 读 取 ， 通 常 不 支持 随机 存 取 。 相 反 ， 此 类 
设备 支持 按 字 节 / 字 > 举例 来 说 ， 调 制 解 调 器 是 典型 的 字符 设备 。 

(2) 块 设备 : 应 用 程序 可 以 随机 访问 设备 数据 ， 程 序 可 自行 确定 读 取 数 据 的 位 置 。 便 盘 是 典型 的 
块 设 备 ， 应 用 程 请 人 寻 址 磁盘 上 的 任何 位 置 ， 并 由 此 读 取 数据 。 此 外 ， 数 据 的 读 写 只 能 以 块 (通常 
是 512B) 的 倍数 进行 。 与 字符 设备 不 同 ， 块 设备 并 不 支持 基于 字符 的 寻 址 。 

编写 块 设备 的 驱动 程序 比 字 符 设备 要 复杂 得 多 ， 因 为 内 核 为 提高 系统 性 能 广泛 地 使 用 了 缓存 
机 制 。 


1.3.9 网 络 


网 卡 也 可 以 通过 设备 驱动 程序 控制 , 但 在 内 核 中 属于 特殊 状况 , 因为 网 卡 不 能 利用 设备 文件 访问 。 
原因 在 于 在 网 络 通信 期 间 ， 数 据 打 包 到 了 各 种 协议 层 中 。 在 接收 到 数据 时 ， 内 核 必 须 针 对 各 协议 层 的 
处 理 ， 对 数据 进行 拆 包 与 分 析 ， 然 后 才能 将 有 效 数 据 传递 给 应 用 程序 。 在 发 送 数据 时 ， 内 核 必须 首先 
根据 各 个 协议 层 的 要 求 打包 数据 ， 然 后 才能 发 送 。 

为 支持 通过 文件 接口 处 理 网 络 连接 (按照 应 用 程序 的 观点 ), Linux 使 用 了 源 于 BSD 的 0 0 0 抽象 。 
套 接 字 可 以 看 作 应 用 程序 、 文 件 接口 、 内 核 的 网 络 实现 之 间 的 代理 。 


1.3.10 ”文件 系统 


Linux 系 统 由 数 以 千 计 乃至 百 万 计 的 文件 组 成 ， 其 数据 存储 在 硬盘 或 其 他 块 设 备 〈 例 如 ZIP 驱 动 、 
光盘 等 )。 存 储 使 用 了 层次 式 文 件 系 统 。 文 件 系 统 使 用 目录 结构 组 织 存储 的 数据 ， 并 将 其 他 元 

县 《例如 所 有 者 、 访 问 权 限 等 ) 与 实际 数据 关联 起 来 。Linux 文 持 许多 不 同 的 文件 系统 : 标准 的 Ext2 
和 Ext3 文 件 系统 、 ReiserFS、XFS、VFAT (为 兼容 DOS)， 还 有 很 多 其 他 文件 系统 。 
于 的 概念 抽象 ， 在 某 种 程度 上 可 以 说 是 南 辕 北 辐 。Ext2 基 于 inode， 即 它 对 每 个 文件 都 构造 了 一 个 单独 
的 管理 结构 ， 称 为 inode， 并 存储 到 磁盘 上 。inode 包 含 了 文件 所 有 的 元 信息 ， 以 及 指 向 相关 娄 据 所 的 
指针 。 目 录 可 以 表示 为 普通 文件 ， 其 数据 包括 了 指向 目录 下 所 有 文件 的 inode 的 指针 ， 因 而 层次 结构 得 
以 建立 。 相 比 之 下 ，ReiserFS 广 泛 应 用 了 树 形 结构 来 提供 同样 的 功能 

内 核 必须 提供 一 个 额外 的 软件 层 ， 将 各 种 底层 文件 系统 的 具体 特 性 与 应 用 层 (和 内 核 自 身 ) 隔离 
开 来 。 该 软件 层 称 为 VYFS (Virtual Filesystem 或 Virtual Filesystem Switch， 虚 拟 文件 系统 或 虚拟 文件 系 
统 交 换 器 )。VFS 既 是 向 下 的 接口 《所 有 文件 系统 都 必须 实现 该 接口 )， 同 时 也 是 向 上 的 接口 “用 户 进 
程 通过 系统 调用 最 终 能 够 访问 文件 系统 功能 )。 如 图 1-10 所 示 。 
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个 系统 调用 









































虚拟 文件 系统 
Vy Ma Ma 
ExtN XFS ProcFs | 二 之 各 种 子 系统 
个 vy 个 
页 缓存 ”| 之 
Vy 
块 设备 层 。 | 之 | 设备 驱动 程序 | 让 已 硬盘 





图 1-10 ”虚拟 文件 系统 层 、 文 件 系统 实现 和 块 设备 层 之 间 的 互 操 作 


1.3.11 模块 和 热 插 拔 


模块 用 于 在 运行 时 动态 地 向 内 核 添加 功能 ， 如 设备 驱动 程序 、 文 件 系 统 、 网 络 协 议 等 ， 实际 上 内 
核 的 任何 子 系统 ”几乎 都 可 以 模块 化 。 这 消除 了 宏 内 核 与 微 内 核 相 比 一 个 重要 的 不 利之 处 。 

模块 还 可 以 在 运行 时 从 内 核 和 卸载， 这 在 开发 新 的 内 核 组 件 时 很 有 用 。 

模块 在 本 质 上 不 过 是 普通 的 程序 ， 只 是 在 内 核 空间 而 不 是 用 户 空间 执行 而 已 。 模 块 必须 提供 某 
些 代码 段 * 在 模块 初始 化 (和 终止 》 时 执行 ， 以 便 向 内 核 注册 和 注销 模块 。 另 外 ， 模 块 代码 与 普通 
内 核 代码 的 权利 (和 义务 ) 都 是 相同 的 ， 可 以 像 编 译 到 内 核 中 的 代码 一 样 ， 访 问 内 核 中 所 有 的 函数 
和 数据 。 
对 支持 0 DD 而 言 ， 模 块 在 本 质 上 是 必需 的 。 某 些 总 线 (例如 ，USB 和 FireWire〉 人 允许 在 系统 运 
行 时 连接 设备 ， 而 无 需 系 统 重启 。 在 系统 检测 到 新 设备 时 ， 通 过 加 载 对 应 的 模块 ， 可 以 将 必要 的 驱动 
程序 自动 添加 到 内 核 中 。 
模块 特性 使 得 内 核 可 以 支持 种 类 繁多 的 设备 ， 而 内 核 自 身 的 大 小 却 不 会 发 生 膨胀 。 在 检测 到 连接 
的 硬件 后 ， 只 需要 加 载 必要 的 模块 ， 多 余 的 驱动 程序 无 需 加 入 到 内 核 。 

内 核 社区 中 一 个 长 期 存在 的 争论 则 是 围绕 只 提供 三 进 制 代码 的 模块 展开 的 , 即 不 提供 源 代码 的 模 
块 。 在 大 多 数 私有 的 操作 系统 上 只 提供 三 进 制 代码 的 模块 是 普遍 存在 的 ， 但 许多 内 核 开发 者 认为 它们 
《至 少 是 ) 那 恶 的 化 身 。 内 核 是 开源 软件 ， 因 此 他 们 认为 ， 出 于 各 种 法 律 和 技术 原因 ， 模 块 也 应 该 是 
开源 的 。 实 际 上 还 有 更 有 力 论据 支持 上 述 推论 〈 此 外 ， 我 也 这 样 认 为 ) ， 但 一 些 商 业 公司 不 这 样 看 ， 
他 们 认为 开放 驱动 程序 的 源 代码 会 削弱 其 商业 地 位 。 

目前 可 以 将 只 提供 二 进 制 代码 的 模块 加 载 到 内 核 ， 但 有 很 多 限制 。 最 重要 的 一 点 是 ， 对 任何 明确 
规定 调用 者 也 必须 使 用 GPL 许可 的 函数 ， 此 类 模块 均 不 能 访问 。 加 载 只 提供 二 进 制 代码 的 模块 会 0 口 
内 核 ， 每 当 发 生 点 坏事 ， 过 错 自然 会 归咎 于 相应 的 模块 。 如 果 内 核 被 污染 ， 则 故障 转 储 文件 中 会 标记 
出 来 ， 而 内 核 开发 者 一 般 不 愿意 解决 此 类 导致 崩溃 的 问题 。 因 为 二 进 制 模 块 可 能 使 内 核 的 每 个 部 分 都 
发 生 了 充分 的 震荡 ， 不 能 假定 内 核 仍 然 可 以 按 预定 的 设计 工作 ， 所 以 这 种 情况 下 的 支持 工作 最 好 留 给 
相关 模块 的 厂商 处 理 。 
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Q@ 基 本 功能 除外 ， 如 内 存 管理 总 是 必需 的 。 
@) 指 init.text 和 exit.text。 一 一 译 者 注 
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加 载 只 提供 二 进 制 代码 的 模块 ， 并 不 是 污染 内 核 的 唯一 可 能 原因 。 如 果 计 算 机 经 历 了 某 些 严重 的 
异常 情况 ， 也 可 能 导致 内 核 被 污染 。 例 如 ， 使 用 由 于 规格 或 其 他 原因 而 无 法 支持 多 处 理 器 的 CPU 来 构 








建 SMP 系 统 。 
1.3.12 ”缓存 




































































内 核 使 用 0 口 来 改进 系统 性 能 。 从 低速 的 块 设备 读 取 的 数据 会 暂时 保持 在 内 存 中 ， 即 使 数据 在 当 



































时 已 经 不 再 需要 了 。 在 应 用 程序 下 一 次 访问 该 数据 时 ， 它 可 以 从 访问 速度 较 快 的 内 存 中 读 取 ， 因 而 绕 



































过 了 低速 的 块 设备 。 由 于 内 核 是 通过 基于 页 的 内 存 映射 来 实现 访问 块 设备 的 ， 因 此 缓存 也 按 页 组 织 ， 
也 就 是 说 整 页 都 缓存 起 来 ， 故 称 为 DD DD (page cache) 。 

















0DD 用 于 缓存 没有 组 织 成 页 的 数据 ， 其 重要 性 差 得 多 。 在 传统 的 UNIX 系 统 上 ， 






































统 的 主 缓存 ， 而 Linux 很 久 以 前 也 是 这 样 。 到 如 今 ， 块 缓存 已 经 被 页 缓存 取代 了 。 


1.3.13 ”链表 处 理 
C 程 序 中 重复 出 现 的 一 项 












































任务 是 对 双 链表 的 处 理 。 内 核 也 需要 处 理 这 样 的 链表 。 
































中 ， 我 会 频繁 提 及 内 核 中 的 标准 链表 实现 。 在 此 我 简要 地 介绍 处 理 链表 的 API。 


























内 核 提供 的 标准 链表 可 


























若干 链表 涉及 同一 数据 结构 ， 
员 。 

<list.h> 

struct list head { 


于 将 任何 类 型 的 数据 结构 彼此 链接 起 来 。 很 明确 ， 它 口 



































块 缓存 用 作 系 


因此 在 后 续 章 节 


D 类 型 安全 的 。 
加 入 链表 的 数据 结构 必须 包含 一 个 类 型 为 1ist_head 的 成 员 ， 其 中 包含 了 正 向 和 反 向 指针 。 如 果 有 

















这 也 是 比较 常见 的 情形 ， 那 么 结构 中 就 需要 同样 数目 的 1ist_head 成 


struct list head *next, *prev; 


ys 




















struct task_struct { 








该 成 员 可 以 如 下 放置 到 数据 结构 中 : 


struct list head run list; 


好 














链表 的 起 点 同样 是 1ist_heagd 的 实例 ， 通 常用 LIST_HEAD (1ist_name) 宏 来 声明 并 初始 化 。 如 








也 就 是 说 ， 不 管 链 表 的 大 小 如 


图 1-11 所 示 ， 内 核 建立 了 一 个 循环 链表 。 这 种 链表 


























何 ， 访 问 这 两 个 元 素 花费 的 时 间 是 一 个 常数 。 














如 果 作 为 数据 结构 的 成 员 ， 


DD 





图 1-11 ”标准 双 链 表 





的 第 一 个 和 最 后 一 个 元 素 都 能 达到 Q(1) 的 访问 时 间 ， 














则 struct list_head 被 称 作 0DDDDU 。 用 作 链 表 起 点 的 元 素 被 称 作 
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各 品 呈 恒 后 哺 


图 1-12 ” 双 链 表 简 图 。 请 注意 ， 表 头 和 表 尾 之 间 的 连接 上 [ 显示 ， 
尽管 在 内 核 内 存 中 实际 的 指针 是 存在 的 


有 若干 处 理 链表 的 标准 函数 ， 在 后 续 章 节 中 我 们 会 陆续 接触 。( 其 参数 的 数据 类 型 是 struct 
list_head。) 
口 list_add (new，head) 用 于 现存 的 head 元 素 之 后 ， 紧 接着 插入 new 元 素 。 
口 list_adqg_tail (new, head) 用 于 在 head 元 素 之 前 ， 紧 接着 插入 new 元 素 。 如 果 指 定 head 为 表 
头 ， 由 于 链表 是 循环 的 ， 那 么 new 元 素 就 插入 到 链表 的 末尾 该 函数 因此 而 得 名 )。 
口 1ist_del (entry) 从 链表 中 删除 一 项 。 
口 list_empty (head) 检测 链表 是 否 为 空 ， 也 就 是 链表 是 否 没 有 包含 元 素 。 
口 list_splice ( 1ist，head) 负责 合并 两 个 链表 ， 把 1ist 插 入 到 另 一 个 现存 链表 的 heaq 元 素 
之 后 。 
口 查找 链表 元 素 必 须 使 用 1ist_entry。 初 看 起 来 ,其 调用 语法 相当 复杂 : list_entry (ptr, type, 
mermber) 。ptz 是 指向 数据 结构 中 1ist_head 成 员 实例 的 一 个 指针 ，type 是 该 数据 结构 的 类 型 ， 
而 member 则 是 数据 结构 中 表示 链表 元 素 的 成 员 名 。 如 果 在 链表 中 查找 task_struct 的 实例 ， 
则 需要 下 列 示 例 调 用 : struct task_struct = list_ entry(ptr, struct task_ struct, 
run_ list)。 
因为 链表 的 实现 0 口 类 型 安全 的 ， 所 以 需要 显 式 指定 类 型 。 如 果 数 据 结构 包含 在 多 个 链表 中 ， 
则 必须 指定 所 要 查找 的 链表 元 素 ， 才 能 找到 正确 的 链表 元 素 。” 
口 list_for_each (pos, head) 用 于 裔 历 链 表 的 所 有 元 素 。pos 表 示 链 表 中 的 当前 位 置 ， 而 heag 
指定 了 表 头 。 


struct list head *p; 







































































































































































































































































list_ for each(p, &list) 
if (condition) 
return list _ entry(p, struct task_ struct, run list),; 
return NULL; 


1.3.14 ”对 象 管理 和 引用 计数 

内 核 中 很 多 地 方 都 需要 跟踪 记录 C 语 言 中 结构 的 实例 。 尽 管 这 些 对 象 的 用 法 大 不 相同 ， 但 各 个 不 
同 子 系统 的 某 些 操 作 非 党 类似， 例如 引用 计数 。 这 导致 了 代码 复制 。 由 于 这 是 个 粮 糕 的 问题 ， 因 此 在 
内 核 版 本 2.5 的 开发 期 间 ， 内 核 采 用 了 一 般 性 的 方法 来 管理 内 核对 象 。 所 引入 的 框架 并 不 只 是 为 了 防止 



































































































































Q 即使 结构 中 只 有 一 个 链表 元 素 ， 也 需要 使 用 该 函数 通过 指针 运算 来 找到 结构 实例 的 正确 起 始 地 址 ， 然 后 通过 类 型 
转换 将 地 址 转换 为 所 需 的 数据 类 型 。 在 有 关 C 语 言 编程 的 附录 中 ， 我 会 更 详细 地 讨论 相关 主题 。 
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代码 复制 ， 同 时 也 为 内 核 不 同 部 分 管理 的 对 象 提供 了 一 致 的 视图 ， 在 内 核 的 许多 部 分 可 以 有 效 地 使 用 
相关 信息 ， 如 电源 管理 。 
一 般 性 的 内 核对 象 机 制 可 用 于 执行 下 列 对 象 操 作 : 
口 引用 计数 ; 
口 管理 对 象 链表 (集合); 

口 集合 加 锁 ; 

口 将 对 象 属性 导出 到 用 户 空间 《〈 通 过 sysfs 文 件 系统 ) 。 
1. 一 般 性 的 内 核对 象 
下 列 数 据 结 构 将 巾 入 其 他 数据 结构 中 ， 用 作 内 核对 象 的 基础 。 
<kobject.h> 

struct kobject { 














































































































const char * k_name; 
struct kref kref,; 
struct list_ head entry; 
struct kobject * parent; 
struct kset * kset 
struct kobj_type * ktype; 
struct sysfs_dirent * sd; 





二 
Dkobject[ O00O0UD kobjectd O000MN 0 kobject 0000000000 
0 
soto 


struct sample { 
struct kobject kobj; 


bh 














kobJject 结 构 各 个 成 员 的 语义 如 下 所 示 。 

口 k_name 是 对 象 的 文本 名 称 ， 可 利用 sysfs 导 出 到 用 户 空 间 。sysfs 是 一 个 虚拟 文件 系统 ， 可 以 将 
系统 的 各 种 属性 描述 导出 到 用 户 空 间 。sq 即 用 于 文 持 内 核对 象 与 sysfs 之 间 的 关联 ， 我 会 在 第 
10 章 再 详细 论述 。 

口 kref 类 型 为 struct kref， 用 于 简化 引用 计数 的 管理 。 我 会 在 下 文 讨论 该 结构 。 

口 entry 是 一 个 标准 的 链表 元 素 ， 用 于 将 若干 kobject 放 置 到 一 个 链表 中 在 这 种 情况 下 称 为 集 
合 )。 

口 将 对 象 与 其 他 对 象 放置 到 一 个 集合 时 ， 则 需要 kset。 

口 barent 是 一 个 指向 父 对 象 的 指针 ， 可 用 于 在 kobject 之 间 建 立 层 次 结构 。 

口 ktype 提 供 了 包含 kobject 的 数据 结构 的 更 多 详细 信息 。 其 中 ， 最 重要 的 是 用 于 释放 该 数据 结 
构 资 源 的 析 构 器 函数 。 

kobject 与 面 癌 对 象 编程 语言 〈《 像 C++ 或 Java) 中 的 对 象 概念 的 相似 性 决 不 是 巧合 。kobJject 抽 象 

实际 上 提供 了 在 内 核 使 用 面向 对 象 技术 的 可 能 性 ， 而 无 需 C++ 的 所 有 额外 机 制 ( 以 及 二 进 制 代 码 大 小 

的 膨胀 和 额外 开销 )。 




























































































































































































| 可 
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表 1-1 列 出 了 内 核 提 供用 于 操作 kobject 实 例 的 标准 操作 ， 实 质 上 是 作用 于 包含 kobject 的 结构 。 
用 于 管理 引用 计数 的 kref 结 构 如 下 所 示 : 
<kref.h> 


struct kref { 
atomic t refcount; 






































yy 
refcount 是 一 个 原子 数据 类 型 ， 给 出 了 内 核 中 当前 使 用 某 个 对 象 的 计数 。 在 计数 器 到 达 0 时 ， 就 
不 需要 该 对 象 了 ， 可 以 从 内 存 中 删除 。 


表 1-1 处 理 kobject 的 标准 方法 

















































































































函 数 语 义 
kobject_get, kobject put 对 kobject 的 引用 计数 器 加 1 或 减 1 
kobject_ (un) register 从 层次 结构 中 注册 或 删除 对 象 ， 对 象 被 添加 到 父 对 象 中 现存 的 集合 中 《如 果 有 
的 话 ") ， 同 时 在 sysfs 文 件 系 统 中 创建 一 个 对 应 项 
kobject_init 初始 化 一 个 kobject， 即 将 引用 计数 器 设置 为 初始 值 ， 初 始 化 对 象 的 链表 元 素 
kobject_add 初始 化 一 个 内 核对 象 ， 并 使 之 显示 在 sysfs 中 
kobject_cleanup 在 不 需要 kobject( 以 及 包含 kobject 的 对 象 ) 时 ， 释 放 分 配 的 资源 




















在 kref 的 设计 中 ， 将 一 个 值 封装 在 结构 中 ， 防 止 直接 操纵 该 值 。 必 须 使 用 kref_init 来 初始 化 
kref。 如 果 要 使 用 某 个 对 象 ， 则 需要 首先 调用 kref_get 对 引用 计数 器 加 1。 在 对 象 不 再 使 用 时 ， 则 需 
要 调用 kref_put 将 计数 器 减 1。 

2. 对 象 集合 
在 很 多 情况 下 ， 必 须 将 不 同 的 内 核对 象 归 类 到 集合 中 , 例如 , 所 有 字符 设备 集合 , 或 所 有 基于 PCI 
的 设备 集合 。 用 到 的 数据 结构 定义 如 下 : 

<kobject.h> 

struct kset { 


struct kobj_type * ktype; 
struct list_head list; 






































ur 










































































struct kobject kobj; 
struct kset uevent ops * uevent_ops; 
}; 
有 趣 的 是 ，kset 是 内 核对 象 应 用 的 第 一 个 例子 。 由 于 管理 集合 的 结构 只 能 是 内 核对 象 ， 因 此 它 电 
以 通过 先前 讨论 过 的 struct kobject 管 理 。 实际 上 keet 中 说 入 了 一 个 kobject 的 实例 kobj。 它 与 
合 中 包含 的 各 个 kobject 无 关 ， 只 是 用 来 管理 kset 对 象 本 身 。 
其 他 成 员 的 含义 如 下 所 示 。 
口 ktype 指 向 kset 中 各 个 内 核对 象 公用 的 kobj_type 结 构 。 
口 1ist 是 所 有 属于 当前 集合 的 内 核对 象 的 链表 。 
口 uevent_ops 提 供 了 车 干 函 数 指针 ， 用 于 将 集合 的 状态 信息 传递 给 用 户 层 。 该 机 种 
模型 的 核心 使 用 ， 例 如 格式 化 一 个 信息 ， 通 知 添加 了 新 设备 。 
男 一 个 结构 用 于 描述 内 核对 象 的 共同 特性 。 其 定义 如 下 : 




































































可 
集 






















































































上 由 驱动 程序 







































































G) 指 kset 成 员 。 一 一 译 者 注 
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化 ， 


的 信息 


数 


<kobject.h> 


struct kobj_type { 


struct sysfs_ops 
struct attribute 


}; 
请 





3. 引用 计数 
引用 计数 
旧时 ， 




















于 检测 
则 对 该 对 象 的 纪 


KL 











内 核 


























下 降 到 0 后 














处 至 





E 引 用 计数 : 











的 使 用 记 


1.3.15 


上 标准 


二 


的 值 落 才 
我 在 后 续 章节 中 





<kref.h> 
struct 





六 





该 数据 结构 确实 很 入 
量 的 加 1 和 减 1 操作 在 多 
第 5 章 更 详细 地 
十 助 方法 kref_init、kref_get 和 kref_put 
看 起 来 似乎 太 简 六 


[ 锡 


























? 内 核 知 道 不 


kref { 
atomic t refcount; 



































ns 
也 








type 来 提供 


中 有 多 少 地 方 使 用 了 某 个 对 
用 计数 加 1。 
需要 该 对 象 ， 所 以 此 时 从 


* sysfs_ops; 
** default attrs; 











主意 kobj_type 与 内 核对 象 的 集合 0 0 关系 ， kset 已 经 提供 了 多 
sysfs 文 件 系 统 〈 在 10.3 节 讨论 ) 的 接口 。 
使 多 个 对 象 共 享 同 一 个 





如 果 多 个 对 象 通 
所 需 的 方法 。 








上 全 合 功 能 。 
过 该 文件 系统 导出 类 似 的 信息 ， 





该 经 























如 果 不 再 需要 相应 的 信息 ， 


























? 它 只 提供 


了 





由 般 性 的 原 








象 。 每 当 内 核 的 


计数 。 


则 对 该 对 象 的 引 

















全 











和 了 。 不 过 这 些 函数 仍然 有 助 于 避免 过 度 的 
及 整个 内 核 。 


器 系统 上 








上 也 是 





安全 的 ， 


多 处 理 








人 统 








讨论 了 这 方面 
































于 对 弓 














内 存 中 释放 该 对 象 。 内 核 提 供 


计数 器 进行 初始 化 、 加 1、 
尺码 复制 ， 因 为 引用 计数 和 前 述 几 个 操作 











计数 减 1。 
了 下 列 数据 弓 




















O00 


加 
加 时 加 
机 





U kref] DOO 








上 


最 后 请 注意 ， 








与 用 户 
1. 类 型 定义 


内 核 























数据 类 型 的 
pid 七 〈 








位 长 可 能 





在 内 核 代 人 码 的 Documentation/kobj 
数据 类 型 
层 程 序 相 比 ， 内 核对 与 数据 类 型 有 关 的 一 些 


用 typedef 来 定义 各 种 数据 类 型 ， 














以 避免 依赖 于 体系 弓 





都 不 见得 相同 。 定义 的 类 型 名 称 如 sec 














表示 进程 ID) 人 » 





这 些 都 是 











1 内 核 在 特定 于 体系 


结构 




















所 
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FE 适当 





范 
不 











氟 内 。 





























因为 通常 无 需 了 解 这 些 类 型 的 定义 是 基 














这 些 


实际 上 只 不 过 


人 
星 又 
太 办 


总 是 讨论 数据 类 型 的 精确 定义 。 相反 , 我 会 直 


于 








榜 使 








“问题 采取 了 不 同 的 处 


吉 构 相关 的 特性 ， 
tor_t 《用 于 指定 甘 




















的 代码 


























对 非 复合 的 标准 








数据 类 型 用 了 个 不 同 的 名 称 而 





| 
Do 








H 


Ph 定义 的 ， 


些 基本 的 数据 类 型 ,为 简 
这 些 


ect.txt 中 包含 了 与 内 核对 象 有 关 的 一 些 文档 。 


方法 。 


如 ， 





以 确保 相关 > 











D0 
加 
UO 




















es el 
国 
中 OOOOVUUOUUVUUO 








减 1 操作。 


二 构 提 供 了 与 
则 可 以 


ea 


加 


个 部 分 需要 某 个 对 象 所 包含 
在 计 





二 构 


“原子 ”在 这 里 意味 着 ， 对 该 
中 可 能 会 有 多 个 代码 路 径 同 时 访问 


初 











各 个 处 怪 











EE 


设备 上 的 扇 区 纺 





型 


起 见 ， 
类 型 而 不 做 进一步 说 明 ， 
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在 茶 些 时 候 内 核 必须 使 用 精确 定义 了 位 数 的 变量 , 例如， 在 需要 向 硬盘 存储 数据 结构 时 。 为 允许 
数据 在 各 种 系统 之 间 交 换 〈 例 如 ，USB 存 储 棒 ) ， 无 论 数据 在 计算 机 内 部 如 何 表示 ， 必 须 总 是 使 用 同 
样 的 外 部 格式 。 







































































为 此 内 核定 义 了 若干 整数 数据 类 型 ， 不 仅 明 确 标明 了 是 有 符号 数 还 是 无 符号 数 ， 而 且 还 指定 了 相 
关 类 型 的 0 吕 位 数 。 例 如 ，_s8 和 __u8 分 别 是 有 符号 〈_ s8) 和 无 符号 〈_u8) 的 8 位 整数 。_ul16 
和 _s16、_u32 和 _s32、_u64 和 _ s64 的 定义 类 似 。 

2. 字 节 序 


为 表示 数字 ， 现 代 计 算 机 采用 0DDD (big endian) 或 0DD (littleendian) 格式 。 该 格式 表示 如 
何 存储 多 字 节 数据 类 型 。 在 大 端 序 格式 中 ， 最 高 有 效 字 节 存储 在 最 低地 址 ， 而 随 着 地 址 升 高 ， 字 节 的 
权重 降低 。 在 小 端 序 格式 中 ， 最 低 有 效 字 节 存储 在 最 低地 址 ， 而 随 着 地 址 升 高 ， 字 节 的 权重 也 升 高 。 
有 些 体系 结构 〈 如 MIPS) 支持 两 种 字 节 序 。 图 1-13 说 明了 该 问题 。 





















































避 w 

















字 节 ， 0 ， 1 2 3 
[CE char 

小 端 序 :0-7 ] ;La ]， : short 
‘D7: C85]: eas): [a0] int 
0-7 char 

大 端 序 ,8-15 ]'[0-7 ]| | short 
‘37 GE [67107 int 


图 

















1-13 ”基本 数据 类 型 的 结构 取决 于 底层 体系 结构 的 字 节 序 


内 核 提 供 了 各 种 函数 和 宏 ， 可 以 在 CPU 使 用 的 格式 与 特定 的 表示 法 之 间 转 换 。cpu_to_le64 将 64 
位 数据 类 型 转换 为 小 端 序 格式 ， 而 le64_to_cpu 所 做 的 刚好 相反 (如 果 体 系 结构 采用 的 字 节 序 是 小 端 
序 格式 ， 这 两 个 例 程 当 然 是 空 操作 ， 否 则 必须 相应 地 交换 字 节 位 置 )。 对 64 位 、32 位 和 16 位 的 数据 类 
型 ， 所 有 的 小 端 序 、 大 端 序 之 间 的 转换 例 程 都 是 可 用 的 。 















































3. per-cpu 变 量 











普通 的 用 户 空 间 程 序 设 计 不 会 涉及 的 一 个 特殊 事项 就 是 所 谓 的 per-cpu 变 
Ep_PER_CPU (name, type) 声明 , 其 中 name 是 变量 名 , 而 type 是 其 数据 类 型 (例如 int[3]、struct 

















D 





EFIN 




















肚 

















。 它 们 是 通过 


Im| 
唤 











hash 等 ) 。 在 单 处 理 器 系统 上 ， 这 与 常规 的 变量 声明 没有 不 同 。 在 有 若干 CPU 的 SMP 系 统 上 ， 会 为 每 














个 CPU 分 别 创 
Hsmp_proce 
采用 per-cpu 变 
如 果 在 多 处 

上 述 概 念 刚好 绕 过 了 这 些 
4. 访问 用 户 空间 





ssor_id() 可 以 返回 





当 











里 
































问题 。 





源 代码 中 的 多 处 指针 都 标记 为 _user， 该 标识 符 对 用 
的 指针 ， 在 没有 进一步 预防 


号 来 标识 指向 用 户 地 址 空间 中 区 二 
指向 的 区 域 。 这 是 因为 内 存 是 通 
接 映射 的 。 



































建 变量 的 一 个 实例 。 用 于 某 个 特定 CPU 的 实 























量 有 下 列 好 处 : 所 需 数据 很 
里 器 系统 中 使 用 可 能 被 所 有 CPU 同 


过 页 表 映 射 到 虚拟 地 址 空 


因此 内 核 需要 确保 指针 所 指向 的 页 帧 确实 0 0 0 物理 








前 活动 处 理 器 的 ID， 用 作 前 














例 可 以 通过 get_cpu (name，cpu) 获得 ， 其 
前 述 的 cpu 参 数 。 








可 能 存在 于 处 理 








器 的 缓存 中 ， 因 





比 可 以 更 快速 地 访问 。 














时 访问 的 变量 ， 

















可 能 会 引发 一 些 通信 方面 的 问题 ， 采 用 


























则 的 





户 空间 程序 设计 是 未 知 的 。 内 核 使 


用 该 记 
措施 的 情况 下 ， 不 能 轻易 访问 这 些 指针 
户 空间 部 分 的 ， 而 不 是 由 物理 内 存 直 
内 存 中 ， 我 会 在 第 2 章 进 一 步 详 细 讨 
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论 该 问题 。 


1.3.1 























表 性 的 训 面 图 。 














过 交互 来 确定 设计 





























开发 的 社会 性 一 面 。 




















最 后 请 注意 图 1-14， 
01-Jan-02 01-Jan-03 





280 
260 上 上 
240 上 
220 上 


200 


解压 后 的 源 代码 树 大 小 (MiB) 


180 


160 


140 





内 核 开发 是 一 个 高 























的 大 量 代 码 是 由 接近 1 000 名 开发 者 完成 的 。 

















除 痔 述 内 核 的 许多 重要 
决策 。 
但 这 些 实际 上 也 支持 了 内 核 的 开发 。 此 外 本 书 还 包括 





120 
2.5.0 2.5.12 2.5.50 


通过 显 式 标记 ， 可 以 支持 利 民 
6 本 书 的 局 限 性 


尽管 在 本 书 中 涵盖 的 
面 是 完全 不 可 能 的 。 我 试图 














该 图 说 明了 过 去 儿 年 间 内 核 源 代码 的 增长 情况 。 
01-Jan-04 





2.6.0 


图 1-14 ”2002 年 
度 动态 的 过 程 , 内 核 获得 背 














上 -遵守 了 必要 的 条 件 。 





动 检查 工具 (sparse) 来 确认 实际 J 



































只 是 Linux 能 力 的 一 部 分 而 
选择 一 般 读者 最 感 兴 趣 的 主题 ， 也 呈现 了 整个 内 核 生 态 


主题 很 多 ， 但 这 些 








EE 点 向 读者 说 明 内 核 的 一 般 设计 思想 ， 以 及 开发 者 之 间 如 何 通 





部 分 外 ， 我 如 
ee 何人 NU 二 
FP 讲述 了 内 核 

















FE 内 核发 布 版 大 小 的 演变 
所 特性 和 持续 改进 的 速度 有 时 简直 是 不 可 思议 。Linux 





























修改 有 2.83 处 之 多 ! 这 只 


中 继续 讨论 这 些 问 题 。 





能 通过 成 熟 的 源 





: 详细 讨论 内 核 的 所 有 方 
系统 的 一 个 具有 代 






































竺 器 工作 ) ， 


01-Jan-08 


2.6.25 


基金 会 的 研究 结果 〈[KHCM]) 显示 ， 每 次 内 核发 布 ， 0 每 次 发 布 所 添加 





周 7 天 ， 每 小 时 集 
在 附录 B 和 附录 F 


kg 












































成 到 内 核 的 
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1.4 为 什么 内 核 是 特别 的 

















内 核 很 神奇 ， 但 归根 结 底 它 只 是 一 个 大 的 C 程 序 ， 带 有 一 些 汇编 代码 〈 不 时 出 现 很 少量 的 “ 黑 巫 


术 ”) 。 是 什么 使 得 内 核 如 此 吸引 人 ? 原因 有 几 个 。 首 要 


















































点 在 

















于 ， 内 核 是 由 世界 上 最 好 的 程序 员 编 


写 的 ， 源 代码 可 以 证 实 这 一 点 。 其 结构 良好 ， 细 节 一 丝 不 苟 ， 巧 妙 的 解决 方案 在 代码 中 处 处 可 见 。 一 





言 以 蔽 之 :内核 应 该 是 什么 样子 ， 它 现在 就 是 什么 村 
的 产品 。 尽 管内 核 采用 了 设计 得 非常 干净 的 抽象 , 以 保持 代码 的 模块 化 和 易 管 


序 设 计 方法 学 得 出 











但 这 一 点 与 内 核 的 其 他 方 二 
相关 的 方式 重用 比特 位 置 ， 
使 用 goto 语 句 ， 还 有 很 多 其 他 东西 ， 

教科 书 答案 中 难以 想象 的 那些 技巧 , 对 于 实现 























混合 


起 来 ， 





























多 次 











EE 载 结构 成 员 ， 从 指针 


fF 子 。 但 这 并 不 意味 着 内 核 是 应 











j 教 科 书 风格 的 程 
理性 ， 
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使 得 代码 非常 有 趣 和 独特 。 在 必要 的 情况 下 ， 内 核 会 以 上 下 文 























益 的 ， 甚 至 是 必需 的 。 正 是 
令 人 兴味 亚 然 、 富 有 挑战 性 








并 











己 经 对 章 的 部 分 压榨 出 又 一 个 存储 位 ， 自 
这 些 都 会 使 任何 强调 结构 的 程序 员 因 
够 在 真正 的 现实 世界 中 正 

















地 

















青 苦 而 尖 叫 。 
常 工作 的 内 核 不 仅 是 有 





T 
































的 两 面 之 间 保 持平 衡 的 路 径 ， 内 核 才 如 此 








因为 找到 了 一 条 在 内 核 完全 对 立 上 














妙趣 横生 ! 








颂扬 了 内 核 源 代 码 之 后 ， 








还 有 许多 不 同 于 有 




















口 调试 内 核 通 常 要 比 调试 用 户 层 程序 困难 。 
调试 器 的 实现 难 






































E 度 要 高 得 多 。 附 录 B 讨 论 ] 




















在 内 核 





对 应 的 方法 相 比 都 需要 更 多 的 工作 。 


口 内 核 提 供 了 许多 辅助 函数 ， 类 似 于 











昌 户 层 程序 的 严肃 问题 需要 说 明 。 
对 后 者 来 说 有 大 量 的 调试 器 可 
发 中 使 用 调试 器 的 各 种 技巧 ， 但 与 用 户 层 











]， 而 对 于 后 者 来 说 

















Ml 
































码 投入 使 用 之 前 要 进行 更 多 的 考虑 
口 必须 考虑 到 内 核 运行 的 询 
充 (padding) 字段 , 也 





论 这 个 问题 。 


口 所 有 的 内 核 代码 都 必须 是 


口 用 户 层 应 用 程序 的 错误 可 
内 核 错 误会 导致 整个 系统 故障 。 其 3 


系统 离奇 地 朋 溃 。 包 


























国人 
会 影 


F 多 体系 结 


















































发 安全 的 。 

















是 可 重 入 和 线程 安全 的 。 也 就 是 说 ,程序 必须 允 











保护 。 





用 户 层 应 


构 上 根本 不 支持 
响 到 数据 结构 在 不 同体 系 


E 对 齐 的 内 存 访问 。 





1 于 对 多 人 处] 











口 内 核 代码 必须 在 小 端 
口 大 多 数 的 体系 结构 根本 不 允许 在 内 核 














后 本 











1.5 行文 注 记 








宇和 大 端 序 计算 世 














读者 会 看 到 如 


何 处 














经 非常 广泛 ， 而 














里 这 些 问题 。 

















用户 空间 的 C 语 言 库 ， 但 内 核 领域 中 的 东西 总 是 朴素 得 多 。 
能 会 导致 段 错 误 (segmentation fault) 或 内 存 转 储 (core dump) ， 但 
更 糟 的 是 : 内核 会 继续 运行 ， 在 错误 发 生 若 干 小 时 之 后 
j 上 所 述 ， 因 为 在 内 核 空 间 调试 


























] 程 序 更 困难 ， 所 以 在 内 核 代 














1 于 编译 器 插入 的 十 
结构 之 间 的 可 移植 性 。 附 录 C 会 进一步 讨 














里 器 计算 机 的 支持 ，Linux 内 核 代码 必须 
F 同 时 执行 ， 而 数据 必须 针对 并 行 访问 进行 











i 上 都 能 够 工作 。 
P 执 行 浮 点 计算 ， 








办 此 计算 需要 想 办 法 用 整 型 来 玲 代 。 





在 深入 内 核 之 前 ， 我 需要 谈 一 下 本 书 的 行文 方式 ， 以 及 为 什么 采用 这 种 特定 的 方式 进行 阐述 。 
请 注意 本 书 的 内 容 很 明确 ， 即 口 口 内 核 。 如何 编 写 代码 的 例子 已 经 有 意 省 


篇 幅 











去 ， 因 为 本 书 的 内 容 已 


























巨大 。 这 方面 有 几 本 书 可 作 补 充 ， 如 Corbet 等 人 的 [CRKH05 ]、Venkateswaran 








的 [Ven08] "”、Quade/Kunst 的 [QK06] 都 涵盖 了 大 量 实际 的 例子 ， 讨 论 了 】 如 何 创建 新 的 代码 ， 特别 





Q 此 书 中 文 版 《精通 Linux 设 备 驱动 程序 开发 》 已 经 由 人 民 由 


























去 





出 版 社 出 版 。 一 一 译 者 注 
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是 驱动 程序 。 内 核 连 编 (build) 系统 负责 创建 适合 用 户 需 要 的 内 核 ， 在 讨论 其 工作 原 





























里 时 ， 我 不 会 详 


细 介 绍 配置 选项 ， 因 为 这 些 选项 主要 涉及 驱动 程序 的 配置 。 关 于 这 方面 的 内 容 可 参考 Kroah-Hartman 





























写 的 书 LKH07]。 















































通常 在 开始 阐述 主题 之 前 ， 我 首先 会 概述 相关 的 概念 ， 然 后 深入 介绍 内 核 中 的 数据 结构 及 其 关 























联 。 通 常 在 最 后 才 讨论 代码 ， 因 为 代码 涉及 的 细节 最 多 。 之 所 以 选择 这 种 自 顶 向 下 的 方法 ， 是 因为 
我 们 认为 这 种 方法 对 于 理解 内 核 来 说 最 容易 。 请 注意 ， 自 底 向 上 进行 讨论 也 是 可 以 的 ， 也 就 是 说 从 
深入 内 核 之 处 开始 讨论 ， 然 后 逐渐 上 升 到 C 库 和 用 户 空间 。 但 要 注意 ， 逆 向 曾 述 不 见得 更 好 。 根 据 我 































































































了 前 一 种 策略 。 
在 直接 呈现 C 源 代码 时 ， 我 有 时 会 冒昧 地 稍 作 改 写 ， 以 便 突 出 更 重要 的 成 分 ， 










































































































































































个 进程 设置 命名 空间 。 
kernel/nsproxy.c 
static struct nsproxy *create new_ namespaces (unsigned long flags, 





的 经 验 ， 与 自 顶 向 下 的 策略 相 比 ， 自 底 向 上 讲述 需要 更 多 的 向 前 引用 ， 因 此 我 在 本 书 中 更 多 地 采用 


而 排除 次 要 的 “说 
慎 处 理 ” 之 处 。 例 如 ， 内 核对 每 次 内 存 分 配 的 返回 值 都 会 进行 检查 ， 这 是 非常 重要 的 。 

乎 所 有 的 情况 下 都 会 成 功 ， 但 也 必须 处 理 内 存 不 足 而 导致 分 配 失败 的 情形 。 内 核 必 须 以 某 种 方式 处 到 
该 情形 ， 可 以 向 系统 日 志 发 送 一 个 警告 信息 。 如 果 当 前 是 因应 用 程序 的 请 求 而 执行 某 个 任务 ， 则 向 用 
户 空间 返回 一 个 错误 码 。 但 此 类 细节 通常 会 妨碍 查看 真正 重要 之 处 。 看 一 看 下 列 代 码 ， 其 功能 是 为 一 














虽然 分 配 在 几 




















下 














struct 七 aSK_Struct *tsk, struct fs_struct xnew_ fs) 


struct nsproxy *new_nsp; 
int err; 
new_ nsp = clone nsproxy (tsk->nsproxy); 
if (Inew_ nsp) 
return ERR_PTR (-ENOMEM) ， 
new_nsp->mnt_ns = copy_ mnt_ns(flags, tsk->nsproxy->mnt_ns, new_fs); 
if (IS_ERR(new_nsp->mnt_ ns)) { 
err = PTR_ERR (new_ nsp->mnt_ns); 
goto out_ns; 
} 
new_nsp->uts_ns = copy_utsname (flags, tsk->nsproxy->uts_ns); 
if (IS_ERR(new nsp->uts _ ns)) { 
err = PTR_ERR(new_nsp->uts_ns); 
goto out_uts; 
} 
new_nsp->ipc_ ns = copy_ipcs (flags, tsk->nsproxy->ipc_ ns); 
If (IS_ERR(new nsp->ipc ns)) { 
err = PTR_ERR (new_nsp->ipc_ns); 
goto out_ipc; 
} 
return new_nsp; 
out_ ipe: 


if (new_nsp->uts_ns) 
put_uts_ns (new_nsp->uts_ns); 
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out_uts: 
If (new_ nsp->mnt_ns) 


put_mnt_ nsl(new nsp->mnt _ ns); 








out_ns: 
kmem_cache_free(nsproxy_cachep, new_nsp); 
return ERR_PTR (err); 

} 


上 述 代码 具体 做 了 什么 与 现在 要 讨论 的 问题 无 关 ， 我 会 在 后 续 章 节 中 讨论 该 代码 。 实 质 上 ， 该 例 
程 试 图 根据 一 些 控 制 clone 操 作 的 标志 ， 来 复制 命名 空间 的 各 个 部 分 。 各 种 命名 空间 都 是 用 一 个 单独 
的 函数 处 理 ， 例 如 copy_mnt_ns 负 责 处 理 文件 系统 命名 空间 。 
内 核 每 次 复制 一 个 命名 空间 时 ， 可 以 容忍 发 生 错误 ， 但 必须 检测 到 错误 并 传递 到 调用 函数 。 
误 或 者 是 通过 函数 的 返回 码 直 接 检 测 ， 如 clone_nsproxy， 或 者 编码 在 一 个 指针 类 型 的 返 sy 
通过 ERR_PTR 宏 检测 ， 该 宏 可 以 解码 出 错误 值 ( 下 文 会 讨论 该 机 制 )。 在 很 多 情况 下 ， 只 是 检测 错 
误 并 将 该 信息 返回 调用 者 是 不 够 的 。 由 于 发 生 了 错误 ， 因 此 先前 分 配 的 资源 已 经 不 再 需要 了 ， 必 须 
再 次 释放 。 内 核 处 理 该 情形 的 标准 技术 如 下 : 跳 转 到 一 个 特定 的 标号 ， 释 放 所 有 先前 分 配 的 资源 ， 
或 将 对 象 的 引用 计数 减 1。 处 理 此 类 情况 正 是 goto 语 名 的 正确 用 途 之 一 。 有 多 种 方法 可 以 讲述 该 函 
数 实际 所 做 的 操作 。 

口 直接 过 一 裔 代码 ， 读 者 可 以 看 到 一 个 长 长 的 步骤 列表 。 
(1) create_new_namespace 调 用 clone_nsproxy。 如 果 该 调用 失败 ， 则 返回 -ENOMEM， 否 
则 继续 。 
(2) create_new_namespace 接 下 来 调用 copy_mnt_ns。 如 果 该 调用 失败 , 则 获得 copy_mnt_ns 
的 返回 值 中 编码 的 错误 码 并 跳 转 到 标号 out_ns， 否 则 继续 。 
(3) create_new_namespace 接 下 来 调用 copy_utsname。 如 果 该 调用 失败 ， 则 获得 copy_ 
utsname 的 返回 值 中 编码 的 错误 码 并 跳 转 到 标号 out_ns， 否 则 继续 。 
























































































































































































































































































































































































































































虽然 许多 内 核 教 科 书 都 喜欢 使 用 上 述 方法 ， 但 除了 直接 从 源 代码 看 到 的 内 容 之 外 ， 该 方法 只 
能 提供 很 少 的 信息 。 用 这 种 方法 讨论 内 核 底 层 最 复杂 的 部 分 是 适当 的 ， 但 该 方法 既 无 法 促进 
对 一 般 意义 上 的 内 核 整 体 图 景 的 认识 ， 也 无 益 于 理解 具体 的 代码 片段 。 
口 用 文字 概述 函数 所 做 的 工作 ， 如 “create_new_namespace 人 负责 创建 父 命名 空间 的 副本 ”。 对 
于 内 核 需 要 以 某 种 方式 完成 的 次 重要 任务 ， 我 们 使 用 这 种 方法 阐述 ， 既 不 提供 具体 细节 ， 也 
不 使 用 特别 有 趣 的 技巧 。 
更 用 流程 图 说 明 函 数 所 做 的 工作 。 本 书 有 150 多 幅 代 码 流程 图 , 我 更 喜欢 用 这 种 方法 处 理 代 码 。 
重要 的 是 注意 到 ,0 0 0 D 这 些 图 表 是 具体 操作 的 完全 真实 的 表示 。 与 前 述 方法 相 比 ， 完 全 
真实 的 图 示 也 不 会 带 来 什么 简化 。 图 1-15 给 出 了 copy_namespaces 的 真实 图 示 。 该 图 与 源 代 码 
自身 相 比 一 点 也 不 简单 ， 所 以 这 样 提供 图 示 就 没有 多 大 效果 了 。 
相反 ， 我 采用 代码 流程 图 来 说 明 函 数 执行 的 实质 性 任务 。 图 1-16 给 出 了 我 用 来 替代 图 1-15 的 代 
码 流程 图 。 
图 1-16 省 去 了 一 些 东 西 〈 绘 制 时 有 意 如 此 ) ， 而 且 也 达到 了 突出 本 质 性 内 容 的 目的 。 在 图 中 读 
者 不 会 看 到 函数 实现 的 每 个 细节 ， 而 会 立刻 意识 到 内 核 使 用 一 个 特定 的 例 程 创建 了 各 个 命名 
空间 的 副本 ， 而 所 用 的 函数 名 足以 提示 其 中 复制 了 哪些 命名 空间 。 这 些 信息 要 重要 得 多 ! 
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简介 和 概述 

















create new_ namespace 
clone nsproxy 






































































































































































































































































































































图 1-15 ”一 个 忠实 于 源 代 码 的 代码 流程 图 示例 ， 既 不 清楚 也 难于 理解 
图 1-16 本 书 使 用 的 代码 流程 图 风格 示例 。 这 种 风格 的 图 可 以 立即 捕获 所 有 的 
实质 性 操作 ， 而 不 会 被 次 要 的 标准 任务 干扰 
实际 上 ， 对 错误 返回 码 的 处 理 是 毋庸 置疑 的 ， 因 此 我 们 不 会 对 此 类 代码 给 予 过 多 关注 。 但 这 
并 不 意味 着 错误 处 理 不 重要 ， 事 实 上 这 很 重要 。 如 果 Linux 内 核对 错误 处 理 不 当 ， 就 会 变 成 一 
个 糟糕 的 内 核 。 但 错误 处 理 除 了 会 使 大 多 数 操作 流程 变 得 比较 模糊 之 外 ， 并 不 会 引入 什么 新 
东西 ， 也 不 会 使 理解 内 核 的 一 般 原 理 变 得 更 容易 ， 因 此 在 描述 代码 时 为 保证 清晰 简明 而 牺牲 
一 点 儿 完 备 性 是 值得 的 。 要 想 看 到 所 有 细节 ， 可 以 直接 查看 内 核 源 代码 ! 

口 如 果 代 码 中 包含 了 很 多 重要 策略 的 信息 ， 那 么 直接 讨论 内 核 代 码 就 很 重要 ， 在 我 认为 必要 的 
时 候 也 会 这 样 做 。 但 我 经 常会 冒昧 地 省 去 代码 中 无 趣 或 很 机 械 的 部 分 ， 因 此 ， 如 果 书 中 的 代 
码 与 内 核 有 细微 差别 ， 请 读者 不 要 惊 府 。 

虽然 本 书包 含 了 源 代 码 , 但 如 果 你 不 是 在 孤岛 上 阅读 ， 而 是 在 计算 机 旁边 ,最 好 是 直接 查看 Linux 





的 源 代 码 。 不 管 怎 么 说 ， 符 在 孤岛 上 并 不 有 趣 。 








于 我 在 讨论 特定 了 















































体系 结构 的 





列子 时 ， 通 常 使 








jIA-32 和 AMD64， 在 此 需要 澄清 一 下 这 有 





页 个 名 
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词 的 内 涵 。IA-32 包 括 所 有 英特尔 兼容 的 CPU， 如 Pentium、Athlon 等 。AMD64 也 包括 英特尔 派生 的 
EM64T。 为 简单 起 见 ， 我 在 本 书 中 只 使 用 缩写 IA-32 和 AMD64。 由 于 英特尔 公司 发 明了 IA-32， 而 AMD 
则 首先 提出 了 64 位 扩展 ， 因 此 这 看 起 来 是 个 公平 的 妥协 。 另 外 一 个 需要 注意 的 有 趣事 实 是 : 从 内 核 版 
本 2.6.23 起 ， 在 Linux 内 核 内 部 ， 两 种 体系 结构 已 经 统一 成 一 般 性 的 x86 体 系 结构 。 对 开发 者 而 言 ， 这 
使 得 代码 更 容易 维护 , 因为 两 种 体系 结构 有 很 多 成 分 是 共享 的 。 当 然 在 处 理 器 的 32 位 和 64 位 能 力 之 间 ， 
还 是 有 很 多 区 别 的 。 
1.6 小结 
在 人 类 曾经 编写 过 的 软件 中 ，Linux 内 核 无 疑 是 最 有 趣 和 最 吸引 人 的 一 种 软件 了 ， 我 希望 本 章 已 
经 成 功 激 起 了 读者 学 习 后 续 章节 的 兴趣 〈 后 文中 会 详细 讨论 许多 子 系统 ) 。 到 现在 为 止 ,我 给 出 了 内 
核 的 全 局 图 景 ， 并 阐述 了 各 个 部 分 之 间 职 责 的 分 配 、 各 部 分 所 处 理 的 问题 以 及 各 个 组 件 的 交互 方式 。 
内 核 是 一 个 巨大 的 系统 ， 阅 述 如 此 复杂 的 内 容 总 有 一 些 相关 的 问题 需要 探讨 ， 前 文 已 经 介绍 了 本 
书 的 行文 方式 。 
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的 进程 数目 ， 取 次 了 
处 理 器 建立 了 














内 核 和 
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第 2 


























处 理 





进程 管理 和 调度 
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的 应 








程序 之 | 
从 而 在 感 观 上 觉得 计算 机 











D0 





有 的 现代 操作 系统 都 能 够 同时 运行 若干 进程 ， 
器 ， 那 么 在 给 定时 刻 只 有 一 个 程序 可 以 运行 。 














至 少 








书 户 错觉 上 是 这 村 








在 多 处 理 器 








系统 











里 CPU 的 数目 。 
0 的 错觉 ， 即 可 以 3 





间 不 停 切换 而 做 到 的 。 
































这 种 系统 管 


口 
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第 一 个 需求 
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CPU 时 


能 够 


弛 要 求 ， 否 则 应 月 
于 Linux 是 一 个 多 用 


就 很 容易 访问 其 他 




















让 系统 ， 


用 户 的 私有 数据 。 


于 切换 间 
同时 做 几 件 事情 。 
里 方式 引起 了 几 个 问题 ， 内 核 必须 解决 这 些 问题 ， 其 中 最 
程序 不 能 彼此 干扰 。 例 如 ， 应 用 程序 A 
它 也 必须 确保 程序 不 能 








省 行 做 几 种 操作 
马 如 此 之 短 ， 使 得 
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得 用 





户 无 法 注意 




















间 必 须 在 各 种 应 
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存储 保护 ， 


之 间 尽 可 能 公平 地 共享 ， 其 中 一 些 程序 可 














将 在 第 3 守 处理 。 








在 本 章 中 ， 我 主要 讲解 




















以 及 如 何 克 
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内 核 必须 
一 个 的 问题 。 




















全 相同 。 例 


E 进 程 之 间 切 换 。 这 里 有 两 个 任务 
为 和 个人 本 多 攻 时间 
此 类 决策 是 平台 无 关 的 。 

口 在 内 核 从 进程 A 切 换 到 进程 B 时 ， 必 须 


如 ， 处 理 器 寄存 器 的 内 容 和 























这 里 的 后 一 项 
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键 度 类 别 ， 


并 非 所 有 进程 都 具 
以 满足 不 同 需 求 。 首 多 

















工作 与 处 至 


器 极度 相关 。 不 








个 任务 是 称 之 为 0D 口 
于 在 各 个 进程 之 间 切 换 的 D 口 


进程 优先 级 


0 的 内 核子 系统 
口 口 机 甫 





























有 相同 的 重要 性 。 









































台 上 口 
~HES 


的 职责 。 
| 完全 无 关 。 


除了 大 多 数 读者 熟悉 





外 保 进 程 B 的 执行 环境 与 | 
虚拟 地 址 空 


< 间 的 


的 进程 人 


读 取 或 














， 其 执行 是 相对 独立 的 。 
何 时 切换 到 下 














个 进程 。 











结构 必须 与 
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Fo 如 果 有 统 只 有 一 











E， 这 是 通过 以 很 短 的 间 


， 可 以 


意 到 短 时 





重要 的 问题 如 
的 错误 不 


允 改 其 他 和 





能 比 其 


内 核 共享 CPU 


上 一 次 撤销 其 处 到 

与 此 前 相同 。 
只 用 C 语 言 实现 ， 还 需要 汇编 代码 的 帮助 。 
CPU 时 间 如 何 分 配 取 决 于 调度 器 0 口 ， 这 与 用 








真正 了 


:运行 





陋 在 系统 运行 


间 内 的 停滞 ， 


也 程 








F 所 示 。 
能 传播 到 应 
这 的 内 存 ， 














用 程序 
否则 


序 更 重要 。 














时 间 的 方法 ， 


这 又 引出 了 0 0 进程 是 下 
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资源 时 完 


C 先 级 之 外 ， 进 程 还 有 不 同 的 关 
E 进 行 比较 粗粮 的 划分 ， 进 程 可 以 分 为 实时 进程 和 非 实 时 进程 。 





DO0O000D0 有 严格 的 时 间 限 制 ， 某 些 任 务必 须 在 指定 的 时 限 内 完成 。 如 果 飞 机 的 飞行 控制 合 
和 定 的 一 段 时 间 内 完成 。 














令 通 过 计算 机 处 理 ， 





则 必须 

















机 处 于 着 陆 进 场 过 程 中 ， 














么 用 也 没有 ! 此 时 








们 必须 在 可 保证 的 时 间 范 围 内 得 到 处 至 

















而 是 系统 必须 保 说 








尽快 处 理 
而 飞行 员 想 











发 送 ， 即 保证 在 
要 拉 起 机 头 。 如 果 计 算 机 在 几 秒 以 后 发 送 该 命令 ， 
只 能 考虑 飞机 的 后 事 了 一 一 一 头 扎 到 地 上 。 硬 实时 进程 的 关键 特征 是 ， 















































E 决 不 会 超过 某 一 时 间 


有 。 请 六 





范围 





注意 ， 这 六 





例 丸 


0H， 如 果 飞 
则 什 
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已 








F 不 意味 着 所 要 求 的 时 间 范 围 特别 短 ， 








， 即 使 在 不 大 可 能 或 条 件 不 利 的 情况 下 也 是 如 此 。 
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Linux 不 文 持 人 硬 实时 人 处理， 至 少 在 主流 的 内 核 中 不 支持 。 但 有 一 些 修改 版 本 如 RTLinux、 
Xenomai、RATI 提 供 了 该 特性 。 在 这 些 修改 后 的 方案 中 ，Linux 内 核 作 为 独立 的 “进程 ”运行 
来 处 理 次 重要 的 软件 ， 而 实时 的 工作 则 在 内 核 外 部 完成 。 上 只 有 当 没 有 实时 的 关键 操作 执行 时 ， 
内 核 才 会 运行 。 
1 于 Linux 是 针对 和 否 叶 量 优化 ， 试 图 尽快 地 处 理 常 见 情 形 ， 其 实 很 难 实现 可 保证 的 响应 时 间 。 
2007 年 我 们 在 降低 内 核 整体 延迟 〈 指 向 内 核发 出 请 求 到 完成 之 间 的 时 间 间 隔 ) 方面 取得 了 相 
当 多 的 进展 。 相 关 工 作 包括 : 可 抢占 的 内 核 机 制 、 实 时 互 斥 量 以 及 本 书 将 要 讨论 的 完全 公平 
的 新 调度 器 。 
DO0O00050 是 硬 实时 进程 的 一 种 弱化 形式 。 尽 管 仍 然 需要 快速 得 到 结果 ， 但 稍微 晚 一 点 不 会 
造成 世界 末日 。 软 实时 进程 的 一 个 例子 是 对 CD 的 写 入 操作 。CD 写 入 进程 接收 的 数据 必须 保持 
某 一 速率 ， 因 为 数据 是 以 连续 流 的 形式 写 入 介质 的 。 如 果 系 统 负荷 过 高 ， 数 据 流 可 能 会 暂时 
中 断 ， 这 可 能 导致 CD 不 可 用 ， 但 比 险 机 好 得 多 。 不 过 ， 写 入 进程 在 需要 CPU 时 间 时 应 该 能 够 
得 到 保证 ， 至 少 优先 于 所 有 其 他 普通 进程 。 
口 大 多 数 进 程 是 没有 特定 时 间 约 束 的 0 口 DU ， 但 仍然 可 以 根据 重要 性 来 分 本 0 0 D 。 
例如 ， 苑 长 的 编译 或 计算 只 需要 极 低 的 优先 级 ， 因 为 计算 偶尔 中 断 一 两 秒 根 本 不 会 有 什么 后 果 ， 
用 户 不 太 可 能 注意 到 。 相 比 之 下 , 交互 式 应 用 则 应 该 尽快 响应 用 户 命令 , 因为 用 户 很 容易 不 耐烦 。 




















































































































































































































































































































































































































图 2-1 给 出 了 CPU 时 间 分 配 的 一 个 简 图 。 进 程 的 运行 按时 间 片 调度 ， 分 配给 进程 的 时 间 片 份额 与 
其 相对 重要 性 相当 。 系 统 中 时 间 的 流动 对 应 于 圆 盘 的 转动 ， 而 CPU 则 由 圆周 旁 的 “扫描 器 ”表示 。 最 
终 效 果 是 ， 尽 管 所 有 的 进程 都 有 机 会 运行 ， 但 重要 的 进程 会 比 次 要 的 得 到 更 多 的 CPU 时 间 。 

















图 2-1 通过 时 间 片 分 配 CPU 时 间 


这 种 方案 称 之 为 0 口 0DODDOODODO (preemptive multitasking)， 各 个 进程 都 分 配 到 一 定 的 时 间 段 
可 以 执行 。 时 间 段 到 期 后 ， 内 核 会 从 进程 收回 控制 权 ， 让 一 个 不 同 的 进程 运行 ， 而 不 考虑 前 一 进程 所 
执行 的 上 一 个 任务 。 被 抢占 进程 的 运行 时 环境 ， 即 所 有 CPU 寄存 器 的 内 容 和 页 表 ， 都 会 保存 起 来 ， 因 
此 其 执行 结果 不 会 丢失 。 在 该 进程 恢复 执行 时 ， 其 进程 环境 可 以 完全 恢复 。 时间 片 的 长 度 会 根据 进程 
重要 性 (以 及 因此 而 分 配 的 优先 级 〉 的 不 同 而 变化 。 图 2-1 中 分 配给 各 个 进程 的 时 间 片 长 度 各 有 不 同 ， 
即 说 明了 这 一 点 。 
这 种 简化 模型 没有 考虑 几 个 重要 问题 。 例 如 , 进程 在 某 些 时 间 可 能 因为 无 事 可 做 而 无 法 立即 执行 。 
为 使 CPU 时 间 的 利益 回报 尽 可 能 最 大 化 ,这样 的 进程 决 不 能 执行 。 这 种 情况 在 图 2-1 中 看 不 出 来 ， 因 为 
其 中 假定 所 有 的 进程 都 是 可 以 立即 运行 的 。 男 外 一 个 忽略 的 事实 是 Linux 支 持 不 同 的 调度 类 别 〈 在 进 
程 之 间 完 全 公平 的 调度 和 实时 调度 )， 调 度 时 也 必须 考虑 到 这 一 点 。 此 外 ， 在 有 重要 的 进程 变 为 就 绪 
状态 可 以 运行 时 ， 有 一 种 选项 是 抢占 当前 的 进程 ， 图 中 也 没有 反映 出 这 一 点 。 
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进程 调度 在 内 核 开 




















调度 器 的 质量 
许多 不 同 
计算 机 的 需求 非常 不 同 ， 








jy 























经 重 写 了 两 次 。 


是 ， 














(1) 在 2.5 系 列 内 核 
它 可 以 在 常数 





使 用 的 调度 体系 结构 。 


CUUUD 


发 式 原则 。 
调度 单个 进程 ,还 和 
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可 以 


和 先 在 不 同 用 









































E 够 处 




















而 多 媒 





期 间 ， 
对 间 内 完成 其 了 


， 可 以 讲 ， 即 使 可 























体系 统 的 需求 与 前 天 


所 谓 的 O(D 调 度 器 代替 了 前 一 个 调度 器 。 
[ 作 ， 不 依赖 于 系统 上 运行 的 进程 数目 。 

















岗 细 节 。 












































































































































































































































可 能 ， 


工作 负荷 所 提出 的 需求 ， 这 是 非常 具有 挑战 性 


发 者 之 间 引 起 了 非常 热烈 的 讨论 ， 尤其 是 提 到 挑选 最 合适 的 算法 时 。 为 
种 定量 标准 





也 非常 困难 。 男 外 调度 器 要 满足 Linux 系 统 上 





的 。 























前 一 个 调度 器 
是 ， 它 试图 








上 DD (completely fair scheduler) 在 内 核 
一 次 完全 放弃 了 原 有 的 设计 原则 ， 例 如 ， 
该 调度 器 的 关键 特性 
里 更 一 般 性 的 
户 之 间 分 配 ， 接 
我 会 在 下 文 讨论 该 调度 器 的 实 ] 





尽 可 能 地 模仿 至 
000D0 (scheduling entity 
下 来 在 各 个 用 户 的 进程 之 间 分 配 。 


FP 为 确保 用 


动 化 控制 所 需 的 小 型 幅 入 式 系 统 和 大 型 








版 本 2.6.23 开 





者 也 颇 为 不 同 。 实 际 上 ， 


发 期 间 合并 进来 。 


调度 器 的 代码 近年 来 已 


该 调度 器 一 
该 设计 从 根本 上 








个 特别 的 性 质 
打破 了 先前 























新 的 代码 再 


















































户 交 互 任务 响应 
E 想 情况 下 的 公平 调度 。 此 外 ， 


快速 ， 需 要 许多 局 
它 不 仅 可 以 





)。 例 如 , 该 调度 器 分 配 可 用 时 间 时 ， 
























































































































































在 关注 内 核 如 何 实现 调度 之 前 ， 我 们 首先 来 讨论 进程 可 能 拥有 的 状态 。 
2.2 进程 生命 周期 

进程 并 不 总 是 可 以 立即 运行 。 有 时 候 它 必 须 等 竺 来自 外 部 信号 源 、 不 受 其 控制 的 事件 ， 例 如 在 文 
本 编辑 器 中 等 竺 键盘 输入 。 在 事件 发 生 之 前 ， 进 程 无 法 运行 。 

当 调 度 器 在 进程 之 间 切 换 时 ， 必 须知 道 系 统 中 每 个 进程 的 状态 。 将 CPU 时 间 分 配 到 无 事 可 做 的 进 
程 ， 显 然 是 没有 意义 的 。 进 程 在 各 个 状态 之 间 的 转换 也 同样 重要 。 例 如 ， 如 果 一 个 进程 在 等 待 来 自 儿 
设 的 数据 ， 那 么 调度 器 的 职责 是 一 旦 数据 已 经 到 达 ， 则 需要 将 进程 的 状态 由 等 待 改 为 可 运行 。 

进程 可 能 有 以 下 几 种 状态 。 

该 进程 此 刻 正在 执行 。 

等 待 : 进程 能 够 运行 ， 但 没有 得 到 许可 ， 因 为 CPU 分 配给 另 一 个 进程 。 调 度 器 可 以 在 下 一 次 
“放风 光 可 坟 到 
口 睡眠 : 进程 正在 睡眠 无 法 运行 ， 因 为 它 在 等 待 一 个 外 部 事件 。 调 度 器 0 口 在 下 一 次 任务 切换 
时 选择 该 进程 。 

系统 将 所 有 进程 保存 在 一 个 进程 表 中 ， 无论 其 状态 是 运行 、 睡 眠 或 等 等 。 但 睡眠 进程 会 特别 标记 
出 来 ， 调 度 器 会 知道 它们 无 法 立即 运行 《具体 实现 ， 请 参考 2.3 节 )。 睡 眠 进程 会 分 类 到 若干 队列 中 ， 
因此 它们 可 在 适当 的 时 间 唤 醒 ， 例 如 在 进程 等 待 的 外 部 事件 已 经 发 生 时 。 





图 2-2 描 述 了 进程 的 几 种 状态 及 其 转 j 









































图 2-2 ”进程 状态 之 间 的 转换 
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对 于 一 个 排队 中 的 可 运行 进程 ， 我 们 来 考察 其 各 种 可 能 的 状态 转换 。 该 进程 已 经 就 绕 ， 但 没有 运 
行 ， 因 为 CPU 分 配给 了 其 他 进程 (因此 该 进程 的 状态 是 “等 待 ”)。 在 调度 器 授予 CPU 时 间 之 前 ， 进 程 
会 一 直 保 持 该 状态 。 在 分 配 CPU 时 间 之 后 ， 其 状态 改变 为 “运行 ”( 路 径 四 )。 
在 调度 器 决定 从 该 进程 收回 CPU 资 源 时 (可 能 的 原因 稍 后 讲述 )， 过 程 状态 从 “运行 ”改变 为 “等 
待 ”( 路 径 包 )， 循 环 重新 开始 。 实 际 上 根据 是 否 可 以 被 信号 中 断 ， 有 两 种 “睡眠 ”状态 。 现 在 这 种 差 
别 还 不 重要 ， 但 在 更 仔细 地 考察 具体 实现 时 ， 其 差别 就 相对 重要 了 。 
如 果 进 程 必须 等 待 事件 ， 则 其 状态 从 “运行 ”改变 为 “睡眠 ”路径 中)。 但 进程 状态 无 法 从 “ 睡 
眠 ”直接 改变 为 “运行 ”在 所 等 待 的 事件 发 生 后 ， 进 程 先 变 回 到 “等 待 ”状态 (路 径 @))， 然 后 重新 
可 到 正常 循环 。 
在 程序 执行 终止 〈 例 如 ， 用 户 关闭 应 用 程序 ) 后 ， 过 程 状态 由 “运行 ” 变 为 “终止 ”( 路 径 @)。 
上 文 没有 列 出 的 一 个 特殊 的 进程 状态 是 所 谓 的 “人 僵尸” 状态。 顾名思义 ， 这 样 的 进程 已 经 死亡 ， 
但 仍然 以 某 种 方式 活着 。 实 际 上 ， 说 这 些 进程 死 了 ， 是 因为 其 资源 〈 内 存 、 与 外 设 的 连接 ， 等 等 ) 已 
经 释放 ， 因 此 它们 无 法 也 决 不 会 再 次 运行 。 说 它们 仍然 活着 ， 是 因为 进程 表 中 仍然 有 对 应 的 表 项 。 
僵尸 是 如 何 产生 的 ? 其 原因 在 于 UNIX 操 作 系统 下 进程 创建 和 销毁 的 方式 。 在 两 种 事件 发 生 时 ， 
程序 将 终止 运行 。 第 一 , 程序 必须 由 另 一 个 进程 或 一 个 用 户 杀 死 (通常 是 通过 发 送 SIGTERM 或 SIGKIIL 
信和 号 来 完成 ， 这 等 价 于 正常 地 终止 进程 )， 进 程 的 父 进程 在 子 进 程 终 止 时 必须 调用 或 已 经 调用 wait4 
〈 读 做 wait for) 系统 调用 。 这 相当 于 向 内 核 证 实 父 进程 已 经 确认 子 进程 的 终结 。 该 系统 调用 使 得 内 核 
可 以 释放 为 子 进程 保留 的 资源 。 
只 有 在 第 一 个 条 件 发 生 〈 程 序 终止 ) 而 第 二 个 条 件 不 成 立 的 情况 下 〈wait4)， 才 会 出 现 “ 僵 尸 ” 
状态 。 在 进程 终止 之 后 ， 其 数据 尚未 从 进程 表 删 除 之 前 ， 进 程 总 是 暂时 处 于 “僵尸 ”状态 。 有 时 候 〈 例 
如 ， 如 果 父 进程 编程 极其 糟糕 ， 没 有 发 出 wait 调 用 )， 僵 尸 进程 可 能 稳定 地 寄 身 于 进程 表 中 ， 直 至 下 
一 次 系统 重启 。 从 进程 工具 〈 如 ps 或 top) 的 输出 ， 可 以 看 到 僵尸 进程 。 因 为 残余 的 数据 在 内 核 中 占 
据 的 空间 极 少 ， 所 以 这 几乎 不 是 问题 。 


抢占 式 多 任务 处 理 


Linux 进 程 管理 的 结构 中 还 需要 另外 两 种 进程 状态 选项 : 用 户 状态 和 核心 态 。 这 反映 了 所 有 现代 
CPU 都 有 【至 少 ) 两 种 不 同 执行 状态 的 事实 ， 其 中 一 种 具有 无 限 的 权利 ， 而 另 一 种 则 受到 各 种 限制 。 
例如 ， 可 能 禁止 访问 某 些 内 存 区 域 。 这 种 区 别 是 建立 封闭 “隔离 单 ” 的 一 个 重要 前 提 ， 它 维持 着 系统 
中 现存 的 各 个 进程 ， 防 止 它们 与 系统 其 他 部 分 相互 干扰 。 

进程 通常 都 处 于 用 户 状 态 ， 只 能 访问 自身 的 数据 ， 无 法 干扰 系统 中 的 其 他 应 用 程序 ， 甚 至 也 不 会 
注意 到 自身 之 外 其 他 程序 的 存在 。 
如 果 进 程 想 要 访问 系统 数据 或 功能 〈 后 者 管理 着 所 有 进程 之 间 共 享 的 资源 ， 例 如 文件 系统 空间 )， 
则 必须 切换 到 核心 态 。 显 然 这 只 能 在 受 控 情 况 下 完成 ， 和 否则 所 有 建立 的 保护 机 制 都 是 多 余 的 ， 而 且 这 
种 访问 必须 经 由 明确 定义 的 路 径 。 第 1 章 简 要 提 到 “系统 调用 ”是 在 状态 之 间 切 换 的 一 种 方法 。 第 13 
章 深入 讨论 了 系统 调用 的 实现 。 









































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































从 用 户 状态 切换 到 核心 态 的 第 二 种 方法 是 通过 中 断 ， 此 时 切换 是 自动 触发 的 。 系 统 调用 是 由 用 户 
应 用 程序 有 意 调用 的 ， 中 断 则 不 同 ， 其 发 生 或 多 或 少 是 不 可 预测 的 。 处 理 中 断 的 操作 ， 通 常 与 中 断 发 
生 时 执行 的 进程 无 关 。 例 如 ， 外 部 块 设备 向 内 存 传输 数据 完毕 会 引发 一 个 中 断 ， 但 相关 数据 用 于 系统 
中 运行 的 任何 进程 都 是 可 能 的 。 类 似 地 ， 进 入 系统 的 网 络 数据 包 也 是 通过 中 断 通 知 的。 显然 ， 该 数据 









































包 也 未 必 是 用 于 当前 运行 的 进程 。 因 此 ， 在 Linux 执 行 中 断 操作 时 ， 当 前 运行 的 进程 不 会 察觉 。 
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内 核 的 抢占 调度 模型 建立 了 一 个 层次 结构 ， 用 于 判断 哪些 进程 状态 可 以 由 其 他 状态 抢占 。 















































口 普通 进程 总 是 可 能 被 抢占 ， 甚 至 是 由 其 他 进程 抢占 。 在 一 个 重要 进程 变 为 可 运行 时 ， 例 如 编 


















































然 在 正常 运行 。 对 于 实现 恨 好 的 交互 行为 和 低 系 统 延 迟 ， 这 种 抢占 起 到 了 重要 作用 。 
口 如 果 系统 处 于 核心 态 并 正在 处 理 系统 调用 ， 那 么 系统 中 的 其 他 进程 是 无 法 夺取 其 CPU 时 间 





































































































辑 器 接收 到 了 等 竺 已 久 的 键盘 和 输入， 调度 器 可 以 决定 是 否 立即 执行 该 进程 ， 即 使 当前 进程 仍 

























































































尽快 处 理 。 











调度 器 必须 等 到 系统 调用 执行 结束 ， 才 能 选择 另 一 个 进程 执行 ， 但 中 断 可 以 中 止 系 统 调用 。 
口 中 断 可 以 暂停 处 于 用 户 状态 和 核心 态 的 进程 。 中 断 具 有 最 高 优先 级 ， 因 为 在 中 断 触发 后 需要 





的 。 


[0] 


在 内 核 2.5 开 发 期 间 ， 一 个 称 之 为 0 吕 DD (kernelpreemption〉 的 选项 添加 到 内 核 。 该 选项 支持 




















在 紧急 情况 下 切换 到 另 一 个 进程 ， 甚 至 当前 是 处 于 核心 态 执行 系统 调用 《中断 处 到 











H 击 











期 间 是 不 行 的 )。 


尽管 内 核 会 试图 尽快 执行 系统 调用 ， 但 对 于 依赖 恒定 数据 流 的 应 用 程序 来 说 ， 系 统 调 用 所 需 的 时 间 仍 
然 太 长 了 。 内 核 抢占 可 以 减少 这 样 的 等 待 时 间 ， 因 而 保证 “更 平滑 的 ”程序 执行 。 但 该 特性 的 代价 是 
















































































增加 内 核 的 复杂 度 ， 因 为 接 下 来 有 许多 数据 结构 需要 针对 并 发 访问 进行 保护 ， 即 使 在 单 处 理 器 系统 上 








也 是 如 此 。2.8.3 节 会 讨论 该 技术 。 
2.3 ”进程 表示 

















Linux 内 核 涉 及 进程 和 程序 的 所 有 算法 都 围绕 一 个 名 为 task_struct 的 数据 结构 建立 ， 该 结构 

















义 在 include/sched.n 中 。 这 是 系统 中 主要 的 一 个 结构 。 在 阐述 调度 器 的 实现 之 前 ， 了 人 解 一 下 Linux 


























管理 进程 的 方式 是 很 有 必要 的 。 











task_struct 包 含 很 多 成 员 ， 将 进程 与 各 个 内 核子 系统 联系 起 来 ， 下 文 会 逐一 讨论 。 此 外 ， 如 果 














没有 比较 详细 的 知识 ， 我 们 就 很 难 解释 某 些 结构 成 员 的 重要 性 ， 因 此 下 面 会 频繁 引用 后 绪 章 节 。 
task_struct 定 义 如 下 ， 当 然 ， 这 里 是 简化 版 本 : 


<sched.h> 

struct task_ struct { 
volatile long state; /* -1 表示 不 可 运行 ，0 表 示 可 运行 ，>0 表 示 停 止 */ 
void *stack; 
atomic_t usage; 















































unsigned long flags; /* 每 进程 标志 ， 下 文 定义 */ 
unsigned long ptrace; 
int lock_depth; /* 大 内 核 锁 深度 */ 





int prio, static prio, normal_prio; 
struct list_ head run list; 

const struct sched_ class *sched class; 
struct sched_entity se; 





unsigned short ioprio; 


unsigned long policy; 
cpumask_t cpus_allowed; 
unsigned int time slice; 


#if defined (CONFIG SCHEDSTATS) | | defined (CONFIG TASK_ DELAY_ ACCT) 
struct sched_info sched info; 
#endif 



































GD 在 进行 习 


| 





的 内 核 操作 时 ， 可 以 停 用 几乎 所 有 的 中 断 。 
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struct list head tasks; 
/* 
* ptrace_list/ptrace_children 链 表 是 ptrace 能 够 看 到 的 当前 进程 的 子 进程 列表 。 























yh 
struct list head ptrace_ children; 


struct list_ head ptrace_ list; 





struct mm struct *mm, *active_ mm; 














/* 进程 状态 */ 
struct linux binfmt *binfmt; 
long exit_state; 
int exit_ code, exit_ signal; 
int pdeath_signal; /* 在 父 进程 终止 时 发 送 的 信号 */ 

















unsigned int personality; 
unsigned did exec:1; 
oe We sh oe ly 
pid tt: toLd; 
/* 
* 分 别 是 指向 〈 原 ) 父 进程 、 最 年 轻 的 子 进程 、 年 幼 的 兄弟 进程 、 年 长 的 兄弟 进程 的 指针 。 
* (P->father 可 以 替换 为 p->parent->pidy) 


















































































































































6 

struct task_ struct *real parent; /* 真正 的 父 进程 (在 被 调试 的 情况 下 ) */ 
struct task_struct *parent; /* 父 进 程 */ 

/* 

* children/sibling 链 表 外 加 当前 调试 的 进程 ， 构 成 了 当前 进程 的 所 有 子 进程 

*/ 

struct list head children; /* 子 进 程 链表 */ 

struct list head sibling; /* 连接 到 父 进程 的 子 进程 链表 */ 


struct task_struct *group_leader;  /* 线程 组 组 长 */ 


/* PID 与 PID 散 列表 的 联系 。 */ 
struct pid link pids[PIDTYPE MAX]; 
struct list head thread group; 























struct completion *vfork_ done; /* 用 丁 vEorzKk() */ 
int _ user *set_ child tid; /* CLONE_ CHILD SETTID */ 
int _ user *clear chilgd tid; /* CLONE_CHILD_ CLEARTID */ 


unsigned long rt priority; 
cputime t utime, stime, utimescaled, stimescaled; 





unsigned long nvcsw, nivcsw; /* 上 下 文 切 换 计数 */ 
struct timespec start time; /* 单调 时 间 */ 
struct timespec real_ start time; /* 启动 以 来 的 时 间 */ 




















/* 内 存 管理 器 失效 和 页 交换 信息 ， 这 个 有 一 点 争论 。 它 既 可 以 看 作 是 特定 于 内 存 管理 器 的 ， 
也 可 以 看 作 是 特定 于 线程 的 */ 


unsigned long min flt, maj_flt; 








cputime t it prof expires, it virt expires; 
unsigned long long it_ sched expires; 
struct list _ head cpu timers[3]; 


/* 进程 身份 凭据 */ 
uid t uid,euid,suid,fsuid; 
gid t gid,egid,sgid,fsgid; 
struct group. info *group_info; 
kernel_ cap_t cap_effective, cap_inheritable, cap_permitted; 














unsigned keep_ capabilities:1; 
struct user_struct *user; 
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char comm[TASK_ COMM LEN]; 














ju 除去 路 径 后 的 可 执行 J 文件 名 称 

















[gs]et_task_comm 访 问 ( 其 中 用 task_lock() 锁定 它 ) 


-通常 由 PED ol exec 初 始 化 */ 










































































/* 文件 系统 信息 */ 
int link count, total_link count; 
/* ipc 相 关 */ 
struct sysv_sem sysvsem; 
/* 当前 进程 特定 于 cPU 的 状态 信息 */ 
struct thread_ struct thread; 
/* 文件 系统 信息 */ 
struct fs struct *fss 
/* 打开 文件 信息 */ 
struct files struct *files:; 
/* 命名 空间 */ 
struct nsproxy *nsproxy; 
/* 信号 处 理 程序 */ 





struct signal_ struct *signal,; 


struct sighand struct *sighand; 


sigset _t blocked, 
sigset t saved sigmask; 
struct sigpending pending; 














unsigned long sas_ss_sp; 
size_t sas_ss_size; 

int (*notifier) (void *priv); 
void *notifier data; 
Sigset 七 *notifier mask; 





#ifdef CONFIG SECURITY 
voiqd *security; 
#endif 


线程 组 跟踪 */ 
u32 Parent_exec_id:; 
u32 self_exec_id; 


志文 件 系 统 信 息 


void mg 


虚拟 内 存 状 态 */ 


A* 











/* 








了 党 


real_blocked; 
/* 用 TIF_RESTORE 


_SIGMASK 恢 复 */ 











struct reclaim state *reclaim state; 


struct backing dev_info *backing dev_info; 


struct io_context *io_context; 


unsigned long ptrace message; 
siginfo t *last_ siginfo; 

}; 
要 弄 清 楚 该 结构 中 信息 的 数量 
进程 的 一 个 特定 方面 。 
口 状态 和 执行 














诚然 很 困难 。 
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lk 











/* 由 ptrace 使 用 。 


但 该 结 


言 轧 ， 如 竺 决 信号 、 使 用 的 二 进 制 格式 和 其 他 系统 二 进 














进程 ID 号 (pid)、 到 父 进程 及 其 
CPU 时 间 )。 
口 有 关 已 经 分 

















> 配 的 虚拟 内 存 的 信息 。 




















4 








二 构 的 内 容 可 以 分 解 为 各 个 部 分 ,每 个 部 分 表示 


nT 











制 格式 的 任何 仿真 信息 入 





他 有 关 进 程 的 指针 、 优 先 级 和 程序 执行 有 关 的 时 间 信 息 《〈 例 如 
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口 进程 身份 凭据 ， 如 用 户 ID、 组 ID 以 及 权限 ?等 。 可 使 用 系统 调用 查询 (或 修改 ) 这 些 数据 。 在 
蕴 述 相关 的 特定 子 系统 时 ， 我 会 更 详细 地 阐述 。 
口 使 用 的 文件 包含 程序 代码 的 二 进 制 文件 ， 以 及 进程 所 处 理 的 所 有 文件 的 文件 系统 信息 ， 这 些 
都 必须 保存 下 来 。 
口 线程 信息 记录 该 进程 特定 于 CPU 的 运行 时 间 数 据 《〈 该 结构 的 其 余 字 段 与 所 使 用 的 硬件 无 关 )。 
口 在 与 其 他 应 用 程序 协作 时 所 需 的 进程 间 通 信 有 关 的 信息 。 
口 该 进程 所 用 的 信号 处 理 程序 ， 用 于 响应 到 来 的 信和 号。 
rask_sttzuct 的 许多 成 员 并 非 简单 类 型 变量 ， 而 是 指向 其 他 数据 结构 的 指针 ， 相 关 数 据 结构 会 在 
后 续 章 节 中 讨论 。 在 本 章 中 ， 我 会 阐述 task_struct 中 对 进程 管理 的 实现 特别 重要 的 一 些 成 员 。 
state 指 定 了 进程 的 当前 状态 ， 可 使 用 下 列 值 (这些 是 预 处 理 器 常数 ， 定 义 在 <sched.h> 中 )。 
口 TASK_RUNNING 意 味 着 进程 处 于 可 运行 状态 。 这 并 不 意味 着 已 经 实际 分 配 了 CPU。 进 程 可 能 会 
一 直 等 到 调度 器 选中 它 。 该 状态 确保 进程 可 以 立即 运行 ， 而 无 需 等 待 外 部 事件 。 
口 TASK_INTERRUPTIBLE 是 针对 等 待 某 事件 或 其 他 资源 的 睡眠 进程 设置 的 。 在 内 核发 送信 号 给 该 
进程 表明 事件 已 经 发 生 时 ， 进 程 状态 变 为 TASK_RUNNING， 它 只 要 调度 器 选中 该 进程 即 可 恢复 
执行 。 
口 TASK_UNINTERRUPTIBLE 用 于 因 内 核 指示 而 停 用 的 睡眠 进程 。 它 们 不 能 由 外 部 信号 唤醒 ， 只 能 
内 核 亲 自 唤醒 。 
口 TASK_STOPPED 表 示 进 程 特意 停止 运行 ， 例 如 ， 由 调试 器 暂停 。 
口 TASK_TRACED 本 来 不 是 进程 状态 ， 用 于 从 停止 的 进程 中 ， 将 当前 被 调试 的 那些 〈 使 用 ptrace 机 
制 ) 与 常规 的 进程 区 分 开 来 。 
下 列 常量 既 可 以 用 于 struct task_struct 的 进程 状态 字段 ， 也 可 以 用 于 exit_state 字 段 ， 后 者 
明确 地 用 于 退出 进程 。 
口 EXIT_ZzoMBIE 如 上 所 述 的 僵尸 状态 。 
口 EXIT_DEAD 状 态 则 是 指 wait 系 统 调用 已 经 发 出 ， 而 进程 完全 从 系统 移 除 之 前 的 状态 。 只 有 多 
个 线程 对 同一 个 进程 发 出 wait 调 用 时 ， 该 状态 才 有 意义 。 
Linux 提 供 0 DO DO (resource limit，rlimit) 机 制 ， 对 进程 使 用 系统 资源 施加 某 些 限制 。 该 机 制 利 
用 了 task_struct 中 的 rlim 数 组 ， 数 组 项 类 型 为 struct rlimit。 


<resource.h> 
Steuet LEME 攻 
unsigned long rlim cur; 
unsigned long rlim max; 





























































































































































































































































































































































































































































































































































































































} 

上 上述 定义 设计 得 非常 通用 ， 因 此 可 以 用 于 许多 不 同 的 资源 类 型 。 

口 *Lim_cuzr 是 进程 当前 的 资源 限制 ， 也 称 之 为 0 DD (soft limit)。 

口 rlim_max 是 该 限制 的 最 大 容许 值 ， 因 此 也 称 之 为 DD (hard limit)。 

系统 调用 setr1limit 来 增 减 当前 限制 ， 但 不 能 超出 rlim_max 指 定 的 值 。getrlimits 用 于 检查 当 
前 限制 。 
rlim 数 组 中 的 位 置 标识 了 受 限制 资源 的 类 型 , 这 也 是 内 核 需 要 定义 预 处 理 器 常数 , 将 资源 与 位 置 
关联 起 来 的 原因 。 表 2-1 列 出 了 可 能 的 常数 及 其 含义 。 关 于 如 何 最 佳 地 运用 各 种 限制 ， 系统 程序 设计 方 
















































































































































































Q 权限 是 授予 进程 的 特定 许可 。 它 们 使 得 进程 可 以 执行 某 些 本 来 上 只 能 由 root 进 程 执行 的 操作 。 
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面 的 教科 书 提供 了 详细 的 说 明 ， 而 setrlimit (2) 的 手册 页 详细 描述 了 所 有 的 限制 。 
表 2-1 ”特定 于 进程 的 资源 限制 
常数 语义 
RLIMIT_ CPU 按 晶 秒 计 算 的 最 大 CPU 时 间 
RLIMIT_ FSIZE 允许 的 最 大 文件 长 度 
RLIMIT, DATA 数据 段 的 最 大 长 度 
RLIMIT STACK (用 户 状态 ) 栈 的 最 大 长 度 
RLIMIT_CORE 内 存 转 储 文件 的 最 大 长 度 
RLIMTT_RSS DO00D0 的 最 大 尺寸 。 换 句 话说 ， 进 程 使 用 页 帧 的 最 大 数目 前 未 使 用 
RLIMIT_ NPROC 与 进程 真正 UID 关 联 的 用 户 可 以 拥有 的 进程 的 最 大 数目 
RLIMIT NOFILE 打开 文件 的 最 大 数目 
RLIMIT_MEMLOCK 不 可 换 出 页 的 最 大 数目 
RLIMIT_AS 程 占用 的 虚拟 地 址 空间 的 最 大 尺寸 
RLIMIT_LOCKS 文件 锁 的 最 大 数目 
RLIMIT SIGPENDING 待 决 信号 的 最 大 数 
RLIMIT_MSGQUEUE 言 息 队列 的 最 大 数目 
RLIMIT_NICE 非 实时 进程 的 优先 级 (nice level) 
RLITMIT_RTPRIO 最 大 的 实时 优先 级 
四 加 
加 加 加 四 加 思 加 加 
因为 限制 涉及 内 核 的 各 个 不 同 部 分 ， 内 核 必须 确认 子 系统 遵守 了 相应 限制 。 这 也 是 为 什么 在 本 书 





以 后 


例外 情况 包括 下 二 
D 打开 文件 的 数 








几 间 里 我 们 会 屡次 遇 到 r1imit 的 原因 。 
如 果 某 一 类 资源 没有 使 用 限制 (几乎 所 有 资源 的 则 





























ini 


口 每 
量 ， 


算 时 ， 

















-进程 的 限 


所 列举 


的 。 
目 《 














RLIMIT NOFILE, 
户 的 最 大 进程 数 (RLIMIT_NPROC)， 定 义 为 max_threads/2。max_t 


























默认 限制 在 1 024) 








间 定 了 在 把 八 分 之 一 可 
提前 给 定 了 20 个 线程 上 





INIT_RLIMITS。 








读者 可 以 关注 一 下 内 核 版 本 2.6.25， 在 本 书 编写 时 仍然 在 
中 对 每 个 进程 都 包含 了 对 应 的 一 个 文件 ， 





o 





























内 存 用 于 管理 线程 信 ， 




















的 最 小 可 能 内 存 用 量 。 








\ 认 设置 ) , 则 将 r1im_max 设 置 为 RLIM_INFINITY。 























hreads 是 一 个 全 局 变 





妃 的 情况 下 ， 可 以 创建 的 线程 数目 。 在 计 





吓 在 系统 启动 时 即 生 效 ， 定 义 在 include/asm-generic-resource.h 中 的 












































wolfgang@meitner> cat /proc/self/limits 


Limit 
Max cpu time 
Max file size 


Max 
Max 


Max core file size 


data size 
stack size 


Soft Limit Hard Limit 
unlimited unlimited 
unlimited unlimited 
unlimited unlimited 
8388608 unlimited 
0 unlimited 





发 中 


这 样 就 可 以 查看 当前 的 rlimit 值 : 








Ph， 该 版 本 的 内 核 在 proc 文 件 系 统 














Units 
ms 

bytes 
bytes 
bytes 
bytes 


2.3 0U00D0 37 








Max resident set unlimited unlimited bytes 
Max processes unlimited unlimited processes 
Max open files 1024 1024 files 
Max locked memory unlimited unlimited bytes 
Max address space unlimited unlimited bytes 
Max file locks unlimited unlimited locks 
Max pending signals unlimited unlimited signals 
Max msgqueue size unlimited unlimited bytes 
Max nice priority 0 0 

Max realtime priority 0 0 

Max realtime timeout unlimited unlimited us 
































内 核 版 本 2.6.24 已 经 包含 了 用 于 生成 该 信息 的 大 部 分 代码 ,但 与 /proc 文 件 系统 的 关联 可 能 只 有 后 
续 的 内 核发 布 版 本 才 会 完成 。 
2.3.1 进程 类 型 
典型 的 UNIX 进 程 包括 : 由 二 进 制 代码 组 成 的 应 用 程序 、 单 线程 (计算 机 沿 单一 路 径 通 过 代码 ， 
不 会 有 其 他 路 径 同 时 运行 )、 分 配给 应 用 程序 的 一 组 资源 (如 内 存 、 文 件 等 ) 。 新 进程 是 使 用 fork 和 
exec 系 统 调用 产生 的 。 
口 fork 生 成 当前 进程 的 一 个 相同 副本 ， 该 副本 称 之 为 0 DD 口 。 原 进程 的 所 有 资源 都 以 适当 的 方 
式 复制 到 子 进程 ， 因 此 该 系统 调用 之 后 ， 原 来 的 进程 就 有 了 两 个 独立 的 实例 。 这 两 个 实例 的 
联系 包括 : 同一 组 打开 文件 、 同样 的 工作 目录 、 内 存 中 同样 的 数据 (两 个 进程 各 有 一 份 副 本 )， 
等 等 。 此 外 二 者 别 无 关联 。? 
口 exec 从 一 个 可 执行 的 二 进 制 文件 加 载 另 一 个 应 用 程序 ， 来 代 奉 当前 运行 的 进程 。 换 名 话说 ， 
加 载 了 一 个 新 程序 。 因 为 exec 并 不 创建 新 进程 ， 所 以 必须 首先 使 用 fork 复 制 一 个 旧 的 程序 ， 
然后 调用 exec 在 系统 上 创建 另 一 个 应 用 程序 。 
上 述 两 个 调用 在 所 有 UNIX 操 作 系 统 变 体 上 都 是 可 用 的 ， 其 历史 可 以 追溯 到 很 久之 前 ， 除 此 之 外 
Linux 还 提供 了 clone 系 统 调用 。clone 的 工作 原理 基本 上 与 fork 相 同 , 但 新 进程 不 是 独立 于 父 进程 的 ， 
而 可 以 与 其 共享 某 些 资源 。 可 以 指定 需要 共享 和 复制 的 资源 种 类 ， 例 如 ， 父 进程 的 内 存 数据 、 打 开 文 
件 或 安装 的 信号 处 理 程序 。 
clone 用 于 实现 0 口 ， 但 仅仅 该 系统 调用 不 足以 做 到 这 一 点 ， 还 需要 用 户 空间 库 才 能 提供 完整 的 
实现 。 线 程 库 的 例子 ， 有 Linuxthreads 和 Next Generation Posix Threads 等 。 
2.3.2 ”命名 空间 
命名 空间 提供 了 虚拟 化 的 一 种 轻 量 级 形式 , 使 得 我 们 可 以 从 不 同 的 方面 来 查看 运行 系统 的 全 局 属 
性 。 该 机 制 类 似 于 Solaris 中 的 zone 或 FreeBSD 中 的 jaill。 对 该 概念 做 一 般 概述 之 后 ， 我 将 讨论 命名 空间 
匡 架 所 提供 的 基础 设施 。 
1. 概念 
传统 上 ， 在 Linux 以 及 其 他 衍生 的 UNIX 变 体 中 ， 许 多 资源 是 全 局 管理 的 。 例 如 ， 系 统 中 的 所 有 进 
程 按照 惯例 是 通过 PID 标 识 的 ， 这 意味 着 内 核 必 须 管 理 一 个 全 局 的 PID 列 表 。 而 且 ， 所 有 调用 者 通过 
uname 系 统 调用 返回 的 系统 相关 信息 〈 包 括 系统 名 称 和 有 关内 核 的 一 些 信 息 ) 都 是 相同 的 。 用 户 ID 贡 















































































































































































































































































































































































































































or 








































































































I 






































二 





Q 在 2.4.1 节 中 ， 读 者 会 知道 Linux 使 用 了 写 时 复制 机 制 ， 直 至 新 进程 对 内 存 页 执行 写 操作 才 会 复制 内 存 页 面 ， 这 比 
执行 fork 时 盲目 地 立即 复制 所 有 内 存 页 要 更 高 效 。 父 子 进程 内 存 页 之 间 的 联系 ， 只 有 对 内 核 才 是 可 见 的 ， 对 应 
程序 是 透明 的 。 
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管理 方式 类 似 ， 即 各 个 用 户 是 通过 一 个 全 局 唯一 的 UID 号 标识 。 
全 局 ID 使 得 内 核 可 以 有 选择 地 允许 或 拒绝 某 些 特权 。 虽 然 UID 为 0 的 root 用 户 基本 上 允许 做 任何 
事 ， 但 其 他 用 户 ID 则 会 受到 限制 。 例 如 UID 为 x 的 用 户 ， 不 允许 杀 死 属于 用 户 m 的 进程 (mn)。 但 这 
不 能 防止 用 户 看 到 彼此 ， 即 用 户 n 可 以 看 到 男 一 个 用 户 m 也 在 计算 机 上 活动 。 只 要 用 户 只 能 操纵 他 们 自 
己 的 进程 ， 这 就 没什么 问题 ， 因 为 没有 理由 不 允许 用 户 看 到 其 他 用 户 的 进程 。 
















































































































































































但 有 些 情况 下 ， 




















这 种 效果 可 能 是 不 想 要 的 。 如 果 提 供 Web 主 机 的 供应 商 打 算 向 用 户 提 供 Linux 计 























算 机 的 全 部 访问 权限 ， ea 传统 上 ， 这 需要 为 每 个 用 户 准 备 一 台 计 算 机 ， 代 价 太 高 。 








的 各 个 用 户 都 需要 











使 用 KVM 或 VMWare 提 供 的 虚拟 化 环境 是 一 种 解决 问题 的 方法 ,但 资源 分 配 做 得 不 是 非常 好 。 计 算 机 
一 个 独立 的 内 核 ， 以 及 一 份 完 全 安装 好 的 配套 的 用 户 层 应 用 。 
































命名 空间 提供 了 一 种 不 同 的 解决 方案 ， 所 需 资源 较 少 。 在 虚拟 化 的 系统 中 ， 一 台 物 理 计 算 机 可 以 











运行 多 个 内 核 ， 可 能 是 























A 

















放行 的 多 个 不 同 的 操作 系统 。 而 命名 空间 则 只 使 用 一 个 内 核 在 一 台 物 理 计 算 机 























上 运作 ， 前 述 的 所 有 全 局 资源 都 通过 0 0 0 0 抽象 起 来 。 这 使 得 可 以 将 一 组 进程 放置 到 容器 中 ， 各 个 






































容器 彼此 隔离 。 隔离 








可 以 使 容器 的 成 员 与 其 他 容器 毫 无 关系 。 但 也 可 以 通过 允许 容器 进行 一 定 的 共享 ， 



































来 降低 容器 之 间 的 分 隔 。 例 如 ， 容 器 可 以 设置 为 使 用 自身 的 PID 集 合 ， 但 仍然 与 其 他 容器 共享 部 分 文 


牛 系统 。 
































本 质 上 , 命名 空 





























zs 间 建 立 了 系统 的 不 同 0 口 。 此 前 的 每 一 项 全 局 资源 都 必须 包装 到 容器 数据 结构 中 ， 

















只 有 资源 和 包含 资源 的 命名 空间 构成 的 二 元 组 仍然 是 全 局 唯一 的 。 虽 然 在 给 定 容器 内 部 资源 是 自足 















































的 ， 但 无 法 提供 在 容器 外 部 具有 唯一 性 的 ID 。 图 2-3 给 出 了 此 情况 的 一 个 概述 。 





图 


考虑 系统 上 有 3 个 不 同 命名 空间 的 情况 。 命 名 空间 可 以 组 织 为 层次 ， 我 会 在 这 里 
一 个 命名 空间 是 父 命 名 空间 ， 和 衍生 了 两 个 子 命 名 空间 。 假 定 容器 用 于 虚拟 主机 配置 中 ， 其 中 的 每 个 容 





映射 到 父 

4 命名 空间 
喘 射 到 父 

HH 命名 空 












S 
人 (3) 子 命名 空间 





2-3 ”命名 空间 可 以 按 层次 关联 起 来 。 每 个 命名 空间 都 发 源 于 一 个 
父 命 名 空间 ， 一 个 父 命 名 空间 可 以 有 多 个 子 命名 空间 























讨论 这 种 情况 。 





















































器 必须 看 起 来 像 是 单 








独 的 台 Linux 计 算 机 。 因此 其 中 每 一 个 都 有 自身 的 init 进 程 ，PID 为 0， 其 他 进 

















程 的 PID 以 递增 次 请 


分 配 。 两 个 子 命名 空间 都 有 PID 为 0 的 init 进 程 ， 以 及 PID 分 别 为 2 和 3 的 两 个 进程 。 





















































于 相同 的 PID 在 系统 中 出 现 多 次 ， De 值 一 的 。 














23 口 口 品 


品 39 








所 有 进程 。 图 
来 表示 ， 因 为 


























子 容器 的 进程 映射 到 父 容器 中 , PID 为 4 到 9。 尽 管 系统 上 有 9 个 进程 , 但 却 
个 进程 可 以 关联 到 多 个 PID。 人 至 于 哪个 PID 是 “正确 ”的 ， 则 依赖 














虽然 子 容器 不 了 解 系统 中 的 其 他 容器 ,但 父 容 器 知道 子 命名 空间 的 存在 ,也 可 以 看 到 其 中 执行 的 


需要 15 个 PID 









































具体 























的 上 下 文 。 


如 果 命 名 空间 包含 的 是 比较 简单 的 量 ， 也 可 以 是 非 层 次 的 ， 例 如 下 文 讨论 的 UTS 命 名 空间 。 在 这 




















种 情况 下 ， 父 子 命名 空间 之 间 没 有 联系 。 
请 注意 ，Linux 系 统 对 








用 。 





简单 形式 的 命名 空间 的 支持 已 经 有 很 长 一 段 时 间 了 ， 主 要 是 c 


该 方法 可 以 将 进程 限制 到 文件 系统 的 某 一 部 分 ， 因 而 是 一 种 简单 的 命名 空间 机 制 。 但 真正 的 命名 





hroot 系 统 调 


























空间 能 够 控制 的 功能 远 远 超过 文件 系统 视图 。 























新 的 命名 空间 可 以 用 下 面 两 种 方法 创建 。 








(1) 在 用 fork 或 clone 系 统 调用 创建 新 进程 时 ， 有 特定 的 选项 可 以 控制 是 与 父 进程 共 








还 是 建立 新 的 命名 空间 。 









































(2) unshare 系 统 调 用 将 进程 的 茶 些 部 分 从 父 进程 分 离 , 其 中 也 包括 命名 空间 。 更 多 信息 请 参见 手 








册页 unshare(2) 。 

















在 进程 已 经 使 用 
属性 不 会 传播 到 父 进程 命名 空间 ， 而 


F 述 的 两 种 机 制 之 





















































而 对 于 文件 系统 来 说 ， 情 况 就 比较 复杂 ， 
况 会 在 第 8 章 讨论 。 
在 标准 内 核 中 命名 空间 当前 仍然 标记 为 试验 怕 


























相关 开发 仍然 在 进行 中 。 但 就 内 核 版 本 2.6.24 而 言 ， 基 本 的 相 








一 些 问题 ， 相 关 的 信 ， 
2. 实现 





父 进程 的 修改 也 不 会 传播 到 子 进程 ， 至 少 对 了 


息 可 以 参见 Documentation/namespac 


从 父 进程 命名 空间 分 离 后 ， 从 该 进程 的 角度 来 看 ， 改 变 全 局 
































其 中 的 共享 机 制 非常 强大 ， 带 来 了 大 量 的 可 能 1 


F 简 单 的 量 是 这 样 。 








生 ， 具 体 的 情 


























命名 空间 的 实现 需要 两 个 部 分 : 





进程 


struct task_struct 














struct task struct 














struct task_ struct 




















图 2-4 























G) 但 这 并 不 意味 着 相关 实 发 的 。 


存在 。 


现 是 最 近 开 








每 个 子 系统 的 命名 空间 
空间 中 ; 将 给 定 进程 关联 到 所 属 各 个 命名 空间 的 机 制 。 图 2-4 说 明了 其 体 情 形 。 








结构 ， 将 





UTS 命 名 空间 








struct nsproxy 






uts_namespc 
user_namespc 
mt_namespc 



























户 命 名 空间 
0 




















truct nsproxy 





uts_namespc 
User namespc 
mnt_namespc 





























进程 和 命名 空间 之 间 的 联系 











已 经 用 了 


已 经 败 丁 











品系 统 多 年 ， 























实际 上 ， 该 方法 











FE 的 ， 为 使 内 核 的 所 有 部 分 都 能 够 感知 到 命名 空间 ， 
匡 架 已 经 建立 就 绪 。? 当 前 的 实现 仍然 存在 
es/compatibility-1list.txt 文 件 。 





比 前 所 有 的 全 局 组 件 包 装 到 命名 


以 外 部 内 核 补 丁 的 形式 
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来 。struct nsproxy 用 于 














子 系统 此 前 的 全 局 属 怕 
感知 命名 空间 的 内 核子 系统 都 必须 提供 一 个 数据 结构 ， 将 所 有 
[ 集 指 向 特定 于 子 系统 的 命名 空间 包装 器 的 指针 : 


<nsproxy.h> 

struct nsproxy 
atomic 
struct 
struct 
struct 
struct 
struct 
struct 


下 





{ 


OU 


uts_namespace 
ipc_namespace 
mnt_namespace 
pid namespace 


FE 现 在 封装 到 命名 空间 中 ， 每 个 进程 关 有 





*uts_ns:; 
“ipc ns; 
*mt_ nss 
Ee Wy o Vs: 





De 


过 




















user namespace *user_ns; 


net *net_ns; 








当前 内 核 的 以 下 范围 
命名 空间 包含 了 运行 内 核 的 名 称 、 版 本 、 底 


口 UTS 


口 保存 在 s 














Timesharing System 的 














AAA 


站 林 。 


truct ipc namespaced 
口 已 经 装载 的 文件 系统 的 视 
口 有 关 进 程 ID 的 信息 ， 由 st 
口 struct user_namespace 保 存 的 月 
口 struct net_ns 包 含 所 有 

的 内 核 代码 能 够 完全 感知 命名 空间 





医 























当 我 讨论 相应 的 子 系统 时 ， 
户 命 名 空间 。 由 于 在 创建 新 进程 时 可 使 用 fork 建 立 一 个 新 
当 的 标志 。 每 个 命名 空间 都 有 一 个 对 应 的 标志 : 
<sched.h> 
#define CLONE_ NEWUTS 0x04000000 
#define CLONE_ NEWIPC 0x08000000 
#define CLONE_ NEWUSER 0x10000000 
#define CLONE_ NEWPID 0x20000000 
#define CLONE_ NEWNET 0x40000000 
每 个 进程 都 关联 到 自身 的 命名 空间 视图 : 
<sched.h> 


















































可 以 感知 到 命名 空间 。 


























struct task_ struct { 


/* 命名 空间 */ 


struct nsproxy *nsproxy; 


是 
因为 使 











用 J 








PP 的 所 有 与 进程 间 通 
， 在 struct mnt_namespace 中 给 出 。 
ruct piqd_namespace 提 供 。 


日 于 限制 每 个 





区 到 一 个 选 定 的 命名 空间 。 每 个 可 以 








过 命名 空间 形式 提供 的 对 象 集中 起 














层 体 





Ba 
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系 结构 类 型 等 信息 。UTS 是 UNIX 





(CIPC) 有 关 的 信息 。 


户 资 源 使 用 的 信息 。 

















网 络 相关 的 命名 空间 参数 。 读 者 在 第 12 章 中 会 看 到 ， 为 使 网 络 相关 
， 还 有 许多 工作 需要 完 
会 介绍 各 个 命名 空间 容器 的 内 容 。 在 本 章 中 ， 我 们 主要 讲解 UTS 和 用 
的 命名 空间 ， 因 





成 。 











此 必须 提供 控制 该 行为 的 适 















































/* 创建 新 苹 4 
/* 创建 新 所 [ 
/* 创建 新 芯 | 
/* 创建 新 的 命名 空 
/* 创建 新 的 网 络 命名 空间 */ 























指针 ， 多 个 进程 可 以 共和 村 











一 般 性 支持 


间 的 进程 都 是 可 见 的 。 
意 ， 对 命名 空间 的 支持 必须 在 纺 
到 内 核 中 。 


心 AEA 





总 是 会 编译 

















译 时 启 
这 使 





利 ， 而 且 必须 逐一 指定 吉 








组 子 命名 空间 。 这 样 ， 修 改 给 定 的 命名 空间 ， 对 所 有 属于 


要 文 持 的 命名 空间 。 但 对 命 





得 内 核 不 管 有 无 命名 空间 ， 都 不 必 使 用 不 同 的 代码 。 


除非 指定 不 同 的 选项 ， 否 则 每 个 进程 都 会 关联 到 一 个 默认 命名 空间 ， 这 样 可 感知 命名 空间 的 代码 总 是 


可 以 使 用 。 但 如 果 内 核 编译 时 没 



























































有 指定 对 ] 





体 命名 空间 的 支持 ， 默 认命 名 空间 的 作用 则 类 似 于 不 启用 
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命名 空间 ， 所 有 的 属性 都 相当 于 全 局 的 。 











到 下 列 结 构 的 一 个 实例 中 : 














init_nsproxy 定 义 了 初始 的 全 局 命名 空间 ， 其 中 维护 了 指向 各 子 系统 初始 的 命名 空间 对 象 的 指针 ; 








<kernel/nsproxy.c> 
struct nsproxy init nsproxy = INIT_NSPROXY (init nsproxy); 


<init_task.h> 
#define INIT NSPROXY (nsproxy) { \ 


:Did ns = &init pid ns, AN 
COUNt = ATOMIC_ INIT(1)},; \ 
.uts_ ns = &init uts ns, \ 
.mnt_ns = NULL, \ 
INIT_NET_NS (net_ns) \ 
INIT_IPC NS(ipc ns) \ 
.usSer_ ns = &init user ns, \ 








} 


® UISUUUD 
UTS 命 名 空间 几乎 不 需要 特别 的 处 理 ， 因 为 它 只 需要 简单 量 ， 








有 层次 组 织 。 所 有 相关 信息 都 汇 
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<utsname.h> 
struct uts_namespace { 
struct kref kref; 
struct new utsname name; 


} 
kref 是 一 个 授 入 的 引用 计数 器 ， 可 用 于 跟踪 内 核 中 有 多 少 地 方 使 用 了 struct uts_namespace 的 
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实例 (回想 第 1 章 ， 其 中 讲述 了 更 多 有 关 人 处理 引用 计数 的 一 般 框 架 信息 ) 。uts_namespace 所 提供 的 


属性 

















FE 信 息 本 身 包含 在 struct new_utsname 中 : 








<utsname.h> 

struct new utsname { 
char sysname[65]; 
char nodename[65]; 
char releasel[l65]; 
char version[65]; 
char machine[65]; 
char domainname[65]; 

}3 


各 个 字符 串 分 别 存储 了 系统 的 名 称 〈Linux...) 、 内 核发 布 版 本 、 机 器 名 ， 等 等 。 使 用 uname 工 














具 可 以 取得 这 些 属性 的 当前 值 ， 也 可 以 在 /proc/sys/kernel/ 中 看 到 : 








wolfgang@meitner> cat /proc/sys/kernel/ostype 
Linux 

wolfgang@meitner> cat /proc/sys/kernel/osrelease 
2.6.24 


初始 设置 保存 在 init_uts_ns 中 : 


init/version.c 
struct uts_namespace init uts ns = { 





.name = { 
.Sysname = UTS_SYSNAME, 
.nodename = UTS_NODENAME, 
.release UTS_RELEASE, 
.Version UTS_VERSION, 
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.machine = UTS_MACHINE， 
.domainname = UTS_DOMAINNAME, 
时 }; 
相关 的 预 处 理 器 常数 在 内 核 中 各 处 定义 。 例 如 ，UTS_RELEASE 在 <utsrelease.h> 中 定义 ， 该 文 
件 是 连 编 时 通过 顶层 Makefile 动 态 生 成 的 。 
请 注意 ，UTS 结 构 的 某 些 部 分 不 能 修改 。 例 如 ， 把 sysname 换 成 Linux 以 外 的 其 他 值 是 没有 意义 
的 ， 但 改变 机 器 名 是 可 以 的 。 
内 核 如 何 创 建 一 个 新 的 UTS 命 名 空间 呢 ?” 这 属于 copy_utsname 函 数 的 职责 。 在 某 个 进程 调用 
fork 并 通过 cLONE_NEWUTS 标 志 指 定 创 建新 的 UTS 命 名 空间 时 ， 则 调用 该 函数 。 在 这 种 情况 下 ， 会 生 
成 先前 的 uts_namespace 实 例 的 一 份 副本 ， 当 前 进程 的 nsproxy 实 例 内 部 的 指针 会 指向 新 的 副本 。 如 
此 而 已 ! 由 于 在 读 取 或 设置 UTS 属 性 值 时 ， 内 核 会 保证 总 是 操作 特定 于 当前 进程 的 uts_namespace 实 
例 ， 在 当前 进程 修改 UTS 属 性 不 会 反映 到 父 进 程 ， 而 父 进程 的 修改 也 不 会 传播 到 子 进 程 。 
e0U00000 
用 户 命名 空间 在 数据 结构 管理 方面 类 似 于 UTS: 在 要 求 创建 新 的 用 户 命名 空间 时 ， 则 生成 当前 用 
户 命名 空间 的 一 份 副本 ， 并 关联 到 当前 进程 的 nsproxy 实 例 。 但 用 户 命名 空间 自身 的 表示 要 稍微 复杂 


一 些 ， 
















































































































































































































































































<user_namespace.h> 

struct user_ namespace { 
struct kref kref; 
struct hlist head uidhash table[UIDHASH SZ2Z]; 
struct user_struct *root_ user; 


} 


如 前 所 述 ，kref 是 一 个 引用 计数 器 ， 用 于 跟踪 多 少 地 方 需要 使 用 user_namespace 实 例 。 对 命名 
室 间 中 的 每 个 用 户 ， 都 有 一 个 struct user_struct 的 实例 负责 记录 其 资源 消耗 ， 各 个 实例 可 通过 散 
列表 uidhash_table 访 问 。 
对 我 们 来 说 user_struct 的 精确 定义 是 无 关 紧 要 的 。 只 要 知道 该 结构 维护 了 一 些 统计 数据 (如 进 
程 和 打开 文件 的 数目 ) 就 足够 了 。 我 们 更 感 兴 趣 的 问题 是 : 每 个 用 户 命名 空间 对 其 用 户 资源 使 用 的 统 
计 ， 与 其 他 命名 空间 完全 无 关 ， 对 root 用 户 的 统计 也 是 如 此 。 这 是 因为 在 克隆 一 个 用 户 命名 空间 时 ， 
为 当前 用 户 和 root 都 创建 了 新 的 user_struct 实 例 : 


kernel/user_namespace.c 
static struct user namespace *clone user ns(struct user namespace *old ns) 


{ 






































































































































struct user namespace *ns; 
struct user_struct *new_ user; 


ns = kmalloc(sizeof (struct user namespace), GFP_ KERNEL); 
ns->root_user = alloc_ uid(ns, 0); 


/* 将 current->user 符 换 为 新 的 */ 
new_ user = alloc uid(ns, current->uid); 


switch uid(new user); 
return ns; 


} 
alloc_uid 是 一 个 辅助 函数 ， 对 当前 命名 空间 中 给 定 UID 的 一 个 用 户 ， 如 果 该 用 户 没 有 对 应 的 
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user_struct 实 例 ， 则 分 配 一 个 新 的 实例 。 在 为 root 和 当前 用 户 分 别 设置 了 user_struct 实 例 后 ， 
switch_uid 确 保 从 现在 开始 将 新 的 user_struct 实 例 用 于 资源 统计 。 实 质 上 就 是 将 struct 
task_struct 的 user 成 员 指向 新 的 user_struct 实 例 。 

请 注意 ， 如 果 内 核 编译 时 未 指定 支持 用 户 命 名 空间 ， 那 么 复制 用 户 命名 空间 实际 上 是 空 操作 ， 即 
总 是 会 使 用 默认 的 命名 空间 。 
2.3.3 ”进程 ID 号 


UNIX 进 程 总 是 会 分 配 一 个 号 码 用 于 在 其 命名 空间 中 唯一 地 标识 它们 。 该 号 码 被 称 作 进程 ID 号 ， 
简称 PID。 用 fork 或 clone 产 生 的 每 个 进程 都 由 内 核 自 动 地 分 配 了 一 个 新 的 唯一 的 PID 值 。 
1. 进程 ID 

但 每 个 进程 除了 PID 这 个 特征 值 之 外 ， 还 有 其 他 的 DD。 有 下 列 儿 种 可 能 的 类 型 。 

口 处 于 某 个 线程 组 (在 一 个 进程 中 ， 以 标志 cLONE_THREAD 来 调用 clone 建 立 的 该 进程 的 不 同 的 
执行 上 下 文 ， 我 们 在 后 文 会 看 到 ) 中 的 所 有 进程 都 有 统一 的 DD 0 D PTGID )。 如 果 进 程 没 有 
使 用 线程 ， 则 其 PID 和 TGID 相 同 。 

线程 组 中 的 主 进 程 被 称 作品 口 (group leader)。 通 过 clone 创 建 的 所 有 线程 的 task_struct 的 
group_leader 成 员 ， 会 指向 组 长 的 task_struct 实 例 。 

口 另外 ， 独 立 进程 可 以 合并 成 [0 0 DO (使 用 setpgrp 系 统 调用 ) 。 进 程 组 成 员 的 task_struct 的 

pgrp 属 性 值 都 是 相同 的 , 即 进程 组 组 长 的 PID 。 进程 组 简化 了 向 组 的 所 有 成 员 发 送信 号 的 操作 ， 
这 对 于 各 种 系统 程序 设计 应 用 (参见 系统 程序 设计 方面 的 文献 ， 例 如 LSR05]) 是 有 用 的 。 请 
注意 ， 用 管道 连接 的 进程 包含 在 同一 个 进程 组 中 。 

口 几 个 进程 组 可 以 合并 成 一 个 会 话 。 会 话 中 的 所 有 进程 都 有 同样 的 会 话 ID, 保存 在 task_struct 

的 session 成 员 中 。SID 可 以 使 用 setsid 系 统 调用 设置 。 它 可 以 用 于 终端 程序 设计 ， 但 和 我 们 

这 里 的 讨论 不 相干 。 

命名 空间 增加 了 PID 管 理 的 复杂 性 。 回 想 一 下 ，PID 命 名 空间 按 层次 组 织 。 在 建立 一 个 新 的 命名 

空间 时 , 该 命名 空间 中 的 所 有 PID 对 父 命名 空间 都 是 可 见 的 , 但 子 命名 空间 无 法 看 到 父 命 名 空间 的 PID。 

但 这 意味 着 某 些 进程 具有 多 个 PID， 几 可 以 看 到 该 进程 的 命名 空间 ， 都 会 为 其 分 配 一 个 PID。 这 必须 
反映 在 数据 结构 中 。 我 们 必须 区 分 局 部 ID 和 全 局 ID。 

DODD 了 D 是 在 内 核 本 身 和 初始 命名 空间 中 的 唯一 人 DD 号 ， 在 系统 启动 期 间 开 始 的 init 进 程 即 属于 
初始 命名 空间 。 对 每 个 ID 类 型 ， 都 有 一 个 给 定 的 全 局 ID ， 保 证 在 整个 系统 中 是 唯一 的 。 

口 0 0 DD 属于 某 个 特定 的 命名 空间 ， 不 具备 全 局 有 效 性 。 对 每 个 ID 类 型 ， 它 们 在 所 属 的 命名 空 
闻 内 部 有 效 ， 但 类 型 相同 、 值 也 相同 的 了 p 可 能 出 现在 不 同 的 命名 空间 中 。 
全 局 PID 和 TGID 直 接 保存 在 task_struct 中 ， 分 别 是 task_struct 的 pida 和 tgid 成 员 ， 


<sched.h> 
struct task_struct { 































































































































































































































































































































































































































































































































































































































































































Bid tt pid 
Bid.t: tgid; 











这 两 项 都 是 pig_t 类 型 ,该 类 型 定义 为 ”kernel_piqd_t, 后 者 由 各 个 体系 结构 分 别 定 义 。 通常 定 
义 为 int， 即 可 以 同时 使 用 2* 个 不 同 的 ID。 
会 话 和 进程 组 DD 不 是 直接 包含 在 task_struct 本 身 中 ， 但 保存 在 用 于 信号 处 理 的 结构 中 。task_ 
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truct->signal-> session 表示 全 局 SID , 而 全 局 PGID 则 保存 在 task_struct->signal-> pgrp。 
辅助 函数 set_task_session 和 set_task_pgrp 可 用 于 修改 这 些 值 。 
2. 管理 PID 
除了 这 两 个 字段 之 外 ,内核 还 需要 找 一 个 办 法 来 管理 所 有 命名 空间 内 部 的 局 部 量 , 以 及 其 他 ID( 如 
TID 和 SID) 。 这 需要 几 个 相互 连接 的 数据 结构 ， 以 及 许多 辅助 函数 ， 并 将 在 下 文 讨论 。 
e0000 
下 文 我 将 使 用 ID 指 代 提 到 的 D 口 进程 ID 。 在 必要 的 情况 下 , 我 会 明确 地 说 明 ID 类 型 "例如 , TGID， 
即 线程 组 ID )。 
一 个 小 型 的 子 系统 称 之 为 PIDU 口 口 (pid allocator) 用 于 加 速 新 也 的 分 配 。 此 外 ， 内 核 需 要 提供 
十 助 函 数 ， 以 实现 通过 ID 及 其 类 型 查找 进程 的 task_struct 的 功能 ， 以 及 将 ID 的 内 核 表示 形式 和 用 户 
空间 可 见 的 数值 进行 转换 的 功能 。 
在 介绍 表示 用 本身 所 需 的 数据 结构 之 前 ， 我 需要 讨论 PID 命 名 空间 的 
代码 如 下 所 示 : 
<pid_namespace.h> 
struct pid namespace { 








让 Un 
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示 方 式 。 我 们 所 需 查看 的 





struct task_struct *child reaper; 


int level; 
struct pid namespace *parent; 
于 
实际 上 PID 分 配器 也 需要 依靠 该 结构 的 某 些 部 分 来 连续 生成 唯一 ID， 但 我 们 目前 对 此 无 需 关 注 。 
我 们 上 述 代码 中 给 出 的 下 列 成 员 更 感 兴趣 。 
口 每 个 PID 命 名 空间 都 具有 一 个 进程 ,其 发 挥 的 作用 相当 于 全 局 的 init 进 程 。init 的 一 个 目的 是 
对 抓 儿 进程 调用 wait4， 命 名 空间 局 部 的 init 变 体 也 必须 完成 该 工作 。childq_reaper 保 存 了 
指向 该 进程 的 task_struct 的 指针 。 
口 parent 是 指 癌 父 命 名 空间 的 指针 ，level 表 示 当 前 命名 空间 在 命名 空间 层次 结构 中 的 深度 。 初 
始 命名 空间 的 level 为 0， 该 命名 空间 的 子 空间 level 为 1， 下 一 层 的 子 空 间 level] 为 2， 依 次 递 推 。 
level 的 计算 比较 重要 , 因为 level 较 高 的 命名 空间 中 的 ID , 对 level 较 低 的 命名 空间 来 说 是 可 见 的 。 
从 给 定 的 level 设 置 ， 内 核 即 可 推断 进程 会 关联 到 多 少 个 ID。 
回想 图 2-3 的 内 容 ， 命 名 空间 是 按 层次 关联 的 。 这 有 助 于 理解 上 述 的 定义 。 
PID 的 管理 围绕 两 个 数据 结构 展开 : struct pid 是 内 核对 PID 的 内 部 表示 ， 而 struct upid 则 表 
示 特 定 的 命名 空间 中 可 见 的 信息 。 两 个 结构 的 定义 如 下 : 
<pid.h> 
etryuct upid { 
int es 
struct pid namespace *ns; 
struct hlist _ node pid chain; 
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struct pid 
{ 
atomic_t count; 
/* 使 用 该 pid 的 进程 的 列表 */ 
struct hlist head tasks [PIDTYPE MAX]; 
int level; 
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struct upid numbers[1]; 
二 


| 




















于 这 两 个 结构 与 其 他 一 些 数据 结构 存在 广泛 的 联系 ， 在 分 别 讨论 相关 结构 之 前 ， 图 2-5 对 此 进 
行 了 概述 。 
对 于 struct upid，nr 表 示 ID 的 数值 ，ns 是 指向 该 ID 所 属 的 命名 空间 的 指针 。 所 有 的 upia 实 例 
都 保存 在 一 个 散 列 表 中 , 稍 后 我 们 会 看 到 该 结构 。pia_chain 用 内 核 的 标准 方法 实现 了 散 列 溢出 链表 。 
struct biq 的 定义 首先 是 一 个 引用 计数 器 count。tasks 是 一 个 数组 ， 每 个 数组 项 都 是 一 个 散 列 
表 头 ， 对 应 于 一 个 ID 类 型 。 这 样 做 是 必要 的 ， 因 为 一 个 ID 可 能 用 于 几 个 进程 。 所 有 共享 同一 给 定 ID 的 
task_struct 实 例 ， 都 通过 该 列表 连接 起 来 。PIDTYPE_MAX 表 示 ID 类 型 的 数目 : 





























































































































<pid.h> 

enum pid_type 

{ 
PILDTYPE. .PIN 
PIDTYPE_PGID, 
PIDTYPE_SID, 
PIDTYPE MAX 

}3 


struct task_struct 





jms [1] 


ids [2 
struct pid pids [a 


(1) PID_TYPE_PID 
© PID_TYPE_PGID 


(@) PID_TYPE_SID tasks 4 OD | ' ， 



















克 numbers[level] 
SA struct upid 



























































level 0 a ee 
level 1 ! pid hash struct upid 、、、 
DeD \ 
1 上 和 
\ 下 1 
入 1 上 
level2 \、 \ i ”| 2 
i struct pid namespace . / 

PID 命 名 空间 对 PID 和 命名 空间 进行 散 列 











图 2-5 ”实现 可 感知 命名 空间 的 ID 表示 所 用 的 数据 结构 
请 注意 ， 枚 举 类 型 中 定义 的 ID 类 型 0 0 0 线程 组 ID ! 这 是 因为 线程 组 ID 无 非 是 线程 组 组 长 的 PID 
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而 已 ， 


大 





此 再 和 























独 定 义 一 项 是 不 必要 的 。 








一 个 进程 可 能 在 多 个 命名 空间 
以 看 到 该 进程 的 命名 空间 的 数 








数组 项 ， 如 果 












































只 要 分 配 更 多 的 内 存 空间 ， 即 
于 所 有 共享 同 




















task_struct 中 增加 一 个 散 列 表 元 素 : 


<sched.h> 


struct task_struct { 


/* PID 与 PID 散 列表 的 联系 。 
struct pid link pids{[PIDTYPE MAX]; 























<pid.h> 


struct piqd link 


{ 


struct hlist_ node node; 
struct pid *pid; 


二 





可 向 数组 添加 附 





FP 可 见 ， 而 其 在 各 个 命名 空间 
目 (换言之 , 即 











ID 的 task_struct 实 


泥 六 


包含 该 进程 的 命名 空间 7 


























的 局 部 ID 各 不 相同 。level 表 示 可 
命名 空间 层次 结构 中 的 深度 )， 
而 numbers 是 一 个 upid 实 例 的 数组 ， 每 个 数组 项 都 对 应 于 一 个 命名 空间 。 注 意 该 数组 形式 上 只 有 一 个 
个 进程 只 包含 在 全 局 命名 空 





























间 中 ， 那 么 确实 如 此 。 由 于 该 数组 位 于 
加 的 项 。 
网 都 按 进 程 存 储 在 一 个 散 列 表 中 ， 因 























pig 指 向 进程 所 属 的 pid 结 构 实例 ，nogde 用 作 散 列表 元 素 。 


为 在 给 定 的 命名 空间 中 查找 对 应 于 指定 PID 数 值 





kernel/pid.c 




















static struct hlist_ head *pid_ hash; 


hlist_head 是 一 个 内 核 的 标 ; 


并 介绍 了 用 于 处 














Pid_hash 





和 252-4096 之 间 。pidhash_init 用 于 
假如 已 经 分 配 了 struct pid 的 一 个 新 实例 ， 





task_struct: 


kernel/pid.c 


int fastcall attach pid(struct task_ struct *task, 


{ 















































里 该 数据 结构 的 几 个 畏 





全 数据 结构 ， 用 了 








助 














函数 ) 。 
作 一 个 hlist_head 数 组 。 数 组 的 元 素数 目 取决 于 计算 机 的 内 存 配置 ， 大 约 在 2 一 16 








的 pid 绪 构 实例 ， 使 用 了 一 个 散 列表 : 


结构 的 末尾 ， 因 





此 








比 需要 在 struct 


甫 助 数 据 结 构 piq_link 可 以 将 task_struct 连 接 到 表 头 在 struct pid 中 的 散 列 表 上 : 


























struct Bid *pid) 


struct Bid_ link *]ink; 


link = &task->pids[typel; 


link->pid = pid; 


hlist_adqd_ head rcul(l&link->node, 


return 0; 


} 














计算 恰当 的 容 























设置 

















并 分 配 所 需 的 内 存 。 











用 于 给 定 的 ID 类 型 。 


&pid->tasks[typel]); 


它 





建立 双 链 散 列 表 〈 附 录 C 描 述 了 该 散 列 表 的 结构 ， 


会 如 下 附加 到 


enum Pid_type type, 


这 里 建立 了 双 问 连接 : task_struct 可 以 通过 task_struct->pids[type]->pigd 访 问 pid 实 例 。 
而 从 pid 实 例 开始 ， 可 以 遍历 tasks [type] 散 列表 找到 task_struct。hlist_add_ headq_rcu 是 过 历 散 














列表 的 标准 











EE 函数 ， 此 外 还 确保 了 遵守 RCU 机 





前 《参见 第 $ 章 )。 








因为 ， 在 其 他 内 核 组 件 








并 发 地 操作 散 列 
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表 时 ， 可 防止 竞 态 条 件 (race condition ) 出 现 。 

e@ 00 

内 核 提 供 了 若干 辅助 函数 ， 用 于 操作 和 扫描 上 面 描述 的 数据 结构 。 本 质 上 内 核 必须 完成 下 面 两 个 
不 同 的 任务 。 











(1) 给 出 局 部 数字 ID 和 对 应 的 命名 空间 ， 碍 找 此 二 元 组 描述 的 task_struct。 

(2) 给 出 task_struct、JID 类 型 、 命 名 空间 ， 取 得 命名 空间 局 部 的 数字 ID。 

我 们 首先 专注 于 如 何 将 task_struct 实 例 变 为 数字 ID 。 这 个 过 程 包含 下 面 两 个 步骤 。 

(1) 获得 与 task_struct 关 联 的 pid 实 例 。 辅 助 函 数 task_pid、task_tgid、task_pgrp 和 
task_session 分 别 用 于 取得 不 同类 型 的 ID。 获 取 PID 的 实现 很 简单 : 

<sched.h> 

static inline struct pid *task pid(struct task_ struct *task) 


€ 
















































































return task->pids [PIDTYPE_ PID] .pid; 
} 


获取 TGID 的 做 法 类 似 ， 因 为 TGID 不 过 是 线程 组 组 长 的 PID 而 已 。 只 要 将 上 述 实 现 蔡 换 为 Lask-> 
group_leader->pids[PIDTYPE_PID] .pidq 即 可 。 
找 出 进程 组 ID 则 需要 使 用 PIDTYPE_PGID 作 为 数组 索引 ， 但 该 DD 仍然 需要 从 线程 组 组 长 的 task_ 
struct 实 例 获取 : 







































































<sched.h> 
static inline struct pid *task pgrp(struct task_ struct *task) 
{ 
return task->group_leader->pids [PIDTYPE_ PGID] .pid; 
} 
(2) 在 获得 pid 实 例 之 后 ， 从 struct pid 的 numbers 数 组 中 的 uiq 信 息 ， 即 可 获得 数字 ID: 
kernel/pid.c 
pid t pid nr ns(struct pid *pid, struct pid namespace *ns) 
{ 
struct upid *upid; 
Bid tm = 0 
if (pid && ns->level <= pid->level) { 
upid = &pid->numbers [ns->levell]; 
if (upid->ns == ns) 
nr = upid->nr; 
} 
return nr; 
} 








因为 父 命 名 空间 可 以 看 到 子 命名 空间 中 的 PID, 反 过 来 却 不 行 , 内 核 必须 确保 当前 命名 空间 的 level 
小 于 或 等 于 产生 局 部 PID 的 命名 空间 的 level。 
同样 重要 的 是 要 注意 到 ， 内 核 上 只 需要 关注 产生 全 局 PID 。 因 为 全 局 命名 空间 中 所 有 其 他 ID 类 型 都 
会 映射 到 PID， 因 此 不 必 生 成 诸如 全 局 TGID 或 SID。 

除了 在 第 2 步 使 用 的 pia_nr_ns 之 外 ， 内 核 还 可 以 使 用 下 列 辅助 函数 : 

口 pig_vnr 返 回 该 ID 所 属 的 命名 空间 所 看 到 的 局 部 PID; 

口 pig_nr 则 获取 从 init 进 程 看 到 的 全 局 PID。 

这 两 个 函数 都 依赖 于 pig_nr_ns， 并 自动 选择 适当 的 level: 0 用 于 获取 全 局 PID， 而 pidq->level 
则 用 于 获取 局 部 PID。 
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内 核 提 供 了 几 个 辅助 函数 ， 合 并 了 前 述 步骤 : 


kernel/pid.c 

piqd t task piqd nr ns(struct task_ struct *tsk, struct pid namespace *ns) 
piqd t task tgid nr ns(struct task _ struct *tsk, struct pid namespace *ns) 
pid t task pgrp nr ns(struct task struct *tsk, struct pid namespace *ns) 
piqd t task_ session nr ns(struct task struct *tsk, struct pid namespace *ns) 


从 函数 名 可 以 明显 推断 其 语义 ， 因 此 我 们 不 再 闭 述 。 
现在 我 们 把 注意 力 转 向 内 核 如 何 将 数字 PID 和 命名 空间 转换 为 pia 实 例 。 同 样 需要 下 面 两 个 步骤 。 
(1) 给 出 进程 的 局 部 数字 PID 和 关联 的 命名 空间 (这 是 PID 的 用 户 空 间 表示 〉， 为 确定 pid 实 例 ( 这 




























































































是 PID 的 内 核 表 示 )， 内 核 必须 采用 标准 的 散 列 方案 。 首 先 ， 根 据 PID 和 命名 空间 指针 计算 在 pia_hash 
数组 中 的 索引 ,，“ 然 后 遍历 散 列表 直至 找到 所 要 的 元 素 。 这 是 通过 辅助 函数 find_pid_ns 处 理 的 : 


container_of 机 制 (参见 附录 C) 推断 出 所 要 的 信息 。 


发 送 一 个 信号 ) 都 通过 PID 标 识 目标 进程 。 

















的 值 
























































kernel/pid.c 
struct pid * fastcall findq pid ns(int nr, struct pid namespace *ns) 


struct upid 的 实例 保存 在 散 列 表 中 ， 由 于 这 些 实例 直接 包含 在 struct pid 中 ， 内 核 可 以 使 用 



























































(2) piqg_task 取 出 pid->tasks[type] 散 列表 中 的 第 一 个 task_struct 实 例 。 
这 两 个 步骤 可 以 通过 辅助 函数 find_task_by_ pid_type_ns 完 成 : 


kernel/pid.c 
struct task_ struct *find task by pid type ns(int type, int nr, 
struct pid namespace *ns) 









































: return pid task(find pid ns(nr, ns), type); 
} 

些 简单 一 点 的 辅助 函数 基于 最 一 般 性 的 fing_task_by_pid_type_ns: 
口 fingd_ task by pid ns(piqd t nr，struct pid namespace * ns) 根 据 给 出 的 数字 PID 和 进 
程 的 命名 空间 来 查找 task_struct 实 例 。 
口 find_task_pby_vpid (pid_t vnr) 通 过 局 部 数字 PID 查 找 进 程 。 
口 finq_task_by_ pid(pid_t nr) 通 过 全 局 数字 PID 查 找 进 程 。 
内 核 源 代码 中 许多 地 方 都 需要 fing_task_by_pig, 因为 很 多 特定 于 进程 的 操作 (例如 , 使 用 ki11 






























































































































































3. 生成 唯一 的 PID 
除了 管理 PID 之 外 ， 内 核 还 负责 提供 机 制 来 生成 唯一 的 PID 〈 尚 未 分 配 )。 在 这 种 情况 下 ， 可 以 忽 


















































I 





略 各 种 不 同类 型 的 PID 之 间 的 差别 ， 因 为 按 一 般 的 UNIX 观 念 ， 只 需要 为 PID 生 成 唯一 的 数值 即 可 。 所 
有 其 他 的 ID 都 可 以 派生 自 PID， 在 下 文 讨论 fork 和 clone 时 会 看 到 这 一 点 。 在 随后 的 几 节 中 ， 名 词 PID 
还 是 指 一 般 的 UNIX 进 程 ID (PIDTYPE_PID)。 
























































为 跟踪 已 经 分 配 和 仍然 可 用 的 PID， 内 核 使 用 一 个 大 的 位 图 ， 其 中 每 个 PID 由 一 个 比特 标识 。PID 


























可 通过 对 应 比特 在 位 图 中 的 位 置 计算 而 来 。 






































因此 ， 分 配 一 个 空闲 的 PID， 本 质 上 就 等 同 于 寻找 位 图 中 第 一 个 值 为 0 的 比特 ， 接 下 来 将 该 比特 




















设置 为 1。 反 之 ， 释 放 一 个 PID 可 通过 将 对 应 的 比特 从 1 切换 为 0 来 实现 。 这 些 操作 使 用 下 述 两 个 函数 




















ra 


实现 : 






































GD 为 达到 该 目的 ， 内 核 使 用 了 乘法 散 列 法 ， 用 的 是 与 机 器 字 所 能 表示 的 最 大 数字 成 黄金 分 割 比 率 的 一 个 素数 。 有 具体 




















细节 可 参见 [Knu97]。 
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kernel/pid.c 
static int alloc pidmap(struct pid namespace *pidq_ns) 


用 于 分 配 一 个 PID， 而 
kernel/pid.c 
static fastcall void free pidmap(struct pid namespace *pid ns, int pid) 
用 于 释放 一 个 PID。 我 们 这 里 不 关注 具体 的 实现 方式 ， 但 它们 必须 能 够 在 命名 空间 下 工作 。 
在 建立 一 个 新 进程 时 ， 进 程 可 能 在 多 个 命名 空间 中 是 可 见 的 。 对 每 个 这 样 的 命名 空间 ， 都 需要 生 
成 一 个 局 部 PID。 这 是 在 alloc_pid 中 处 理 的 : 
kernel/pid.c 
struct pid *alloc pid(struct pid namespace *ns) 


{ 


























































































































Struct Pid id; 

enum pid type type; 

下 沽 下 

struct pid namespace *tmp; 
struct upid *upid:; 


tmp = ns; 
for (i = ns->level; i >= 0; i--) f{ 


nr = alloc pidmap (tmp); 


pid->numbers[il] .nr 
pid->numbers[i].ns 
tmp = tmp->parent; 


nr; 
tmp; 


} 


pid->level = ns->level; 











起 始 于 建立 进程 的 命名 空间 , 一 直到 初始 的 全 局 命名 空间 ， 内 核 会 为 此 间 的 每 个 命名 空间 分 别 创 
建 一 个 局 部 PID。 包 含 在 struct pid 中 的 所 有 upiq 都 用 重新 生成 的 PID 更 新 其 数据 。 每 个 upiqa 实 例 都 
必须 置 于 PID 散 列表 中 : 












































kernel/pid.c 
for (i = ns->level; i >= 0; i--) { 
upid = &pid->numbers[il]; 
hlist_ add head rcu(&upid->pid chain, 
&pid hash[lpid hashfn(upid->nr, upid->ns)]); 
} 


return pid; 


} 
2.3.4 进程 关系 
除了 源 于 ID 连接 的 关系 之 外 ， 内 核 还 负责 管理 建立 在 UNIX 进 程 创 建 模型 之 上 “家 族 关系 ”。 相 
关 讨 论 一 般 使 用 下 列 术 语 。 
口 如 果 进 程 A 分 支 形 成 进程 B， 进 程 A 称 之 为 0 口 而 进程 B 则 是 0DDD 。? 
如 果 进 程 B 青 次 分 支 建立 另 一 个 进程 Cc， 进程 A 和 进程 C 之 间 有 时 称 之 为 0 口 关系 。 
口 如 果 进 程 A 分 支 车 干 次 形成 几 个 子 进程 B,，B，,，…，B,， 各 个 B; 进 程 之 间 的 关系 称 之 为 0 0 
关系 。 











Ey 



























































































































































不 同 于 自然 的 家 庭 ， 进 程 只 有 一 个 父母 系 。 
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图 2-6 说 明了 可 能 的 进程 家 族 关系 。 




















i | children Oa : 






| | sibling | 








图 2-6 ”进程 之 间 的 家 族 关 系 























task_struct 数 据 结 构 提 供 了 两 个 链表 表 头 ， 用 于 实现 这 些 关 系 : 


<sched.h> 
struct task_struct { 


struct list head children; 
struct list head sibling; 


本 
口 children 是 链表 表 头 ， 该 链表 中 保存 有 
口 sibling 用 于 将 兄弟 进程 彼此 连接 起 来 。 
新 的 子 进程 置 于 sibling 链 表 的 起 始 位 置 ， 















































/* 子 进程 链表 */ 




















/* 连接 到 父 进程 的 子 ; 


进程 的 所 有 子 进程 。 















































程 链表 */ 


这 意味 着 可 以 重建 进程 分 支 的 时 间 顺序 。” 

















2.4 进程 管理 相关 的 系统 调用 








在 本 节 中 ， 我 将 讨论 fork 和 exec 系 列 系 统 调用 的 实现 。 

















的 ， 而 是 通过 一 个 中 间 层 调用 ， 即 负责 
从 用 户 状态 切换 到 核心 态 的 方法 ， 依 不 同 的 体系 结构 而 各 有 不 同 。 在 附录 A 中 ， 我 详细 讲述 了 月 



































于 在 这 两 种 状态 之 间 切 换 的 机 制 ， 并 解释 了 用 户 空 


























FF 间 和 内 核 空 间 之 间 如 何 交 换 参 数 。 





这 些 调 用 不 是 














应 用 程序 直接 发 出 








内 核 视 为 由 C 标 准 库 使 用 的 “程序 库 ” 即 可 ， 我 在 第 1 章 简要 地 提 到 过 这 一 点 。 








2.4.1 进程 复制 








传统 的 UNIX 中 用 于 复制 进程 的 系统 调用 是 fork。 但 它 并 不 是 Linux 为 此 实现 的 唯 





Linux 实 现 了 3 个 。 
(1) fork 是 重量 级 调用 ， 因 为 它 建立 了 父 进 
































该 调用 相关 的 工作 量 ，Linux 使 用 了 0 DDD (copy-on-write) 








GD 2.6.21 之 前 的 内 核 版 本 有 3 个 辅助 函数 : younger_sibling、older_sibling 和 elgdest_chi] 


但 不 是 很 有 用 ， 因 此 在 后 续 版 本 中 被 
,并 作 了 相应 的 注 记 。 这 导致 另 一 个 著名 


















































取消 了 这 个 补丁 。 


其 元 素 时 能 够 有 所 帮助 。 它 们 用 于 生成 调试 输出 ， 
Molnar 注 意 到 对 应 的 代码 是 内 核 最 古老 的 成 分 之 一 



















































































HH 











就 目前 而 言 ， 将 




















讨论 


Co 





调用 ， 实 际 上 


程 的 一 个 完整 副本 ， 然 后 作为 子 进程 执行 。 为 减少 与 
技术 ， 下 文中 会 


qd， 在 访问 上 述 链表 及 















































的 








除了。 补丁 作者 Ingo 


发 者 Linus Torvalds 
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(2) vfork 类 似 于 fork， 但 并 不 创建 父 进 程 数 据 的 副本 。 相 反 ， 父 子 进程 之 间 共 享 数据 。 这 节省 
了 大 量 CPU 时 间 (如 果 一 个 进程 操纵 共享 数据 ， 则 另 一 个 会 自动 注意 到 )。 

vfork 设 计 用 于 子 进程 形成 后 立即 执行 execve 系 统 调 用 加 载 新 程序 的 情形 。 在 子 进程 退出 或 开始 
新 程序 之 前 ， 内 核 保证 父 进 程 处 于 堵塞 状态 。 
引用 手册 页 vfork (2) 的 文字 ，“ 非 常 不 地，Linux 从 过 去 复活 了 这 个 幽灵 ”。 由 于 fork 使 用 了 写 
时 复制 技术 ，vfozk 速 度 方面 不 再 有 优势 ， 因 此 应 该 避免 使 用 它 。 

(3) clone 产 生 线程 ， 可 以 对 父子 进程 之 间 的 共享 、 复 制 进 行 精确 控制 。 

1. 写 时 复制 
内 核 使 用 了 口 口 口 口 “(Copy-On-Write，COW) 技术 ， 以 防止 在 fork 执 行 时 将 父 进程 的 所 有 数据 
复制 到 子 进程 。 该 技术 利用 了 下 述 事实 : 进程 通常 只 使 用 了 其 内 存 页 的 一 小 部 分 。" 在 调用 fork 时 ， 
内 核 通 常 对 父 进程 的 每 个 内 存 页 ， 都 为 子 进 程 创 个 相同 的 副本 。 这 有 两 种 很 不 好 的 负面 效应 。 

(1) 使 用 了 大 量 内 存 。 

(2) 复制 操作 耗费 很 长 时 间 。 

如 果 应 用 程序 在 进程 复制 之 后 使 用 sxec 立 即 加 载 新 程序 , 那么 负面 效应 会 更 严重 。 这 实际 上 意味 
着 ， 此 前 进行 的 复制 操作 是 完全 多 余 的 ， 因 为 进程 地 址 空间 会 重新 初始 化 ， 复 制 的 数据 不 再 需要 了 。 

内 核 可 以 使 用 技巧 规避 该 问题 。 并 不 复制 进程 的 整个 地 址 空间 ， 而 是 只 复制 其 页 表 。 这 样 就 建立 
了 虚拟 地 址 空间 和 物理 内 存 页 之 间 的 联系 ， 我 在 第 1 章 简 要 地 讲 过 ， 具 体 过 程 请 参见 第 3 章 和 第 4 章 。 
因此 ，fork 之 后 父子 进程 的 地 址 空间 指向 同样 的 物理 内 存 页 。 
当然 ， 父 子 进程 不 能 允许 修改 彼此 的 页 ，“ 这 也 是 00 0 进程 的 页 表 对 页 标记 了 只 读 访 问 的 原因 ， 
即使 在 普通 环境 下 允许 写 入 也 是 如 此 。 
假如 两 个 进程 只 能 读 取 其 内 存 页 ， 那 么 二 者 之 间 的 数据 共享 就 不 是 问题 ， 因 为 不 会 有 修改 。 
只 要 一 个 进程 试图 回复 制 的 内 存 页 写 入 ， 处 理 器 会 各 内 核 报 告 访问 错误 (此 类 错误 被 称 作 0 0 口 
管理 数据 结构 (参见 第 4 章 )， 检 查 该 页 是 否 可 以 用 读 写 模式 访问 ， 还 
是 只 能 以 只 读 模式 访问 。 如 果 是 后 者 ， 则 必须 问 进程 报告 DD 口 口 。 读 者 会 在 第 4 章 看 到 ， 缺 页 异常 处 
里 程序 的 实际 实现 要 复杂 得 多 ， 因 为 还 必须 考虑 其 他 方面 的 问题 ， 例 如 换 出 的 页 。 

如 果 页 表 项 将 一 页 标记 为 “只 读 ”， 但 通常 情况 下 该 页 应 该 是 可 写 的 ， 内 核 可 根据 此 条 件 来 判断 
该 页 实际 上 是 COW 页 。 因 此 内 核 会 创建 该 页 专用 于 当前 进程 的 副本 ， 当 然 也 可 以 用 于 写 操作 。 直 至 第 
4 章 我 们 才 会 讨论 复制 操作 的 实现 方式 ， 因 为 这 需要 内 存 管理 方面 广泛 的 背景 知识 。 

COW 机 制 使 得 内 核 可 以 尽 可 能 延迟 内 存 页 的 复制 ， 更 重要 的 是 ， 在 很 多 情况 下 不 需要 复制 。 这 
节省 了 大 量 时间 。 

2. 执行 系统 调用 

fork、vfork 和 clone 系 统 调 用 的 入 口 点 分 别 是 sys_fork、sys_vfork 和 sys_clone 国 数 。 其 定 
义 依赖 于 具体 的 体系 结构 ， 因 为 在 用 户 空间 和 内 核 空 间 之 间 传 递 参数 的 方法 因 体系 结构 而 异 〈 更 多 细 
节 请 参见 第 13 章 ) 。 上 述 函 数 的 任务 是 从 处 理 器 寄存 器 中 提取 由 用 户 空间 提供 的 信息 ， 调 用 体系 结构 
无 关 的 do_fork 函 数 ， 后 者 负责 进程 复制 。 该 函数 的 原型 如 下 : 


kernel/fork.c 
long do_fork(unsigned long clone_ flags, 
unsigned long stack_ start, 
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G@) 进程 访问 最 频繁 的 页 的 集合 被 称 为 工作 区 (working set)。 
@) 两 个 进程 显示 共享 的 页 除外 。 
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struct pt_regs *regs, 

unsigned long stack_ size, 
int _ user *parent tidptr, 
int _ user *child tidptr) 


该 函数 需要 下 列 参数 。 

















口 clone_flags 是 








个 标志 集合 , 用 来 指定 控制 复制 过 程 的 一 些 属性 。 最低 字 节 指定 了 在 子 进程 



















































































终止 时 被 发 给 父 进程 的 信号 号 码 。 其 余 的 高 位 字 节 保存 了 各 种 常数 ， 下 文 会 分 别 讨论 。 


















































口 stack_start 是 用 户 状 态 下 栈 的 起 始 地 址 。 

口 regs 是 一 个 指向 寄存 器 集合 的 指针 ， 其 中 以 原始 形式 保存 了 调用 参数 。 该 参数 使 用 的 数据 类 
型 是 特定 于 体系 结构 的 struct pt_regs， 其 中 按照 系统 调用 执行 时 寄存 器 在 内 核 栈 上 的 存储 
顺序 ， 保 存 了 所 有 的 寄存 器 〈 更 详细 的 信息 ， 请 参考 附录 A) 。 

口 stack_size 是 用 户 状态 下 栈 的 大 小 。 该 参数 通常 是 不 必要 的 ， 设 置 为 0。 

口 parent_tidptr 和 chilg_tidptr 是 指向 用 户 空 间 中 地 址 的 两 个 指针 ， 分 别 指向 父子 进程 的 











其 语义 。 
不 同 的 fork 变 体 ， 主 要 是 通过 标志 集合 
式 与 IA-32 处 理 器 相同 。 


arch/x86/kernel/process_32.c 
asmlinkage int sys_fork(struct pt_regds regs) 


{ 














区 分 。 在 大 多 数 























return do_fork(SIGCHLD, regs.esp, &regs, 


} 

















任 一 使 用 的 标志 是 sSIGCHLD。 这 意味 着 在 子 进 程 终 






































子 进程 的 栈 地 址 相同 (起 始 地 址 保存 在 IA-32 系 统 的 esp 寄 存 器 中 )。 

















则 COW 机 制 会 为 每 个 进程 分 别 创建 一 个 栈 副本 。 





























PID。NPTL (Native Posix Threads Library) 库 的 线程 实现 需要 这 


本 系 结 


上 后 发 送 sIGcHLD 信 号 通知 父 进程 。 








个 参数 。 我 将 在 下 文 讨论 





构 上 ,“ 典 型 的 fork 调 用 的 实现 方 


0, NULL, NULL); 


最 初 ， 父 
但 如 果 操 作 栈 地 址 并 写 入 数据 ， 


















































I 果 do_fork 成 功 ， 则 新 建 进程 的 PID 作 为 系统 调 























VvM， 其 语义 下 文 讨论 ) 。 
sys_clone 的 实现 方式 与 上 述 调 


arch/x86/kernel/process_32.c 
asmlinkage int sys_clone(struct pt_regs regs) 


{ 











有 相似 ， 











unsigned long clone_ flags; 
unsigned long newsp; 
int _ user *parent tidptr, *child tidptr; 
clone_flags = regs.ebx; 
newsp = regs.ecx; 
parent tidptr = (int _ user *)regs.edx; 
child tidptr = (int _ user *)regs.edi; 
if (!newsp) 

newsp = regs.esp; 
return do_fork(clone_ flags, 


newsp, &regs, 

















GD 例外 : Sparc(64) 系 统 通过 sparc_dqo_fork 访 问 ao_fork;，IA-64 只 提供 了 一 个 系统 调用 
。sgsys_clone2 和 sparc_do_fork 最 终 都 依赖 于 dao_fork。 

















间 实 现 fork、vfork 和 clone 系 统 调 





1 的 结果 人 返回， 否则 返回 错误 码 ( 负 值 
sys_vfork 的 实现 与 sys_fork 只 是 略微 不 同 ， 前 者 使 用 了 额外 的 标志 (CLONE_VFORK 和 CLONE_ 





bE 
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差别 在 于 do_fork 如 下 调用 : 


0, parent tidptr, child tidptr); 














sys_clone2， 几 了] 
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标志 不 再 是 便 编 码 的 ， 而 是 可 以 通过 各 个 寄存 器 参数 传递 到 系统 调用 。 因 而 该 函数 的 第 一 部 分 负 
责 提 取 这 些 参数 。 另 外 ， 也 不 再 复制 父 进程 的 栈 ， 而 是 可 以 指定 新 的 栈 地址 (newsp) 。 在 生成 线程 
时 ， 可 能 需要 这 样 做 ， 线 程 可 能 与 父 进程 共享 地 址 空间 ， 但 线程 自身 的 栈 可 能 在 另 一 个 地 址 空间 。 另 
外 还 指定 了 用 户 空间 中 的 两 个 指针 (parent_tiqdptr 和 chilg tidqptr) ， 用 于 与 线程 库 通信 。 其 语 
义 在 2.4.1 节 讨论 。 

3. do_fork 的 实现 

所 有 3 个 fork 机 制 最 终 都 调用 了 kernel/fork.c 中 的 do_fork〔 一 个 体系 结构 无 关 的 函数 ) ， 其 
代码 流程 如 图 2-7 所 示 。 


确定 PID 


初始 化 vfork 的 完成 处 理 程序 (在 设置 了 cLONE_VFORK 的 情况 下 ) 和 ptrace 标 志 


二 



























































































































wake_up_new_ task 













是 否 设置 了 CLONE_VFORK 标 志 人 | 


图 2-7 qdo_fork 的 代码 流程 图 


do_fork 以 调用 copy_process 开 始 , 后 者 执行 生成 新 进程 的 实际 工作 , 并 根据 指定 的 标志 重用 

进程 的 数据 。 在 子 进程 生成 之 后 ， 内 核 必须 执行 下 列 收尾 操作 : 

口 由 于 fork 要 返回 新 进程 的 PID， 因 此 必须 获得 PID。 这 是 比较 复杂 的 ， 因 为 如 果 设 置 了 
CLONE_NEWPID 标 志 ，fork 操 作 可 能 创建 了 新 的 PID 命 名 空间 。 如 果 是 这 样 ， 则 需要 调用 task_ 
pigd_nr_ns 获 取 在 父 命 名 空间 中 为 新 进程 选择 的 PID， 即 发 出 fork 调 用 的 进程 所 在 的 命名 空间 。 
如 果 PID 命 名 空间 没有 改变 ， 调 用 task_piqg_vnr 获 取 局 部 PID 即 可 ， 因 为 新 旧 进 程 都 在 同一 个 
命名 空间 中 。 
kernel/fork.c 
nr = (ClLlone_flags & CLONE_NENPID) ? 


task_ pid nr ns(p, current->nsproxy->pid ns) : 
task_pid vnr(p); 


口 如 果 将 要 使 用 Ptrace (参见 第 13 章 〉 监控 新 的 进程 ， 那 么 在 创建 新 进程 后 会 立即 向 其 发 送 
SIGSTOP 信 和 号， 以便 附 接 的 调试 器 检查 其 数据 。 
口 子 进 程 使 用 wake_up_new_task 唤 醒 。 换 言 之 ， 即 将 其 ask_struct 添 加 到 调度 器 队列 。 调 度 
器 也 有 机 会 对 新 局 动 的 进程 给 予 特 别处 理 ， 这 使 得 可 以 实现 一 种 策略 以 便 新 进程 有 较 高 的 几 
率 尽快 开始 运行 ， 另 外 也 可 以 防止 一 再 地 调用 fork 浪 费 CPU 时 间 。 
如 果子 进程 在 父 进程 之 前 开始 运行 ， 则 可 以 大 大 地 减少 复制 内 存 页 的 工作 量 ， 尤 其 是 子 进程 
在 fork 之 后 发 出 exec 调 用 的 情况 下 。 但 要 记 住 ， 将 进程 排 到 调度 器 数据 结构 中 并 不 意味 着 该 
子 进程 可 以 立即 开始 执行 ， 而 是 调度 器 此 时 起 可 以 选择 它 运行 。 
口 如 果 使 用 vfork 机 制 〈《 内 核 通过 设置 的 CLONE_VFORK 标 志 识别 )， 必 须 启 用 子 进程 的 D 口 机 制 
(completions mechanism )。 子 进程 的 task_struct 的 vfork_dqone 成 员 即 用 于 该 目的 。 借 助 于 
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wait_for_completion 函 数 ， 父 进程 在 该 变量 上 进入 睡眠 状态 ， 直 至 子 进程 退出 。 在 进程 终 
止 ( 或 用 execve 启 动 新 应 用 程序 ) 时 ， 内 核 自动 调用 complete (vfork_done)。 这 会 唤醒 所 
有 因 该 变量 睡眠 的 进程 。 在 第 14 章 中 ， 我 会 非常 详细 地 讨论 完成 机 制 的 实现 。 
口 通过 采用 这 种 方法 ， 内 核 可 以 确保 使 用 vfork 生 成 的 子 进程 的 父 进程 会 一 直人 处 于 不 活动 状态 ， 
直至 子 进 程 退 出 或 执行 一 个 新 的 程序 。 父 进程 的 临时 睡眠 状态 ， 也 确保 了 两 个 进程 不 会 彼此 
干扰 或 操作 对 方 的 地 址 空间 。 
4. 复制 进程 
在 do_fork 中 大 多 数 工 作 是 由 copy_process 函 数 完成 的 ， 其 代码 流程 如 图 2-8 所 示 。 请 注意 ， 该 
函数 必须 处 理 3 个 系统 调用 (fork、vfork 和 clone) 的 主要 工作 。 
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标志 





dup_task_struct 














检查 资源 限制 | 











初始 化 task_struct | 


scheqd_fork 


这 进程 的 各个 部 分 


copy_files 



































copy_sighangd 


copy_signal 





Copy_namespaces 


copy_thread 


设置 各 个 ID、 进 程 关 系 ， 等 等 























图 2-8 ”copy_process 的 代码 流程 图 


于 内 核 必 须 处 理 许多 特别 和 具体 的 情形 , 我 们 只 讲述 该 函数 的 一 个 略微 简化 的 版 本 ,免得 迷失 
于 无 数 的 细节 而 忽略 最 重要 的 方面 。 

复制 进程 的 行为 受到 相当 多 标志 的 控制 。clone (2) 的 手册 页 详细 讲述 了 这 些 标志 ， 这 里 不 再 歼 
述 ， 我 建议 读者 看 一 下 手册 页 ， 或 者 Linux 系 统 程序 设计 方面 的 任何 好 书 都 可 以 。 我 们 更 感 兴趣 的 是 ， 
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某 些 标志 组 合 没 有 意义 ， 内 核 必须 捕获 这 种 情况 。 例 如 ， 一 方面 请 求 创 建 一 个 新 命名 空间 
CCLONE_NEWNS)， 而 同时 要 求 与 父 进程 共享 所 有 的 文件 系统 信息 (CCLONE_FSs)， 就 是 没有 意义 的 。 捕 


获 这 种 组 合并 返回 错误 码 并 不 复杂 : 
kernel/fork.c 
static struct task_ struct *copy_process (unsigned long clone_ flags, 
unsigned long stack_ start, 
struct pt_regs *regs, 
unsigned long stack_ size, 


int _ user *child tiqdptr, 
struct pid *pid) 



















































































int retval; 
struct task_struct *p; 
int cgroup_callbacks done = 0; 


if ((clone_flags & (CLONE_ NEWNS|CLONE_FS)) == (CLONE_NEWNS|CLONE_FS)) 
return ERR_PTR(-EINVAL); 











此 处 很 适宜 回忆 简介 部 分 提 到 的 ，Linux 有 时 候 在 操 
错误 码 。 遗 憾 的 是 ，C 语 言 每 个 函数 只 允许 一 个 直接 的 返回 值 ， 因 此 任何 有 关 可 能 错误 的 信息 都 必须 
编码 到 指针 中 。 虽 然 一 般 而 言 指针 可 以 指向 内 存 中 的 任意 位 置 ， 而 Linux 支 持 的 每 个 体系 结构 的 虚拟 
地 址 空间 中 都 有 一 个 从 虚拟 地 址 0 到 至 少 4 KiB 的 区 域 ， 该 区 域 中 没有 任何 有 意义 的 信息 。 因 此 内 核 可 
以 重用 该 地 址 范围 来 编码 错误 码 。 如 果 fork 的 返回 值 指 向 前 述 的 地 址 范围 内 部 , 那么 该 调用 就 失败 了 ， 
其 原因 可 以 由 指针 的 数值 判断 。ERR_PTR 是 一 个 辅助 宏 ， 用 于 将 数值 常数 (例如 EINVAL， 非 法 操作 ) 
编码 为 指针 。 
还 需要 进一步 检查 一 些 标志 。 
口 在 用 CLONE_THREAD 创 建 一 个 线程 时 ， 必 须 用 cLONE_SIGHAND 激 活 信号 共享 。 通常 情况 下 ， 
个 信号 无 法 发 送 到 线程 组 中 的 各 个 线程 。 
口 只 有 在 父子 进程 之 间 共 享 虚拟 地 址 空间 时 〈CLONE_VM) ， 才 能 提供 共享 的 信号 处 理 程序 。 基 
此 类 似 的 想法 是 ， 要 想 达 到 同样 的 效果 ， 线 程 也 必须 与 父 进程 共享 地 址 空间 。 
在 内 核 建 立 了 自 洽 的 标志 集 之 后 ， 则 用 aup_task_struct 来 建立 父 进程 task_struct 的 副本 。 用 
于 子 进 程 的 新 的 task_struct 实 例 可 以 在 任何 空闲 的 内 核 内 存 位 置 分 配 〈 更 多 细节 请 参见 第 3 章 ， 其 
中 讲解 了 这 里 提 到 的 分 配 机 制 ) 。 
父子 进程 的 task_struct 实 例 只 有 一 个 成 员 不 同 : 新 进程 分 配 了 一 个 新 的 核心 态 栈 ， 即 
task_struct->stack。 通 常 栈 和 threaa_info 一 同 保存 在 一 个 联合 中 ，threaa_info 保 存 了 线程 所 
需 的 所 有 特定 于 处 理 器 的 底层 信息 。 


<sched.h> 
union thread union { 
struct thread_ info thread_ info; 
unsigned long stack[THREAD_ SIZE/sizeof (long)]; 





作成 功 时 需要 返回 指针 ， 而 在 失败 时 则 返回 



































































































































































































































































































































































































































































































































}3 
原则 上 ， 只 要 设置 了 预 处 理 器 常数 ”HAVE_THREAD_FUNCTIONS 通 知 内 核 ， 那 么 各 个 体系 结构 可 
以 随意 在 stack 数 组 中 存储 什么 数据 。 在 这 种 情况 下 ， 它 们 必须 自行 实现 task_threagd_info 和 task_ 
stack_page， 这 两 个 函数 用 于 获取 给 定 task_struct 实 例 的 线程 信息 和 核心 态 栈 。 男 外 ， 它 们 必须 实 
现 aup_task_struct 中 调用 的 函数 setup_threaa_stack， 以 便 确 定 stack 成 员 的 具体 内 存 布局 。 当 


































































































56 D020 0000000 














前 只 有 IA-64 和 m68k 不 依赖 于 内 核 的 默认 方法 。 

在 大 多 数 体 系 结构 上 ， 使 用 一 两 个 内 存 页 来 保存 一 个 threag_union 的 实例 。 在 IA-32 上 ， 两 个 内 
存 页 是 默认 设置 ， 因 此 可 用 的 内 核 栈 长 度 略 小 于 8 KiB， 其 中 一 部 分 被 threaq_info 实 例 占据 。 不 过 要 
注意 ， 配 置 选项 4KksTACKS 会 将 栈 长 度 降低 到 4 KiB， 即 一 个 页 面 。 如 果 系 统 上 有 许多 进程 在 运行 ， 这 
样 做 是 有 利 的 ， 因 为 每 个 进程 可 以 节省 一 个 页 面 。 另 一 方面 ， 对 于 经 常 趋向 于 使 用 过 多 栈 空间 的 外 部 
驱动 程序 来 说 ， 这 可 能 导致 问题 。 标 准 发 布 版 所 提供 的 内 核 ， 其 所 有 核心 部 分 都 已 经 设计 为 能 够 在 4 
KiB 栈 长 度 配置 下 运转 流畅 ,但 一 旦 需要 只 提供 二 进 制 代码 的 驱动 程序 ， 就 可 能 引发 问题 (糟糕 的 是 ， 
过 去 已 经 发 生 过 这 类 问题 ) ， 此 类 驱动 通常 习 于 向 可 用 的 栈 空间 乱 塞 数据 。 

thread_info 保 存 了 特定 于 体系 结构 的 汇编 语言 代码 需要 访问 的 那 部 分 进程 数据 。 尽 管 该 结构 的 
定义 因 不 同 的 处 理 器 而 不 同 ， 大 多 数 系 统 上 该 结构 的 内 容 类 似 于 下 列 代码 。 


<asm-arch/thread_info.h> 
struct thread info { 























































































































































































































































































































struct task_struct *task; /* 当前 进程 Lask_struct 指 针 */ 
struct exec_ domain *exec_domain; /* 执行 区 间 */ 

unsigned long flags; /* 底层 标志 */ 

unsigned long status; /* 线程 同步 标志 */ 

__u32 cpu; /* 当前 CPU */ 

int preempt_count; /* 0 => 可 抢占 ， <0 => BUG */ 
mm_ segment_t addr_limit; /* 线程 地 址 空间 */ 

struct restart_block restart_block; 


口 task 是 指 问 进程 task_struct 实 例 的 指针 。 

口 exec_dqomain 用 于 实现 0 口 口 口 (execution domain), 后 者 用 于 在 一 类 计算 机 上 实现 多 种 的 ABI 
(Application Binary Interface， 应 用 程序 二 进 制 接口 )。 例如， 在 AMD64 系 统 的 64bit 模 式 下 运行 
32bit 应 用 程序 。 

口 flags 可 以 保存 各 种 特定 于 进程 的 标志 ， 我 们 对 其 中 两 个 特别 感 兴趣 ， 如 下 所 示 。 

和 如 果 进 程 有 待 决 信号 则 置 位 TIF_SIGPENDING。 

四 TIF_NEED_RESCHED 表 示 该 进程 应 该 或 想 要 调度 器 选择 男 一 个 进程 蔡 换 本 进程 执行 。 

其 他 可 用 的 常数 是 特定 于 硬件 的 ， 几 乎 从 不 使 用 ， 可 以 参见 <asm-arch/thread_info.h>。 
口 cpu 说 明了 进程 正在 其 上 执行 的 CPU 数目 《在 多 处 理 器 系统 上 很 重要 ， 在 单 处 理 器 系统 上 非常 
容易 判断 )。 
口 preempt_count 实 现 内 核 抢 占 所 需 的 一 个 计数 器 ， 我 将 在 2.8.3 节 讨论 。 

口 adgr_1limit 指 定 了 进程 可 以 使 用 的 虚拟 地 址 的 上 限 。 如 前 所 述 ， 该 限制 适用 于 普通 进程 ，1 
内 核 线程 可 以 访问 整个 虚拟 地 址 空间 ， 包 括 只 有 内 核能 访问 的 部 分 。 这 吕 吕 意味 着 限制 进程 

可 以 分 配 的 内 存 数量 。 回 想 第 1 章 提 到 的 用 户 和 内 核 地 址 空间 之 间 的 分 隅 ， 我 会 在 第 4 章 详 细 

讨论 该 主题 。 

口 restart_block 用 于 实现 信号 机 制 (参见 第 5 章 )。 

图 2-9 给 出 了 task_struct、thread_info 和 内 核 栈 之 间 的 关系 。 在 内 核 的 某 个 特定 组 件 使 用 了 过 

多 栈 空间 时 ， 内 核 栈 会 溢出 到 thread_info 部 分 ， 这 很 可 能 会 导致 严重 的 故障 。 此 外 在 紧急 情况 下 输 
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出 调用 栈 回溯 时 将 会 导致 错误 的 信息 出 现 ， 因 此 内 核 提 供 了 kstack_end 函 数 ， 用 于 判断 给 出 的 地 址 
是 否 位 于 栈 的 有 效 部 分 之 内 。 
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图 2-9 ”进程 的 task_struct、thread_info 和 内 核 栈 之 间 的 关系 












INIT_THREAD_SIZE 


——Y> thread_info->task 





> task_struct->stack 





























dup_task_struct 会 复制 父 进程 cask_struct 和 thread info 实 例 的 内 容 ， 但 stack 则 与 新 的 
thread_info 实 例 位 于 同一 内 存 区 域 。 这 意味 着 父子 进程 的 task_struct 此 时 除了 栈 指针 之 外 是 完 
相同 的 ， 但 子 进程 的 task_struct 实 例会 在 copy_process 过 程 中 修改 。 

此 外 所 有 体系 结构 都 将 两 个 名 为 current 和 current_thread_info 的 符号 定义 为 宏 或 函数 。- 
义 如 下 所 示 。 

口 current_thread_info 可 获得 指向 当前 执行 进程 的 thread_info 实 例 的 指针 。 其 地 址 可 以 根 
据 内 核 栈 指针 确定 ， 因 为 thread_info 实 例 总 是 位 于 栈 顶 。" 因 为 每 个 进程 分 别 使 用 各 自 的 内 

核 栈 ， 进 程 到 栈 的 映射 是 唯一 的 。 

口 current 给 出 了 当前 进程 cask_struct 实 例 的 地 址 。 该 函数 在 源 代码 中 出 现 非 常 频 繁 。 该 地 址 

可 以 使 用 current_thread_info() 确 定 : current = current thread_ info()->task。 

我 们 继续 讨论 copy_process。 在 daup_task_struct 成 功 之 后 ， 内 核 会 检查 当前 的 特定 用 户 在 创 

建新 进程 之 后 ， 是 否 超 出 了 允许 的 最 大 进程 数目 : 


kernel/fork.c 
if (atomic read(&p->user->processes) >= 
p->signal->rlim[RLIMIT NPROC] .rlim cur) { 
if (!capable(CAP_SYS_ ADMIN) && !capable (CAP_SYS_RESOURCE 
p->user != current->nsproxy->user_ns->root_user) 
goto bad_ fork_ free; 
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拥有 当前 进程 的 用 户 ， 其 资源 计数 器 保存 一 个 user_struct 实 例 中 ,可 通过 task_struct->user 
访问 ,特定 用 户 当 前 持 有 进程 的 数目 保存 在 user_struct->processes。 如 果 该 值 超出 rlimit 设 置 的 
限制 ， 则 放弃 创建 进程 ， 除 非 当 前 用 户 是 root 用 户 或 分 配 了 特别 的 权限 〈CaP_SYS_ADMIN 或 CAP_SYS_ 
RESOURCE )。 检 测 root 用 户 很 有 趣 : 回想 上 文 ， 每 个 PID 命 名 空间 都 有 各 自 的 root 用 户 。 上 述 检测 必须 
如 果 资 源 限 制 无 法 防止 进程 建立 ， 则 调用 接口 函数 scheq_fork， 以 便 使 调度 器 有 机 会 对 新 进程 
进行 设置 。 在 内 核 版 本 2.6.23 引 入 CFQ 调 度 器 之 前 ， 该 过 程 要 更 加 复杂 ， 因 为 父 进程 的 剩余 时 间 片 必 
须 在 父子 进程 之 间 分 配 。 由 于 新 的 调度 器 不 再 需要 时 间 片 ， 现 在 简单 多 了 。 本 质 上 ， 该 例 程 会 初始 化 
一 些 统计 字段 , 在 多 处 理 器 系统 上 , 如 果 有 必要 可 能 还 会 在 各 个 CPU 之 间 对 可 用 的 进程 重新 均衡 一 下 。 











































































































































































































































































































Q 指向 内 核 栈 的 指针 通常 保存 在 一 个 特别 保留 的 寄存 器 中 。 有 些 体系 结构 特别 是 LA-32 和 AMD64 使 用 了 不 同 的 解决 
方案 ， 我 将 在 A.10.3 节 讨论 。 
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此 外 进程 状态 设置 为 TASK_RUNNING， 由 于 新 进程 事实 上 还 没 运行 ， 这 个 状态 实际 上 不 是 真实 的 。 但 
这 可 以 防止 内 核 的 任何 其 他 部 分 试图 将 进程 状态 从 非 运行 改 为 运行 ， 并 在 进程 的 设置 彻底 完成 之 前 调 

接 下 来 会 调用 许多 形 如 copy_xyz 的 例 程 ， Se A task. 
struct 包 含 了 一 些 指针 ， 指 向 具体 数据 结构 的 实例 ， 描 述 了 可 共享 或 可 复制 的 资源 。 由 于 子 进程 
task_struct 是 从 父 进程 的 task_struct 精 确 复 制 而 来 ， 因此 相关 的 指 针 最 初 都 指向 同样 的 资源 ， 或 
者 说 同样 的 具体 资源 实例 ， 如 图 2-10 所 示 。 
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图 2-10 ”在 创建 新 线程 时 ， 父 进程 的 资源 可 以 共享 或 复制 


假定 我 们 有 两 个 资源 : res_abc 和 res_def。 最 初 父子 进程 的 task_struct 中 的 对 应 指针 都 指向 

了 资源 的 同一 个 实例 ， 即 内 存 中 特定 的 数据 结构 。 
如 果 cLONE_ABC 置 位 ， 则 两 个 进程 会 共享 res_abc。 此 外 ， 为 防止 与 资源 实例 关联 的 内 存 空间 释 
放 过 快 ， 还 需要 对 实例 的 引用 计数 器 加 1， 只 有 进程 不 再 使 用 内 存 时 ， 才 能 释放 。 如 果 父 进程 或 子 进 
程 修改 了 共享 资源 ， 则 变化 在 两 个 进程 中 都 可 以 看 到 。 
如 果 cLONE_ABC 没 有 置 位 ， 接 下 来 会 为 子 进 程 创建 res_abc 的 一 份 副 本 ， 新 副本 的 资源 计数 器 初 
始 化 为 1。 因此 在 这 种 情况 下 ， 如 果 父 进程 或 子 进程 修改 了 资源 ， 变 化 0D 吕 传播 到 另 一 个 进程 。 
通常 ， 设 置 的 cLONE 标 志 越 少 ， 需 要 完成 的 工作 越 少 。 但 多 设置 一 些 标志 ， 则 使 得 父子 进程 有 更 
多 机 会 相互 操作 彼此 的 数据 结构 ， 在 编写 应 用 程序 时 必须 考虑 到 这 一 点 。 
判断 资源 是 共享 还 是 复制 需要 通过 许多 辅助 例 程 完成 ， 每 个 辅助 例 程 对 应 种 资源 。 我 不 打算 在 
此 讨论 各 个 copy_xyz 函 数 的 实现 〈 相 当 无 趣 ) ， 但 会 概述 其 作用 。 在 后 续 章 节 中 详细 论述 各 个 子 系统 
时 ， 我 会 介绍 与 进程 每 个 组 件 相关 的 数据 结构 。 
口 如 果 coPY_SYSVSEM 置 位 ， 则 copy_semunqo 使 用 父 进程 的 System V 信 和 号 量 。 
口 如 果 CLONE_FILES 置 位 ， 则 copy_files 使 用 父 进程 的 文件 描述 符 ， 和 否则 创建 新 的 files 结 构 
(参见 第 8 章 )， 其 中 包含 的 信息 与 父 进 程 相同 。 该 信息 的 修改 可 以 独立 于 原 结构 。 
口 如 果 CLONE_FS 置 位 ， 则 copy_fs 使 用 父 进 程 的 文件 系统 上 下 文 (task_struct->fs)。 这 是 一 

个 fs_struct 类 型 的 结构 ， 包 含 了 诸如 根 目录 、 进 程 的 当前 工作 目录 之 类 的 信息 (更 多 细节 请 参 

见 第 8 章 )。 
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果 CLONE_STGHAND 或 CLONE_THREAD 置 位 , 则 copy_sighand 使 用 父 进程 的 信号 处 理 程序 。 第 

章 会 更 详细 地 论述 使 用 的 struct sighanq_struct 结 构 。 

果 CLONE_THREAD 置 位 ， 则 copy_sigmnal 与 父 进程 共同 使 用 信号 处 理 

了 分 (task_struct->signal， 参 见 第 5 章 )。 

果 CoPY_MM 置 位 ， 则 copy_mm 让 父 进程 和 子 进程 共享 同一 地 址 空间 。 在 这 种 情况 下 ， 两 个 进 

使 用 同一 个 mm_struct 实 例 (参见 第 4 章 )，task_struct->mm 指 针 即 指向 该 实例 。 

I 果 copy_mm[] 口 置 位 ， 并 不 意味 着 需要 复制 父 进程 的 整个 地 址 空间 。 内 核 确 实 会 创建 页 表 的 
一 份 副本 ， 但 并 不 复制 页 的 实际 内 容 。 这 是 使 用 COW 机 制 完成 的 ， 仅 当 其 中 一 个 进程 将 数据 
写 入 页 时 ， 才 会 进行 实际 复制 。 

口 copy_namespaces 有 特别 的 调用 语义 。 它 用 于 建立 子 进程 的 命名 空间 。 回 想 前 文 提 到 的 几 个 
控制 与 父 进 程 0 口 何 种 命名 空间 的 cLONE_NEWxyz 标 志 ， 但 其 语义 与 所 有 其 他 标志 都 相反 。 如 

果品 口 指定 CLONE_NEYWzxyz， 则 与 父 进程 共享 相应 的 命名 空间 ， 和 否则 创建 一 个 新 的 命名 空间 。 
copy_namespaces 相 当 于 调度 程序 ， 对 每 个 可 能 的 命名 空间 ， 分 别 执行 对 应 的 复制 例 程 。 但 
各 个 具体 的 复制 例 程 就 没什么 趣味 了 ， 因 为 本 质 上 就 是 复制 数据 或 通过 引用 计数 的 管理 来 共 
享 现存 的 实例 ， 因 此 我 不 会 详细 讨论 各 例 程 的 实现 。 

口 copy_thread 与 这 里 讨论 的 所 有 其 他 复制 操作 都 大 不 相同 ， 这 是 一 个 特定 于 体系 结构 的 函数 ， 
用 于 复制 进程 中 特定 于 线程 〈thread-specific) 的 数据 。 
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重要 的 是 填充 task_struct->thread 的 各 个 成 员 。 这 是 一 个 threag_struct 类 型 的 结构 ， 其 
定义 是 体系 结构 相关 的 。 它 包含 了 所 有 寄存 器 (和 其 他 信息 ) ， 内 核 在 进程 之 间 切 换 时 需要 保 














存 和 恢复 进程 的 内 容 ， 该 结构 可 用 于 此 。 
为 理解 各 个 thread_struct 结 构 的 布局 ， 需 要 深入 了 解 各 种 CPU 的 相关 知识 。 对 这 些 结构 的 详 
尽 讨 论 则 超过 了 本 书 的 范围 。 但 附录 A 包含 了 儿 种 系统 上 该 结构 内 容 的 一 些 相关 信息 。 
可 到 对 copy_process 的 讨论 ， 内 核 必 须 填 好 task_struct 中 对 父子 进程 不 同 的 各 个 成 员 。 包 含 
下 列 一 些 : 
口 task_struct 中 包含 的 各 个 链表 元 素 ， 例 如 sibling 和 children; 

口 间隔 定时 器 成 员 cpu_timers (参见 第 1$ 章 ) ; 

口 待 决 信号 列表 (pending) ， 将 在 第 5 章 讨 论 。 

在 用 之 前 描述 的 机 制 为 进程 分 配 一 个 新 的 piq 实 例 之 后 ， 则 保存 在 task_struct 中 。 对 于 线程 ， 
线程 组 ID 与 分 支 进 程 〈 即 调用 fork/clone 的 进程 ) 相同 : 


kernel/fork.c 
p->pid = pid nr (pid); 
p->tgid = p->pigd; 
if (clone flags & CLONE_ THREAD) 
p->tgid = current->tgid; 


















































































































































回想 一 下 ，pia_nr 函 数 对 给 定 的 pia 实 例 计算 全 局 数值 PID。 
对 普通 进程 ， 父 进程 是 分 支 进 程 。 对 于 线程 来 说 有 些 不 同 ， 由 于 线程 被 视 为 分 支 进 程 0 0 的 第 二 
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(或 第 三 、 第 四 ， 等 等 ) 个 执行 序列 ， 其 父 进程 应 是 分 支 进 程 的 父 进程 。 关 于 这 一 点 ， 代 码 的 表述 比 





kernel/fork.c 
if (clone flags & (CLONE_PARENT | CLONE_THREAD) ) 
p->real_parent = current->real parent; 
else 
p->real_parent = current; 
p->parent = p->real_parent; 


线程 的 普通 进程 可 通过 设置 CLONE_PARENT 触 发 同样 的 行为 。 对 线程 来 说 还 需要 另 一 个 校正 ， 
即 普 通 进 程 的 线程 组 组 长 是 进程 本 身 。 对 线程 来 说 ， 其 组 长 是 当前 进程 的 组 长 : 


kernel/fork.c 
p->group_leader = p; 
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if (clone flags & CLONE THREAD) { 
p->group_leader = current->group_leader; 
list adqd tail rcul(&p->thread group, &p->group_leader->thread group); 















































新 进程 接 下 来 必须 通过 children 链 表 与 父 进 程 连接 起 来 。 这 是 通过 辅助 宏 aqg_parent 人 处 型 
此 外 ， 新 进程 必须 被 归 入 2.3.3 节 描述 的 了 数据 结构 体系 中 。 


kernel/fork.c 
adqd_parent (p); 

















的 。 














下 














if (thread group_leader(p)) { 
if (clone flags & CLONE NEWPID) 
p->nsproxy->pid_ ns->child_ reaper = p; 


set_task pgrp(p, task pgrp_nr(current)); 

set_task_ session(p, task_ session nr(current)); 

attach pid(p, PIDTYPE_ PGID, task pgrp (current)); 

attach pid(p, PIDTYPE_ SID, task_ session(current)); 
} 


attach pid(p, PIDTYPE_ PID, pid); 


return p; 


} 
thread_group_leader 内 检查 新 进程 的 pidg 和 tgid 是 否 相 同 。 倘 车 如 此 ， 则 该 进程 是 线程 组 的 组 
长 。 在 这 种 情况 下 ， 还 需要 完成 更 多 必要 的 工作 。 
口 回想 一 下 ， 在 非 全 局 命名 空间 的 进程 命名 空间 中 ， 各 个 进程 有 特定 于 该 命名 空间 的 init 进 程 。 
如 果 通 过 置 位 cCLONE_NEWPID 创 建 一 个 新 的 PID 命 名 空间 ， 那 么 init 进 程 的 角色 必须 由 调用 
clone 的 进程 承担 。 
口 新 进程 必须 被 加 到 当前 进程 组 和 会 话 。 这 样 就 需要 用 到 前 文 讨论 过 的 一 些 函 数 。 
最 后 ，PID 本 身 被 加 到 ID 数据 结构 的 体系 中 。 创 建新 进程 的 工作 就 此 完成 ! 
5. 创建 线程 时 的 特别 问题 
户 空间 线程 库 使 用 clone 系 统 调用 来 生成 新 线程 。 该 调用 文 持 (上 文 讨论 之 外 的 ) 标志 ， 对 
copy_process (及 其 调用 的 函数 ) 具有 某 些 特殊 影响 。 为 简明 起 见 ， 我 在 上 文中 省 去 了 这 些 标志 。 
但 有 一 点 应 该 记 住 ， 在 Linux 内 核 中 ， 线 程 和 一 般 进 程 之 间 的 差别 不 是 那么 刚性 ， 这 两 个 名 词 经 常用 
作 同 义 词 《如 前 所 述 , 口 D 也 经 常用 于 指 进程 的 体系 结构 相关 部 分 ) 。 在 本 节 中 ， 我 重点 讲解 用 户 线 
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程 库 〈 尤 其 是 NPTL) 用 于 实现 多 线程 功能 的 标志 。 
口 CLONE_PARENT_SETTID 将 生成 线程 的 PID 复 制 至 
(parent_tidptr， 传 递 到 clone 的 指针 )?: 
kernel/fork.c 
if (clone flags & CLONE PARENT SETTID) 
put_user (nr, parent tidptr); 2 
复制 操作 在 do_fork 中 执行 ,此 时 新 线程 的 task_struct 尚 未 初始 化 ，copy 操 作 尚 未 创建 新 线 
程 的 数据 。 
口 CLONE_CHILD_SETTID 首 先 会 将 男 一 个 传递 到 clone 的 用 户 空间 指针 (chilq_tigptr) 保存 在 
新 进程 的 task_struct 中 。 


kernel/fork.c 
p->set_child tid = (clone flags & CLONE _ CHILD SETTID) ? child tidptr : NULL; 


在 新 进程 第 一 次 执行 时 ， 内 核 会 调用 schedule_tail 函 数 将 当前 PID 复 制 到 该 地 址 。 


kernel/schedule.c 
asmlinkage void schedule tail(struct task_ struct *prev) 


{ 











到 clone 调 用 指定 的 用 户 空间 中 的 某 个 地 址 
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if (current->set_chilqd tid) 
put_user(task pid vnr(current), current->set_ child tid); 


} 
口 CLONE_CHILD_CLEARTID 首 先 会 在 copy_process 中 将 用 户 空间 指针 chilaq_tidqptzr 保 存在 
task_struct 中 ， 这 次 是 男 一 个 不 同 的 成 员 。 


kernel/fork.c 
p->clear_child tid = (clone flags & CLONE CHILD CLEARTID) ? child tidptr: NULL; 


在 进程 终止 时 ， “将 0 写 入 clear_chilqd_tid 指 定 的 地 址 。® 


kernel/fork.c 
void mm release(struct task struct *tsk, struct mm struct *mm) 


{ 
























































if (tsk->clear_ chilqd tid 
&& atomic read(&mm->mm users) > 1) { 
u32 _ user * tidptr = tsk->clear child tid; 
tsk->clear_child tid = NULL; 


put_user(0, tidptr); 
sys_futex(tidptr, FUTEX WAKE, 1, NULL, NULL, 0); 


此 外 ，sys_futex， 一 个 快速 的 用 户 空间 互 斥 量 ， 用 于 唤醒 等 竺 线程 结束 事件 的 进程 。 
上 述 标志 可 用 于 从 用 户 空间 检测 内 核 中 线程 的 产生 和 销毁 。CLONE_CHILD_SETTID 和 CLONE_ 
PRARENT_SETTID 用 于 检测 线程 的 生成 。CLONE_CHILD_CLEARTID 用 于 在 线程 结束 时 从 内 核 向 用 户 空 间 
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G) put_user 用 于 在 内 核 地址 空间 和 用 户 地 址 空间 之 间 复 制 数据 ， 将 在 第 4 之 讨论 。 

© 或 更 精确 地 说 ， 在 进程 终止 过 程 中 ， 使 用 mm_release 自 动 释放 划 j 存 管理 的 数据 结构 时 。 

人 users > 1 意味 着 系统 中 至 少 有 男 一 个 进程 在 使 ] 该 内 存 管理 数据 结 吉 构 。 因 此 当前 进程 是 一 般 意 义 上 
一 个 线程 ， 其 地 址 空间 来 自 男 一 个 进程 ， 且 只 有 一 个 控制 流 。 
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传递 
2.4. 


统 中 
D0 





指定 





通 的 














空间 。 


供 内 























信息 。 在 多 处 理 器 系统 上 这 些 检测 可 以 真正 地 并 行 执行 。 
2 内核 线程 





















































000D0 是 直接 由 内 核 本 身 启动 的 进程 。 内 核 线程 实际 上 是 将 内 核 函 数 委托 给 独立 的 进程 ,与 系 



































。 它 们 用 于 执行 下 列 任务 。 





| | 























口 所 

口 如 果 内 存 页 很 少 使 用 ， 则 写 入 交换 区 。 
口 管理 延 时 动作 (deferred action) 。 
口 实现 文件 系统 的 事务 日 志 。 
基本 上 ， 有 两 种 类 型 的 内 核 线程 。 
口 类 型 1: 线程 启动 后 一 直 等 待 ， 直 至 内 核 请 求 线程 执行 某 一 特定 操作 。 

口 类 型 2: 线程 启动 后 按 周期 性 间隔 运行 ， 检 测 特 定 资源 的 使 用 ， 在 用 量 超出 或 1 
直 时 采取 行动 。 内 核 使 用 这 类 线程 用 于 连续 监测 任务 。 






























































































































































其 他 进程 “并 行 ”执行 (实际 上 ， 也 并 行 于 内 核 自身 的 执行 )。" 内 核 线程 经 常 称 之 为 (0 0 ) 品 


期 性 地 将 修改 的 内 存 页 与 页 来 源 块 设备 同步 例如， 使 用 mmap 的 文件 映射 〉。 


氏 于 预 置 的 限 污 
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调用 kernel_thread 函 数 可 启动 一 个 内 核 线程 ,其 定义 是 特定 于 体系 结构 的 , 但 原型 总 是 相同 的 。 





<asm-arch/processor.h> 
int kernel thread(int (*fn) (void *), void * arg, unsigned long flags) 








产生 的 线程 将 执行 用 fn 指针 传递 的 函数 ， 而 用 arg 指 定 的 参数 将 自动 传递 给 该 函数 。“f1lags 中 可 








CLONE 标 志 。 

















I 











kernel_thread 的 第 一 个 任务 是 构建 一 个 pt_regs 实 例 ， 对 其 中 的 寄存 器 指定 适当 的 值 ， 这 与 普 











fork 系 统 调用 类 似 。 接 下 来 调用 我 们 熟悉 的 do_fork 函 数 。 

















p = do_fork(flags | CLONE VM | CLONE_ UNTRACED, 0, &regs, 0, NULL, NULL); 





























因为 内 核 线程 是 由 内 核 自身 生成 的 ， 应 该 注意 下 面 两 个 特别 之 处 。 
(1) 它们 在 CPU 的 管 态 (supervisor mode) 执行 ， 而 不 是 用 户 状态 (参见 第 1 章 )。 
(2) 它们 只 可 以 访问 虚拟 地 址 空间 的 内 核 部 分 (高 于 TASK_SIZE 的 所 有 地 址 )，1 

























































































回想 上 文 的 内 容 ， 可 知 task_struct 中 包含 了 指向 mm_structs 的 两 个 指针 : 


<sched.h> 
struct task_struct { 








struct mm_ struct *mm, *active_mm; 


大 多 数 计算 机 上 系统 的 全 部 虚拟 地 址 空间 分 成 两 个 部 分 : 底部 可 以 
















































































日 不 能 访问 


TD 


] 户 层 程序 访问 ， 上 部 则 专 


























核 使 用 。 在 内 核 代 表 用 户 层 程序 运行 时 《〈 例 如， 执行 系统 调用 ) ， 虚 拟 地 址 空间 的 用 户 空 间 部 分 

















与 任何 特定 的 用 户 层 进程 相关 ， 内 核 并 不 需要 倒 换 虚 拟 地 址 空间 的 用 户 层 部 分 ， 保 留 


imm 指 向 的 mm_struct 实 例 描 述 ( 该 结构 的 具体 内 容 与 当前 无 关 ， 会 在 第 4 章 讨论 ) 
-区 下 


















































文 切换 时 ， 虚 拟 地 址 空间 的 用 户 层 部 分 都 会 切换 ， 以 便 与 当前 运行 的 进程 匹配 。 























。 每 当 内 核 执行 











这 为 优化 提供 了 一 些 余地 ， 可 遵循 所 谓 的 0 0 TLBD 0 (lazy TLB handling) 。 





1 于 内 核 线程 不 









































GD 在 多 处 理 系统 上 ， 进 程 是 真正 并 行 执行 的 。 在 单 处 理 器 系统 上 ， 调 度 器 模拟 并 行 执行 。 
@) 通过 参数 表示 需要 完成 的 工作 ， 这 使 得 函数 可 用 于 不 同 目的 。 



























































日 设置 即 可 。 由 


24 00000000000 03 











以 











于 内 核 线程 之 前 可 能 是 任何 用 户 层 进程 在 执行 ， 因 此 用 户 空间 部 分 的 内 容 本 质 上 是 随机 的 ， 内 核 线程 
绝 不 能 修改 其 内 容 。 为 强调 用 户 空 间 部 分 不 能 访问 ，mm 设 置 为 空 指针 。 但 由 于 内 核 必须 知道 用 户 空 间 
当前 包含 了 什么 ， 所 以 在 active_mm 中 保存 了 指向 mm_struct 的 一 个 指针 来 描述 它 。 
为 什么 没有 mm 指针 的 进程 称 作 D 口 TLBD 口 ?假如 内 核 线程 之 后 运行 的 进程 与 之 前 是 同一 个 。 在 
这 种 情况 下 ， 内 核 并 不 需要 修改 用 户 空 间 地 址 表 ， 地址 转换 后 备 缓冲 器 ( 即 TLB) 中 的 信息 仍然 有 效 。 
只 有 在 内 核 线程 之 后 执行 的 进程 是 与 此 前 不 同 的 用 户 层 进程 时 ， 才 需要 切换 (并 对 应 清除 TLB 数 据 )。 
请 注意 ， 当 内 核 在 进程 上 下 文 下 运转 时 ，mm 和 active_mm 的 值 相同 。 
内 核 线程 可 以 用 两 种 方法 实现 。 古 老 的 方法 : 内 核 中 一 些 地 方 仍然 在 使 用 该 方法 ， 将 一 个 函数 直 
接 传递 给 kernel_thread。 该 函数 接 下 来 负责 帮助 内 核 调 用 daemonize 以 转换 为 守护 进程 。 这 依次 引 
发 下 列 操作 . 
(1) 该 函数 从 内 核 线程 释放 其 父 进 程 〈 用 户 进程 ) 的 所 有 资源 《〈 例 如， 内 存 上 下 文 、 文 件 描述 符 ， 
等 等 )， 不 然 这 些 资源 会 一 直 锁 定 到 线程 结束 ， 这 是 不 可 取 的 ， 因 为 守护 进程 通常 运行 到 系统 关机 为 
止 。 因 为 守护 进程 只 操作 内 核 地 址 区 域 ， 它 甚至 不 需要 这 些 资源 。 
(2) aaemonize 阻 塞 信号 的 接收 。 
(3) 将 init 用 作 守 护 进程 的 父 进程 。 
创建 内 核 线 程 更 现代 的 方法 是 辅助 函数 kthreagd_create。 
kernel/kthread.c 
struct task_ struct *kthread createl(int (*threadfn) (void *data), 
void *data, 


const char namefmt[], 


ee 

该 函数 创建 一 个 新 的 内 核 线程 ， 其 名 称 由 namefmt 给 出 。 最 初 该 线程 是 停止 的 ， 需 要 使 用 wake_ 
up_process 启 动 它 。 此 后 ， 会 调用 通过 threadfn 给 出 的 线程 函数 ， 而 data 则 作为 参数 。 

男 一 个 备 选 方案 是 宏 kthread_run (参数 与 kthread_create 相 同 ) ， 它 会 调用 kthread_create 
创建 新 线程 ， 但 立即 唤醒 它 。 还 可 以 使 用 kthread_create_cpu 代 蔡 kthread_create 创 建 内 核 线程 ， 
使 之 绑 定 到 特定 的 CPU。 

内 核 线 程 会 出 现在 系统 进程 列表 中 ， 但 在 ps 的 输出 中 由 方 括号 包 目 


wolfgang@meitner> ps fax 
PID TTY STAT TIME COMMAND 
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于 









































， 以 便 与 普通 进程 区 分 。 








ut 



































2? S< 0:00 [kthreadd] 

32 S< 0:00 _ [migration/0] 
4? S< 0:00 _ [ksoftirgqd/0] 
5? S< 0:00 _ [migration/1] 
6? S< 0:00 _ [ksoftirqd/1] 


523? S< 0:00 [kblockd/3] 
55? S< 0:00 [kacpid] 
56? S< 500 [kacpi_notify] 





如 果 内 核 线程 绑 定 到 特定 的 CPU，CPU 的 编号 在 和 斜 线 后 给 出 。 
2.4.3 ”启动 新 程序 
通过 用 新 代码 替换 现存 程序 ， 即 可 启动 新 程序 。Linux 提 供 的 execve 系 统 调 用 可 用 于 该 目的 。2 







































































QD C 标 准 库 中 有 其 他 exec 变 体 ， 但 最 终 都 基于 execve。 在 前 述 章 节 中 ，exec 经 常用 于 指 代 这 些 变 体 之 一 。 
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1. execve 的 实现 
该 系统 调用 的 入 
的 do_execve 例 程 。 





kernel/exec.c 
int do_execve(char * filename, 














这 里 不 仅 
参数 和 环境 的 








针 。 “这 上 
自身 的 指针 以 及 数组 





口 点 是 体系 结构 相关 的 sys_execve 函 数 。 该 函数 很 快 将 其 工作 委托 给 系统 无 关 





char _ user * user *argyv, 
char _ user * user *envp, 
struct pt_regs * regs) 








和 参数 传递 了 寄存 器 集合 和 可 执行 文 但 





























知 看 




















宜 都 处 理 得 当 。 






































图 2-11 给 出 了 do_execve 的 代码 流程 图 。 





















首先 打 























do_execve 


F 的 名 称 (filename)， 而 且 还 传递 了 指向 程序 的 


的 记号 稍微 有 点 策 拙 ， 因 为 argv 和 envp 都 是 指针 数组 ， 而 
FP 的 所 有 指针 都 位 于 虚拟 地 二 
E 内 核 访问 用 户 空间 内 存 


止 空间 的 用 户 空间 部 分 。 
对 需要 多 加 小 心 , 而 _usez 注 释 则 允许 自动 化 工具 来 检测 是 否 所 有 相关 事 











bm 








可 执行 文件 





init new context 




















指向 两 个 数组 
回想 一 下 第 1 章 的 内 容 ， 可 














prepare_binprm 


bprm mm init 

















图 2-11 


search binary_ handler 





do_execve 的 代码 流程 图 


























要 执行 的 文件 。 换言之 , 按 第 8 章 的 说 法 ,内 核 找 到 相关 的 inode 
用 于 寻 址 该 文件 。 














个 文件 描述 符 ， 





























bprm_init 接 下 来 处 理 若 干 管理 性 任务 : mm_alloc 生 成 一 个 新 的 mm_struct 实 例 来 管理 进程 地 址 


空间 (参见 第 4 章 )。init_new_context 是 一 个 特定 于 体系 结构 的 函数 ， 
mm_init 则 建立 初始 的 栈 。 












































用 于 初始 化 该 实例 ， 








1__bprm_ 





新 进程 的 各 个 参数 例如 ，euig、egid、 参 数列 表 、 环 境 、 文 件 名 ， 等 等 ) 随后 会 分 别传 递 给 

















其 他 函数 ， 此 时 为 








明 起 见 ， 则 合并 成 一 个 类 型 为 1inux_binprm 的 结构 。prepare_binprm 用 于 提供 











些 父 进程 相关 的 值 〈 特 别 是 有 效 UID 和 GID)。 剩 余 的 数据 ， 即 参数 列表 ， 接 下 来 直接 复制 到 该 结构 











GD argv 包 含 在 














境 则 包括 了 在 程序 执行 时 定义 的 所 有 环境 变量 。 在 大 多 数 shell 中 ， 可 以 使 用 


命令 行 上 传递 给 该 程序 的 所 有 参数 〈 例 如 ， 对 卫 








Fls -1 /usr/bin 来 说 ， 就 是 -1 和 /usr/bin)。 环 
set 输 出 这 些 变量 的 列表 。 
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中 。 要 注意 prepare_binprm 也 维护 了 对 SUID 和 SGID 位 的 处 理 : 


fs/exec.c 
int prepare binprm(struct linux binprm *bprmy) 


{ 

















current->euid; 
Current->egid; 


bprm->e_uid 
bprm->e_gid 





if(!(bprm->file->f_vfsmnt->mnt_flags & MNT NOSUID)) { 
/* Set-uid? */ 
if (mode & S_ISUID) { 
bprm->e_uid = inode->i_uid; 
} 
/* Set-gid? */ 
/* 
* 如 果 setgid 置 位 但 组 执行 位 没有 置 位 ， 那 么 这 可 能 是 强制 锁定 ， 
* 而 不 是 setgiqd 的 可 执行 文件 。 
光 洲 


if ((mode & (S_ISGID | S_IXGRP)) == (S_ISGID | S_IXGRP) ){ 
bprm->e_gid = inode->i_ gid; 
} 


; 
在 确认 文件 来 源 卷 在 装载 时 上 0 口 置 位 MNT_NosUITD 之 后 ， 内 核 会 检测 SUID 或 SGID 位 是 否 置 位 。 第 
一 种 情况 很 容易 处 理 : 如 果 S_ISUITD 置 位 ， 那 么 有 效 UID 与 inode 相 同 《〈 和 否则 ， 使 用 进程 的 有 效 UID )。 
SGID 的 情况 类 似 ， 但 内 核 还 需要 确认 组 执行 位 也 已 经 置 位 。 
Linux 支 持 可 执行 文件 的 各 种 不 同 组 织 格式 。 标 准 格 式 是 ELF (Executable and Linkable Format )， 
我 会 在 附录 了 详细 论述 。 其 他 的 备 选 格式 是 表 2-2 列 出 的 各 种 变 体 〈 表 中 列 出 了 内 核 中 对 应 的 
linux_binfmt 实 例 的 名 称 )。 
尽管 在 不 同 的 体系 结构 上 可 能 使 用 许多 二 进 制 格式 (ELF 尽 可 能 设计 得 与 系统 无 关 )， 这 并 不 意 
味 着 特定 二 进 制 格式 中 的 程序 能 够 在 多 个 体系 结构 上 运行 。 不 同 处 理 器 使 用 的 汇编 语言 语句 仍然 非常 
不 同 ， 而 二 进 制 格式 上 只 表示 如 何在 可 执行 文件 和 内 存 中 组 织 程序 的 各 个 部 分 〈 数 据 、 人 代码， 等 等 )。 
search_binary_ hanqdler 用 于 在 dao_execve 结 束 时 查找 一 种 适当 的 二 进 制 格式 ,用 于 所 要 执行 的 
特定 文件 。 这 种 查找 是 可 能 的 , 因为 各 种 格式 可 根据 不 同 的 特点 来 识别 〈 通 常 是 文件 起 始 处 的 一 个 “ 魔 
数 ”)。 二 进 制 格式 处 理 程序 负责 将 新 程序 的 数据 加 载 到 旧 的 地 址 空间 中 。 附 录 E 针 对 ELF 格 式 描 述 了 
加 载 的 步骤 。 通 常 ， 二 进 制 格式 处 理 程序 执行 下 列 操 作 。 
口 释放 原 进程 使 用 的 所 有 资源 。 
口 将 应 用 程序 映射 到 虚拟 地 址 空间 中 。 必 须 考虑 下 列 段 的 处 理 (涉及 的 变量 是 task_struct 的 成 
员 ， 由 二 进 制 格式 处 理 程序 设置 为 正确 的 值 ) 。 
和 text 段 包含 程序 的 可 执行 代码 。start_code 和 ena_coaqe 指 定 该 段 在 地 址 空间 中 驻 留 的 区 域 。 
昌 预先 初始 化 的 数据 (在 编译 时 间 指 定 了 具体 值 的 变量 ) 位 于 start_dqata 和 end_data 之 间 ， 
映射 自 可 执行 文件 的 对 应 段 。 
@ 口 (heap) 用 于 动态 内 存 分 配 ， 亦 置 于 虚拟 地 址 空间 中 。start_brk 和 brk 指 定 了 其 边界 。 
和 栈 的 位 置 由 start_stack 定 义 。 几乎 所 有 的 计算 机 上 栈 都 是 自动 地 向 下 增长 。 唯一 的 例外 是 
当前 的 PA-Risc。 对 于 栈 的 反 向 增长 ， 体 系 结构 相关 部 分 的 实现 必须 告知 内 核 ， 可 通过 设置 
配置 符号 srTACK_GROWSUP 完 成 。 
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里 程序 的 参数 和 环境 也 映射 到 虚拟 地 址 空间 中 ， 分 别 位 于 arg_start 和 arg_enq 之 间 ， 以 及 


start 和 env_end 之 间 。 
























































env_ 
口 设置 进程 的 指令 指针 和 其 他 特定 于 体系 结构 的 寄存 器 ， 以 便 在 调度 器 选择 该 进程 时 开始 执行 
程序 的 main 函 数 。 














有 关 ELF 格 式 到 虚拟 地 址 空间 的 映射 ， 将 在 4.2.1 节 更 详细 地 讨论 。 





表 2-2 ”Linux 支 持 的 二 进 制 格式 











































































































































































































































































































名 称 含 义 
flat_format 平坦 格式 用 于 没有 内 存 管理 单元 (MMU) 的 嵌入 式 CPU 上 。 为 节省 空间 ， 可 执行 文件 中 
的 数据 还 可 以 压缩 (如 果 内 核 可 提供 zlib 支 持 》 
script_format 这 是 一 种 伪 格 式 ， 用 于 运行 使 用 ## 机 制 的 脚本 。 检查 文 件 的 第 一 行 ， 内 核 即 知道 使 用 何 种 
解释 器 ， 启 动 适当 的 应 用 程序 即 可 〔 例 如， 如果 是 #! /usr/bin/perl1， 则 启动 Perl) 
misc_format 这 也 是 一 种 伪 格 式 ， 用 于 启动 需要 外 部 解释 器 的 应 用 程序 。 与 如 机 制 相 比 ， 解 释 器 无 须 显 
式 指定 ， 而 可 以 通过 特定 的 文件 标识 符 〈 后 缀 、 文 件 头 ， 等 等 ) 确定 。 例 如 ， 该 格式 用 于 执 
行 Java 字 节 代 码 或 用 wine 运 行 Windows 程 序 
elf_format 这 是 一 种 与 计算 机 和 体系 结构 无 关 的 格式 ， 可 用 于 32 位 和 64 位 。 它 是 Linux 的 标准 格式 
elf_fdpic_format ELF 格 式 变 体 ， 提 供 了 针对 没有 MMU 系 统 的 特别 特性 
irix_format ELF 格 式 变 体 ， 提 供 了 特定 于 Irix 的 特性 
som_ format 在 PA-Risc 计 算 机 上 使 用 ， 特 定 于 HP-UX 的 格式 
aout_format a.out 是 引入 ELF 之 前 Linux 的 标准 格式 。 因 为 它 太 不 灵活 ， 所 以 现在 很 少 使 用 
2. 解释 二 进 制 格式 
在 Linux 内 核 中 ， 每 种 二 进 制 格式 都 表示 为 下 列 数 据 结构 〈 已 经 简化 过 ) 的 一 个 实例 ; 
<binfmts.h> 
struct linux binfmt { 


每 种 二 进 














(1) lo0ad_ binary 
(2) 10agd_shlib 用 于 


struct linux binfmt * next; 
struct module *module; 


int (*load binary) (struct linux binprm *, struct pt_regs * regs); 
int (*load_ shlib) (struct file *); 
int (*core dump) (long signr, struct pt_regs * regs, struct file * file); 


unsigned long min coredump; /* minimal dump size */ 





















































制 格式 必须 提供 下 面 3 个 函数 。 
] 于 加 载 普通 程序 。 
于 加 载 0 0 0D ， 即 动态 库 。 
(3) core_qump 用 于 在 程序 错误 的 情况 下 输出 内 存 转 储 。 该 转 储 随后 可 使 用 调试 器 (例如 ，gqgb) 


分 析 ， 以 便 解决 问题 。 
个 内 存 页 的 长 度 )。 

















E 成 内 存 转 储 时 ， 内 存 转 储 文人 





FE 长度 的 下 界 (通常 ， 这 是 一 


min_coredump 是 要 

















的 是 向 一 个 链表 增加 一 














每 种 二 进 











制 格式 首先 必须 使 用 register_pinfmt 问 内 核 注 册 。 该 函数 的 
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种 新 的 二 进 制 格式 ， 该 链表 的 表 头 是 fs/exec.c 中 的 全 局 变量 formats。1linux_binfmt 实 例 通过 其 
next 成 员 彼此 连接 起 来 。 
2.4.4 退出 进程 

进程 必须 用 exit 系 统 调用 终止 。 这 使 得 内 核 有 机 会 将 该 进程 使 用 的 资源 释放 回 系统 。” 该 调用 的 









































GD 程序 员 可 以 显 式 调用 


村 定语 言 






































使 用 的 main 函 数 ) 末 





exit。 但 编译 器 会 在 main 函数 〈 或 动 添加 相应 的 调用 。 











所 上 上 
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入 口 点 是 sys_exit 函 数 ， 需 要 一 个 错误 码 作 为 其 参数 ， 以 便 退 出 进程 。 其 定义 是 体系 结构 无 关 的 ， 见 
kernel/exit.c。 我 们 对 其 实现 没什么 兴趣 ， 因 为 它 很 快 将 工作 委托 给 do_exit。 

简 而 言 之 , 该 函数 的 实现 就 是 将 各 个 引用 计数 器 减 1， 如 果 引 用 计数 器 归 0 而 没有 进程 再 使 用 对 应 
的 结构 ， 那 么 将 相应 的 内 存 区 域 返 还 给 内 存 管理 模块 。 
2.5 调度 器 的 实现 

内 存 中 保存 了 对 每 个 进程 的 唯一 描述 ， 并 通过 若干 结构 与 其 他 进程 连接 起 来 。 调 度 器 面 对 的 情形 


就 是 这 样 ， 其 任务 是 在 程序 之 间 共 享 CPU 时 间 ， 创 造 并 行 执行 的 错觉 。 正 如 以 上 的 讨论 ， 该 任务 分 为 
两 个 不 同 部 分 : 一 个 涉及 调度 策略 ， 另 一 个 涉及 上 下 文 切换 。 
2.5.1 概观 

内 核 必 须 提 供 一 种 方法 ， 在 各 个 进程 之 间 尽 可 能 公平 地 共享 CPU 时 间 ， 而 同时 又 要 考虑 不 同 的 任 
务 优先 级 。 完 成 该 目的 有 许多 方法 ， 各 有 其 利弊 ， 我 们 无 须 在 此 讨论 〈 对 可 能 方法 的 概述 ， 请 参见 
[Tan07])。 我 们 主要 关注 Linux 内 核 采 用 的 解决 方案 。 

schedule 函 数 是 理解 调度 操作 的 起 点 。 该 函数 定义 在 kernel/sched.c 中 ， 是 内 核 代 人 码 中 最 常 调 
用 的 函数 之 一 。 调 度 器 的 实现 受 若干 因素 的 影响 而 稍 显 模 糊 。 
口 在 多 处 理 器 系统 上 ， 必 须要 注意 几 个 细节 (有 一 些 非常 微妙 )， 以 避免 调度 器 自 相 干扰 。 
口 不 仅 实现 了 0 DODD ， 还 实现 了 Posix 标 准 需要 的 其 他 两 种 软 实时 策略 。 
口 使 用 goto 以 生成 最 优 的 汇编 语言 代码 。 这 些 语句 在 C 代 码 中 来 回 地 跳 转 , 与 结构 化 程序 设计 的 
所 有 原理 背道而驰 。 但 如 果 小 心 翼 辟 地 使 用 它 ， 该 特性 就 D] 口 发 挥 作用 (调度 器 就 是 一 个 例 
本 

下 面 我 暂时 忽略 实时 进程 ， 上 只 考虑 完全 公平 调度 器 〈 稍 后 再 考虑 实时 进程 )。Linux 调 度 器 的 一 个 
杰出 特性 是 ， 它 不 需要 时 间 片 概念 ， 至 少 不 需 要 传统 的 时 间 片 。 经 典 的 调度 器 对 系统 中 的 进程 分 别 计 
算 时 间 片 ， 使 进程 运行 直至 时 间 片 用 尽 。 在 所 有 进程 的 所 有 时 间 片 都 已 经 用 尽 时 ， 则 需要 重新 计算 。 
相 比 之 下 ， 当 前 的 调度 器 只 考虑 进程 的 等 待 时 间 ， 即 进程 在 就 绪 队 列 (run-queue) 中 已 经 等 待 了 多 长 
时 间 。 对 CPU 时 间 需 求 最 严格 的 进程 被 调度 执行 。 

调度 器 的 一 般 原 理 是 ， 按 所 能 分 配 的 计算 能 力 ， 癌 系统 中 的 每 个 进程 提供 最 大 的 公正 性 。 或 者 从 
男 一 个 角度 来 说 ， 它 试图 确保 没有 进程 被 亏 待 。 这 听 起 来 不 错 ， 但 就 CPU 时 间 而 论 , 0 0 DOD 意味 着 
什么 呢 ? 考 虑 一 台 理 想 计 算 机 ， 可 以 并 行 运行 任意 数目 的 进程 。 如 果 系 统 上 有 NN 个 进程 ， 那 么 每 个 进 
程 得 到 总 计算 能 力 的 JN， 所 有 的 进程 在 物理 上 真实 地 并 行 执行 。 假 如 一 个 进程 需要 10 分 钟 完成 其 工 
作 。 如 果 5 个 这 样 的 进程 在 理想 CPU 上 同时 运行 ,每 个 会 得 到 计算 能 力 的 20%， 这 意味 着 每 个 进程 需要 
运行 50 分 钟 ， 而 不 是 10 分 钟 。 但 所 有 的 5 个 进程 都 会 刚好 在 该 时 间 有 段 之 后 结束 其 工作 ， 没 有 哪个 进程 
在 此 段 时 间 内 处 于 不 活动 状态 ! 
在 真正 的 硬件 上 这 显然 是 无 法 实现 的 。 如 果 系 统 只 有 一 个 CPU， 至 多 可 以 同时 运行 一 个 进程 。 只 
能 通过 在 各 个 进程 之 间 高 频率 来 回 切 换 , 来 实现 多 任务 。 对 用 户 来 说 ,由 于 其 思维 比 转换 频率 慢 得 多 ， 
切换 造成 了 并 行 执行 的 错觉 ， 但 实际 上 不 存在 并 行 执行 。 虽 然 多 CPU 系 统 能 改善 这 种 情况 并 完美 地 并 
行 执行 少量 进程 ， 但 情况 总 是 CPU 数 目 比 要 运行 的 进程 数目 少 ， 这 样 上 述 问题 又 出 现 了 。 

如 果 通 过 轮流 运行 各 个 进程 来 模拟 多 任务 ,那么 当前 运行 的 进程 ， 其 待遇 显然 好 于 哪些 等 待 调度 
器 选择 的 进程 ， 即 等 待 的 进程 受到 了 不 公平 的 对 待 。 不 公平 的 程度 正比 于 等 待 时 间 。 

每 次 调用 调度 器 时 ， 它 会 挑选 具有 最 高 等 待 时 间 的 进程 ， 把 CPU 提 供给 该 进程 。 如 果 经 常 发 生 这 
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种 情况 ， 那 么 进程 的 不 公平 待遇 不 会 累积 ， 不 公平 会 均匀 分 布 到 系 
图 2-12 说 明了 调度 器 如 何 记录 哪个 进程 已 经 等 待 了 多 长 时 间 。 
称 之 为 0DDUD 。 























P 的 所 有 进程 。 
1 于 可 运行 进程 是 排队 的 ， 该 结 术 
































人 








He 














调度 器 通过 将 进程 在 红 号 
所 有 的 可 运行 进程 都 按时 间 在 一 个 红 黑 树 
进程 是 最 左 侧 的 项 ， 调 度 器 下 一 次 会 考虑 该 进程 。 
如 果 读 者 不 熟悉 红 且 















































树 ， 知 道 以 下 这 些 也 足够 了 。 该 数据 结构 对 月 








该 树 管理 的 进 




















标准 数据 结构 
以 找到 。 








速度 依赖 于 当 








， 附 录 C 提 供 了 更 多 有 关 的 信息 。 此 外 ， 红 黑 树 











排序 ， 跟 踪 进 程 的 等 待 时 间 
| 间 即 其 等 竺 时间。 等 待 CPU 时 间 最 长 的 
等 待 时 间 稍 短 的 进程 在 该 树 上 从 左 至 右 排 序 。 

包含 的 项 提供 了 高 效 的 管理 ， 











Ff 入 、 删 除 操作 需要 的 时 间 只 会 适度 地 增加 。" 红 黑 树 是 内 核 的 
的 内 容 在 每 一 本 数据 结构 教科 书 中 都 可 

















除了 红 黑 树 外 ， 就 绪 队 列 还 装备 了 0 口 时 钟 。 该 时 钟 的 


待 调度 器 挑选 的 进程 的 数 


时 间 流 逝 速度 慢 了 
目 。 假 定 该 队列 上 有 4 个 进程 ， 那 么 虚拟 时 钟 将 以 实际 时 











钟 四 分 之 一 的 速度 运行 。: 
少 CPU 时 间 的 基准 。 在 六 
使 CPU 被 实际 占 月 

身 定 就 绪 队 列 的 虚拟 时 
红 黑 树 上 的 进程 ， 内 核 使 用 
下 进程 将 会 得 到 的 CPU 时 间 的 度 

在 进程 允许 运行 时 ，; 
























































以 完全 公平 的 方式 分 享 计算 能 力 ， 那 么 该 时 钟 是 判断 等 待 进程 将 获得 多 


FF 实际 的 时 钟 ， 精 确 的 























际 的 20 秒 ， 相 当 于 虚拟 时 间 5 秒 。4 个 进程 分 别 执行 5 秒 ， 即 可 























fair_clock 给 日 


























fair Clock - wait runtime。 fair cl 


























而 wait_runtime 














各 从 wait_runtime 减 去 它 已 经 运行 的 时 间 。 这 样 


























会 向 右 移动 到 某 一 点 ， 另 
的 虚拟 时 钟 会 增加 。 
在 实际 的 CPU 上 执行 花费 的 上 





falir_c1Lock 
是 推演 























上 ， 而 进程 的 等 待 时 间 保 存在 wait_runtime。 为 排序 
Lock 是 完全 公平 调度 的 情况 
旦 了 实际 系统 的 不 足 造 成 的 不 公平 。 
在 按时 间 排 序 的 树 中 它 


























个 进程 将 成 为 最 左边 ， 下 一 次 会 被 调度 器 选择 。 




















这 实际 上 意味 着 ， 进 程 在 完全 公平 的 系统 
| 弱 不 公平 状况 的 过 程 : 














对 间 。 这 减缓 了 肖 








价 于 降低 进程 受到 的 不 公 






































实际 上 属于 处 了 
待 了 20 秒 。 现 在 它 允 许 运 

















晶 请 注意 ， 在 进程 运行 时 
Pp 接 收 的 CPU 时 间 份 额 ， 





减少 wait_runtime 等 


降低 不 公平 性 的 一 部 分 时 间 ， 














再 次 假定 就 绪 队 列 上 有 4 个 进程 











个 进程 实际 上 已 经 等 

















>: 此 后 的 wait_runtime 是 10， 但 














@ 确切 地 说 ， 时 间 复 杂 度 是 O(log n)，n 是 树 中 结 点 的 数 
其 运行 时 间 与 需 3 


















































无 关 。 但 除非 大 量 ; 



































成 的 性 能 下 降 是 可 以 忽略 的 。 
@) 请 注意 ， 内 核 2.6.23 的 调度 



































于 该 进程 无 论 如 何 都 会 得 到 该 时 


的 性 能 要 差 ， 后 者 以 O(D) 调 度 器 著称 ， 即 
程 同 时 处 于 可 运行 状态 ， 否 则 新 调度 器 的 对 数 级 时 间 造 














对 间 的 计算 稍 有 不 同 。 由 于 用 虚拟 



































叶 钟 来 说 明 易 了 








论调 度 器 实现 时 ， 我 将 ; 























述 如 何 模拟 虚拟 时 钟 。 
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间 段 中 的 10/4 = 2 秒 ， 因 此 实际 上 只 有 8 秒 对 该 进程 在 就 绪 队 列 中 的 新 位 置 起 了 作用 。 
遗憾 的 是 ， 该 策略 受 若 干 现 实 问题 的 影响 ， 已 经 变 得 复杂 了 。 
口 进程 的 不 同 优先 级 〈 即 ，nice 值 ) 必须 考虑 ， 更 重要 的 进程 必须 比 次 要 进程 更 多 的 CPU 时 间 
份额 。 
口 进程 不 能 切换 得 太 频 繁 ， 因 为 上 下 文 切 换 ， 即 从 一 个 进程 改变 到 另 一 个 ， 是 有 一 定 开 销 的 。 
在 切换 发 生得 太 频 繁 时 ， 过 多 时 间 花 费 在 进程 切换 的 过 程 中 ， 而 不 是 用 于 实际 的 工作 。 Ci 
另 一 方面 ， 两 次 相 邻 的 任务 切换 之 间 ， 时 间 也 不 能 太 长 ， 否 则 会 累积 比较 大 的 不 公平 值 。 对 
多 媒体 系统 来 说 ， 进 程 运行 太 长 时 间 也 会 导致 延迟 增 大 。 
在 下 面 的 讨论 中 ， 我 们 会 看 到 调度 器 解决 这 些 问题 的 方案 。 
理解 调度 决策 的 一 个 好 方法 是 , 在 编译 时 激活 调度 器 统计 。 这 会 在 运行 时 生成 文件 /proc/sched_ 
debug， 其 中 包含 了 调度 器 当前 状态 所 有 方面 的 信息 。 
最 后 要 注意 ，Documentation/ 目 录 下 包含 了 一 些 文件 ， 涉 及 调度 器 的 各 个 方面 。 但 切记 ， 其 中 
一 些 仍然 讲述 的 是 旧 的 O(1) 调 度 器 ， 已 经 过 时 了 ! 
2.5.2 数据 结构 


调度 器 使 用 一 系列 数据 结构 ,来 排序 和 管理 系统 中 的 进程 。 调 度 器 的 工作 方式 与 这 些 结构 的 设计 






























































































































































































































































密切 相关 。 几 个 组 件 在 许多 方面 彼此 交互 ， 图 2-13 概 述 了 这 些 组 件 的 关联 。 
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LAO 


图 2-13 ”调度 子 系统 各 组 件 概观 


可 以 用 两 种 方法 激活 调度 。 一 种 是 直接 的 ， 比 如 进程 打算 睡眠 或 出 于 其 他 原因 放弃 CPU; 另 一 种 
是 通过 周期 性 机 制 ， 以 固定 的 频率 运行 ， 不 时 检测 是 否 有 必要 进行 进程 切换 。 在 下 文中 我 将 这 两 个 组 
件 称 为 0 DUODDD (generic scheduler) 或 0 口 口 吕 《core scheduler)。 本 质 上 ,通用 调度 器 是 一 个 分 
配器 ， 与 其 他 两 个 组 件 交 互 。 

(0DD 用 于 判断 接 下 来 运行 哪个 进程 。 内 核 支 持 不 同 的 调度 策略 《完全 公平 调度 、 实 时 调度 、 
在 无 事 可 做 时 调度 空闲 进程 )， 调 度 类 使 得 能 够 以 模块 化 方法 实现 这 些 策 略 ， 即 一 个 类 的 代码 不 需要 
与 其 他 类 的 代码 交互 。 
在 调度 器 被 调用 时 ， 它 会 查询 调度 器 类 ， 得 知 接 下 来 运行 哪个 进程 。 

(2) 在 选中 将 要 运行 的 进程 之 后 ， 必 须 执 行 底层 0 0 D D 。 这 需要 与 CPU 的 紧密 交互 。 

每 个 进程 都 刚好 属于 某 一 调度 类 ， 各 个 调度 类 负责 管理 所 属 的 进程 。 通 用 调度 器 自身 完全 不 涉及 
进程 管理 ， 其 工作 都 委托 给 调度 器 类 。 

1. task_struct 的 成 员 


各 进程 的 task_struct 有 几 个 成 员 与 调度 相关 。 
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U20 00000050 





<sched.h> 
struct task_struct { 


} 
口 并 





static_ priot 


条 














T 认 > 


和 
需要 





此 





口 sched 





口 调度 器 


个 优先 级 彼此 的 
口 rt_priority 表 
0， 而 最 高 的 优先 
_class 表 


int prio, s 
unsigned in 


strEWEt TiSt 
const struc 


tatic prio, n 


_head run lis 


t sched class 


struct sched_entity se; 


unsigned in 


t policy; 


cpumask_t cpus_allowed; 


unsigned in 


F 非 系统 上 的 所 有 进程 都 同样 
尽 可 能 快速 完成 。 为 确定 特定 进程 的 寻 
但 task_struct 采 用 了 3 个 成 员 来 表示 进程 








t time_slice; 





旺 











ormal_prio; 


E TE BELOFLEYS 


七 
*sched_class; 


重要 。 不 那么 紧急 的 进程 不 需要 太 多 关注 ， 而 重要 的 工作 应 该 





我 们 给 进程 增加 了 相对 优先 级 属性 。 








重要 性 》 











normal_priority 表 示 基 
程 和 实时 进程 具有 相同 的 静态 优 
日 调度 器 考虑 的 








人 


名 


苇 





本 


本 


长 示 进 程 
Hschedq_setscheduler 系 统 调 


3 个 成 员 来 表示 。 
依赖 关系 稍 
示 实 时 进程 
级 是 99。 
示 该 进程 所 


的 萌 





用 
于 进程 























L7 


ti 先 级 则 保存 在 prio。 由 了 


争 态 优 先 级 。 
修改 ， 
的 静态 优先 级 和 调度 策 
先 级 ， 其 普通 





的 优先 级 : prio 和 normal_prio 表 示 动 态 优先 级 ， 
DO00D0 是 进程 启动 时 分 配 的 优先 级 。 它 可 以 
否则 在 进程 运行 期 间 会 一 直 保持 恒定 。 

竹 计 算出 的 优先 级 。 因 此 , 即使 
i 先 级 也 是 不 同 的 。 进 程 分 支 时 ， 子 进程 会 

















0 





和 nice 












































普通 进 
继承 














亿 


























在 茶 些 情况 下 内 核 需 要 暂时 提高 进程 的 优先 级 ， 基 























1 于 这 些 





8 改变 不 是 持久 的 ， 因 此 静态 和 普通 优先 级 不 受 影 响 。 这 3 








微 有 一 
的 
值 越 大 ， 

属 的 调 


[E: 









































点 微妙 ， 
尤 先 级 。 该 企 


度 器 类 。 








我 会 在 下 文 详 细 讲 述 。 
不 会 代替 先前 讨论 的 那些 人 
表明 优先 级 越 高 。 这 ! 



































! 最 低 的 实时 优先 级 为 
不 同 于 nice 值 。 









































当 里 使 用 的 惯例 























不 限于 调 


度 进程 ， 





还 可 以 处 











可 以 首 

















间 在 组 


























EJ 





先 在 一 般 上 
内 再 次 分 硬 





Ls 





的 进程 引 


性 要 求 调度 器 不 直接 操 


有 《例如 ， 








I 表示 。 
的 情况 下 ， 





调度 的 实体 ， 在 jj 





中 内 嵌 了 


指 针 ? 因 
口 policy 保 存 了 对 


加 SCH. 
SCHI 











为 该 实 


一 个 scheqd_. 
本 嵌入 在 














调度 在 各 个 








entity 实 例 ， 





该 进程 











D_NORMA1 
D_BRAT 
D_BRAT 











CH 

















: 它 1 




















该 调度 类 。 


Paul 





L 用 于 辫 
CH 和 SCHED _ 工 
书 于 非 交 互 、 


用 的 调度 


























作 进程 ， 而 是 处 到 


进程 上 执行 ， 这 也 是 我 们 最 初 关 沪 
周 度 器 看 来 各 个 进程 必须 也 像 是 这 样 的 实体 。 


task_struct 


我 们 主要 i 











于 实现 0 口 口 : 可 用 的 CPU 时 间 
有 进程 可 以 按 所 有 者 分 组 ) 之 间 分 配 ， 接 下 来 分 配 的 时 











E 更 大 的 实体 。 这 可 以 用 
所 





























EDDDOD 。 一 个 实体 由 schedq_entity 的 














主 的 情形 。 由 于 调度 器 设计 为 
凡 此 se 在 task_struct 
调度 器 可 据 此 操作 各 个 task struct (请 注意 se 一 个 
PP ) 。 

策略 。Linux 文 持 5 个 可 能 的 值 。 

述 此 类 进程 。 它 们 通过 完全 公平 调度 器 来 处 理 。 





































































































DLE 


pb 通 














过 完全 公平 调度 器 来 处 理 ， 不 过 可 用 于 次 要 的 进 























CPU 使 用 密级 














集 的 批 处 理 进程 。 调 度 决 策 对 此 类 进程 给 

































































门 决 不 会 抢 
和 nice 降 低 进程 











占 CF 调 度 
的 静态 优 多 














中 处 理 的 另 一 个 进程 ， 因 此 不 会 干扰 交互 式 进程 。 
Es 目 


级 ， 同 时 又 不 希望 该 进程 影响 系统 的 交互 性 
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在 调度 决策 中 scHED_IDLE 进 程 的 重要 性 也 比较 低 ， 因 为 其 相对 权重 总 是 最 小 的 (在 论述 内 

核 如 何 计 算 反 映 进 程 优先 级 的 权重 时 ， 这 一 点 就 很 清楚 了 )。 

要 注意 ， 尽 管 名 称 是 scHED_IDLE， 但 ScHED_IDLE[] 日 吕 调度 空 亲 进程。 空闲 进 程 由 内 核 提 

供 单独 的 机 制 来 处 理 。 

晶 SCHED_RR 利 SCHED_FIFO 用 于 实现 软 实时 进程 。scHED_RR 实 现 了 一 种 循环 方法 ， 而 SCHED_ 
FIFO 则 使 用 先进 先 出 机 制 。 这些 不 是 由 完全 公平 调度 器 类 人 处理， 而 是 由 实时 调度 器 类 处 理 ， 
2.7 节 会 详细 论述 。 
辅助 函数 rt_policy 用 于 判断 给 出 的 调度 策略 是 否 属于 实时 类 (scHED_RR 和 SCHED_FIFO)。 
task_has_rt_policy 用 于 对 给 定 进程 判断 该 性 质 。 


kernel/sched.c 
static inline int rt policy(int policy) 
static inline int task has_ rt policy(struct task_ struct *p) 


口 cpus_allowed 是 一 个 位 域 , 在 多 处 理 器 系统 上 使 用 , 用 来 限制 进程 可 以 在 哪些 CPU 上 运行 。” 
D run_1list 和 time_slice 是 循环 实时 调度 器 所 需要 的 ， 但 不 用 于 完全 公平 调度 器 。run_list 
是 一 个 表 头 ， 用 于 维护 包含 各 进程 的 一 个 运行 表 ， 而 time_slice 则 指定 进程 可 使 用 CPU 的 剩 
余 时 间 段 。 
前 文 讨论 的 TIF_NEED_RESCHED 标 志 ， 对 调度 器 而 言 ， 和 task_struct 中 上 述 与 调度 相关 的 成 员 
同样 重要 。 如 果 对 活动 进程 设置 该 标志 ， 调 度 器 即 知道 CPU 将 从 该 进程 收回 并 授予 新 进程 ， 这 可 能 是 
愿 的 ， 也 可 能 是 强制 的 。 
2. 调度 器 类 
调度 器 类 提供 了 通用 调度 器 和 各 个 调度 方法 之 间 的 关联 。 调度 器 类 由 特定 数据 结构 中 汇集 的 儿 个 
函数 指针 表示 。 全 局 调度 器 请 求 的 各 个 操作 都 可 以 由 一 个 指针 表示 。 这 使 得 无 需 了 解 不 同调 度 器 类 的 
内 部 工作 原理 ， 即 可 创建 通用 调度 器 。 
除去 针对 多 处 理 器 系统 的 扩展 (我 在 后 文 再 考虑 这 些 )， 该 结构 如 下 所 示 : 
<sched.h> 


struct sched class { 
const struct sched class *next; 
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下 



















































































































































































void (*enqueue task) (struct rq *rq, struct task_ struct *p, int wakeup); 
void (*dequeue task) (struct rq *rq, struct task_ struct *p, int sleep); 
void (*yield task) (struct rq *rq); 


void (*check preempt_ curr) (struct rq *rqgq, struct task_ struct *p); 


struct task_ struct * (*pick next_ task) (struct rq *rq); 

void (*put prev_ task) (struct rq *rq, struct task_ struct *p); 
void (*set_curr task) (struct rq *rq); 

void (*task tick) (struct rq *rq, struct task struct *p); 
void (*task new) (struct rq *rq, struct task_ struct *p); 

外 


对 各 个 调度 类 ， 都 必须 提供 struct sched_class 的 一 个 实例 。 调 度 类 之 间 的 层次 结构 是 平坦 的 : 
实时 进程 最 重要 ， 在 完全 公平 进程 之 前 处 理 ， 而 完全 公平 进程 则 优先 于 空闲 进程 ;空闲 进程 只 有 CPU 































































































Q@ 可 使 用 scheqd_setaffinity 系 统 调 用 设置 该 位 图 。 
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无 事 可 做 时 才 处 于 活动 状态 。next 成 员 将 不 同调 度 类 的 sched_class 实 例 ， 按 上 述 顺序 连接 起 来 。 要 
注意 这 个 层次 结构 在 编译 时 已 经 建立 : 没有 在 运行 时 动态 增加 新 调度 器 类 的 机 制 。 
下 面 是 各 个 调度 类 可 以 提供 的 操作 。 
口 enqueue_task 疝 就 绪 队 列 添加 一 个 新 进程 。 在 进程 从 睡 
操作 。 
D dequeue_task 提 供 逆 向 操作 ， 将 一 个 进程 从 就 绪 队 列 去 除 。 事实 上 ， 在 进程 从 可 运行 状态 切 
换 到 不 可 运行 状态 时 ， 就 会 发 生 该 操作 。 内 核 有 可 能 因为 其 他 理由 将 进程 从 就 绪 队 列 去 除 ， 
比如 ， 进 程 的 优先 级 可 能 需要 改变 。 
尽管 使 用 了 术语 0 DDD run queue )， 各 个 调度 类 无 须 用 简单 的 队列 来 表示 其 进程 。 实际 上 ， 
回想 上 文 ， 可 知 完全 公平 调度 占 对 此 使 用 了 红 黑 树 。 
口 在 进程 想 要 自愿 放弃 对 处 理 器 的 控制 权时 ， 可 使 用 sched_yield 系 统 调 用 。 这 导致 内 核 调用 
yield task。 
口 在 必要 的 情况 下 , 会 调用 check_preempt_curr, 用 一 个 新 唤醒 的 进程 来 抢占 当前 进程 。 例 如 ， 
在 用 wake_up_new_task 唤 醒 新 进程 时 ， 会 调用 该 函数 。 
口 bick_next_task 用 于 选择 下 一 个 将 要 运行 的 进程 ， 而 put_prev_task 则 在 用 另 一 个 进程 代替 
当前 运行 的 进程 之 前 调用 。 要 注意 ， 这 些 操作 并 0 DDD 将 进程 加 入 或 撤 出 就 绪 队 列 的 操作 ， 
如 enqueue_task 和 dequeue_task。 相 反 ， 它 们 负责 问 进 程 提 供 或 撤销 CPU。 但 在 不 同 进程 之 
司 切 换 ， 仍 然 需要 执行 一 个 底层 的 上 下 文 切换 。 
口 在 进程 的 调度 策略 发 生变 化 时 ， 需 要 调用 set_curr_task。 还 有 其 他 一 些 场合 也 调用 该 函数 ， 
但 与 我 们 的 目的 无 关 。 
口 task_tick 在 每 次 激活 周期 性 调度 器 时 ， 由 周期 性 调度 器 调用 。 
口 new_task 用 于 建立 fork 系 统 调用 和 调度 器 之 间 的 关联 。 每 次 新 进程 建立 后 ， 则 用 new_task 
通知 调度 器 。 
标准 函数 activate_task 和 deactivate_task 调 用 前 述 的 函数 , 提供 进程 在 就 绪 队 列 的 入 队 和 离 
队 功 能 。 此 外 ， 它 们 还 更 新 内 核 的 统计 数据 。 


kernel/sched.c 
static void enqueue task(struct rq *rq, struct task_ struct *p, int wakeup) 
static void dequeue task(struct rq *rqg, struct task_ struct *p, int sleep) 


在 进程 注册 到 就 绪 队 列 时 ， 杠 入 的 scheq_entity 实 例 的 on_rq 成 员 设 置 为 1!， 耕 则 为 0。 
此 外 ， 内 核定 义 了 便捷 方法 check_preempt_curr， 调 用 与 给 定 进 程 相关 的 调度 类 的 check_ 


preempt_curr 方 法 : 
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眠 状态 变 为 可 运行 状态 时 ， 即 发 生 该 































































































































































































































































































































































































































































































kernel/sched.c 
static inline void check preempt _ curr(struct rqg *rqgq, struct task_ struct *p) 


户 层 应 用 程序 无 法 直接 与 调度 类 交互 。 它 们 只 知道 上 文 定义 的 常量 scHED_xyz。 在 这 些 常 量 和 
可 用 的 调度 类 之 间 提 供 适 当 的 映射 ， 这 是 内 核 的 工作 。 SCHED_NORMAL、SCHED_BATCH 和 SCHED_IDLE 
映射 到 fair_sched_class, 而 SCHED_RR 利 SCHED_FIFO 与 rt_sched_class 关 联 。 fair_sched class 
和 rt_scheq_class 都 是 struct scheq_class 的 实例 ， 分 别 表示 完全 公平 调度 器 和 实时 调度 器 。 当 我 
详细 论述 相应 的 调度 器 类 时 ， 会 给 出 相关 实例 的 内 容 。 










































































































































































3. 就 绪 队列 
核心 调度 器 用 于 管理 活动 进程 的 主要 数据 结构 称 之 为 0 口 口 口 。 各 个 CPU 都 有 自身 的 就 绪 队 列 ， 
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各 个 活动 进程 上 只 出 现在 一 个 就 绪 队 列 中 。 在 多 个 CPU 上 同时 运行 一 个 进程 是 不 可 能 的 。 

i 绪 队 列 是 全 局 调度 器 许多 操作 的 起 点 。 但 要 注意 ， 进 程 并 不 是 由 就 绪 队 列 的 成 员 直 接管 理 的 ! 
这 是 各 个 调度 器 类 的 职责 ， 因 此 在 各 个 就 绪 队 列 中 嵌入 了 特定 于 调度 器 类 的 子 就 绪 队 列 。” 
i 绪 队列 是 使 用 下 列 数据 结构 实现 的 。 为 简明 起 见 ， 我 省 去 了 几 个 用 于 统计 、 不 直接 影响 就 绪 队 
列 工作 的 成 员 ， 以 及 在 多 处 理 器 系统 上 所 需要 的 成 员 。 


kernel/sched.c 
struct rg { 
unsigned long nr_running; 
#define CPU_LOAD IDX MAX 5 
unsigned long cpu_load[CPU_ LOAD IDX MAX]; 
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struct load weight load; 


Struct cfs ra cfas 
如 入 EE 下 在 节 


struct task_ struct *curr, *idle; 
U64 clock; 








口 nr_running 指 定 了 队列 上 可 运行 进程 的 数目 ， 不 考虑 其 优先 级 或 调度 类 。 

口 1oad 提 供 了 就 绪 队 列 当 前 负荷 的 度量 。 队 列 的 负荷 本 质 上 与 队列 上 当前 活动 进程 的 数目 成 正 
比 ， 其 中 的 各 个 进程 又 有 优先 级 作为 权重 。 每 个 就 绪 队 列 的 虚拟 时 钟 的 速度 即 基 于 该 信息 。 
Rs 的 计算 是 调度 算法 的 一 个 重要 部 分 ， 下 文 的 2.5.3 节 会 详细 讨论 涉及 










































































ee 于 跟踪 此 前 的 负荷 状态 。 
cfs 和 rt 是 散 入 的 子 就 绪 队 列 ， 分 别 用 于 完全 公平 调度 器 和 实时 调度 器 
指 问 当前 运行 的 进程 的 task_struct 实 例 。 
idle 指 向 idle 进 程 的 task_struct 实 例 ， 该 进程 亦 称 为 idle 线 程 ， 在 无 其 他 可 运行 进程 时 执行 。 
clock 和 Pprev_raw_clock 用 于 实现 就 绪 队 列 自身 的 时 钟 。 每 次 调用 周期 性 调度 器 时 ， 都 会 更 
新 clock 的 值 。 另外 内 核 还 提供 了 标准 函数 update_rq_clock， 可 在 操作 就 绪 队 列 的 调度 器 中 
多 处 调用 ， 例 如 ， 在 用 wakeup_new_task 唤 醒 新 进程 时 。 
系统 的 所 有 就 绪 队 列 都 在 runqueues 数 组 中 ， 该 数组 的 每 个 元 素 分 别 对 应 于 系统 中 的 一 个 CPU。 
在 单 处 理 器 系统 中 ， 由 于 只 需要 一 个 就 绪 队 列 ， 数 组 只 有 一 个 元 素 。 


kernel/sched.c 
static DEFINE_ PER_ CPU_SHARED ALIGNED(struct rq, runqueues); 


内 核 也 定义 了 一 些 便 利 的 宏 ， 其 含义 很 明显 。 


kernel/sched.c 
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#define cpu_rq(cpu) (&per_cpul(runqueues, (cpu)) 
#define this_rql() (&_ get cpu var (uncueues ) ) 
#define task_ rql(p) cpu_rql(task_cpu (p)) 
#define cpu_curr (cpu) (cpu_rq(cpu)->curr) 


























G 但 发 源 于 同一 进程 的 各 线程 可 以 在 不 同 处 理 器 上 执行 ， 因 为 进程 管理 对 进程 和 线程 不 作 重 要 的 区 分 。 
@ 对 于 熟悉 内 核 早 期 版 本 的 读者 来 说 ， 了 解 调度 器 类 和 就 绪 队 列 代替 了 先前 的 O(D) 调 度 器 使 用 的 活动 和 到 期 进程 列 
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4. 调度 实体 

































































于 调度 器 可 以 操作 比 进程 更 一 般 的 实体 ， 因 此 需要 一 个 适当 的 数据 结构 来 描述 此 类 实体 。 其 定 
义 如 下 : 

<sched.h> 

struct sched entity { 
struct load weight load; /* 用 于 负载 均衡 */ 
struct rb_node run node; 
unsigned int on rq; 
u64 exec_start; 
u64 sum exec_runtime; 
u64 vruntime; 
u64 prev_sum exec_ runtime; 

} 




















如 果 编 译 内 核 时 启用 了 调度 器 统计 , 那么 该 结构 会 包含 很 多 用 于 统计 的 成 员 。 如 果 启 用 了 组 调度 ， 
那么 还 会 增加 一 些 成 员 。 但 我 们 目前 感 兴趣 的 内 容 主 要 是 上 面 列 出 的 几 项 。 各 个 成 员 的 含义 如 下 。 
口 1oaq 指 定 了 权重 ， 决 定 了 各 个 实体 占 队列 总 负荷 的 比例 。 计 算 负 和 荷 权 重 是 调度 器 的 一 项 重任 ， 
因为 CFS 所 需 的 虚拟 时 钟 的 速度 最 终 依赖 于 负荷 ， 因 此 我 会 在 2.5.3 节 详细 讨论 该 方法 。 
口 run_node 是 标准 的 树 结 点 ， 使 得 实体 可 以 在 红 黑 树 上 排序 。 
口 on_rq 表 示 该 实体 当前 是 否 在 就 绪 队 列 上 接受 调度 。 
口 在 进程 运行 时 ， 我 们 需要 记录 消耗 的 CPU 时 间 ， 以 用 于 完全 公平 调度 器 。sum_exec_runtime 
即 用 于 该 目的 。 跟踪 运行 时 间 是 由 update_curr 不 断 累 积 完成 的 。 调度 器 中 许多 地 方 都 会 调用 
该 函数 ， 例 如 ， 新 进程 加 入 就 绪 队 列 时 ， 或 者 周期 性 调度 器 中 。 每 次 调用 时 ， 会 计算 当前 时 
间 和 exec_start 之 间 的 差 值 ，exec_start 则 更 新 到 当前 时 间 。 差 值 则 被 加 到 sum_exec_ 



























































































































































runtime。 
在 进程 执行 期 间 虚 拟 时 钟 上 流逝 的 时 间 数 量 由 vruntime 统 计 。 
口 在 进程 被 撤销 CPU 时 ， 其 当前 sum_exec_runtime 值 保存 到 prev_exec_runtime。 此 后 ， 在 进 























程 抢占 时 又 需要 该 数据 。 但 请 注意 ， 在 prev_exec_runtime 中 保存 sum_exec_runtime 的 值 
并 0 意味 着 重 置 sum_exec_runtime! 原 值 保 存 下 来 ， 而 sum_exec_runtime 则 持续 单调 增长 。 
1 于 每 个 task_struct 都 嵌入 了 schea_entity 的 一 个 实例 ， 所 以 进程 是 可 调度 实体 。 但 请 注意 ， 
其 逆 命 题 一 般 是 不 正确 的 ， 因 为 可 调度 的 实体 不 见得 一 定 是 进程 。 但 在 下 文中 我 们 上 只 关 注 进 程 调度 ， 
丸 此 我 们 暂时 将 调度 实体 和 进程 视 为 等 同 。 不 过 要 记 住 ， 这 在 一 般 意 义 上 是 不 正确 的 ! 
2.5.3 ”处 理 优先 级 
从 用 户 的 角度 来 看 ， 优 先 级 也 太 简 单 了 。 因 为 ， 他 们 看 来 优先 级 似乎 只 是 某 个 范围 内 的 数字 。 令 
人 遗憾 的 是 ， 内 核 内 部 对 优先 级 的 处 理 并 没有 我 们 想象 中 那么 简单 。 事 实 上 ， 处 理 优先 级 相当 复杂 。 
1. 优先 级 的 内 核 表示 
在 用 户 空间 可 以 通过 nice 命 令 设 置 进程 的 静态 优先 级 ， 这 在 内 部 会 调用 nice 系 统 调用 。" 进程 的 
nice 值 在 -20 和 +19 之 间 (包含 )。 值 越 低 ， 表 明 优 先 级 越 高 。 为 什么 选择 这 个 诡异 的 范围 ， 真 相 已 经 
淹没 在 历史 中 。 
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GO setpriority 是 男 一 个 用 于 设置 进程 优先 级 的 系统 调用 。 它 不 仅 能 够 修改 单个 线程 的 优先 级 ， 还 能 修改 线程 组 中 
所 有 线程 的 优先 级 ， 或 者 通过 指定 UID 来 修改 特定 用 户 的 所 有 进程 的 优先 级 。 





















































25 UUUUUD 75 














内 核 使 用 一 个 简单 些 的 数值 范围 ， 从 0 到 139 (包含 )， 用 来 表示 内 部 优先 级 。 同 样 是 值 越 低 ， 优 
先 级 越 高 。 从 0 到 99 的 范围 专 供 实时 进程 使 用 。nice 值 [-20,+19] 映 射 到 范围 100 到 139， 如 图 2-14 所 示 。 
实时 进程 的 优先 级 总 是 比 普 通 进程 更 高 。 
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高 优先 级 
0 —20 Nice 19 
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0 99 100 139 





图 2-14 ”内 核 优先 级 标 度 


























下 列 宏 用 于 在 各 种 不 同 表示 形式 之 间 转 换 (MAX_RT_PRIO 指 定 实时 进程 的 最 大 优先 级 ， 而 MAX_ 



























































PRIO 则 是 普通 进程 的 最 大 优先 级 数值 ): 
<sched.h> 
define MAX _ USER RT_ PRIO 100 
define MAX RT_ PRIO MAX_USER_RT_PRIO 
define MAX_PRIO (MAX_RT_PRIO + 40) 
define DEFAULT_ PRIO (MAX_RT_PRIO + 20) 
kernel/sched.c 
define NICE_TO_PRIO (nice) (MAX_RT_PRIO + (nice) + 20) 
define PRIO_TO_NICE(Prio) ((prio) -MAX RT_ PRIO -20) 
define TASK_NICE(p) PRIO_TO_NICE( (p)->static prio) 
2. 计算 优先 级 




















回想 一 下 ， 可 知 只 考虑 进程 的 静态 优先 级 是 不 够 的 ， 还 必须 考虑 下 面 3 个 优先 级 。 即 动态 优先 级 
(task_sttruct->prio)、 普 通 优先 级 (task_struct->normal_prio) 和 静态 优先 级 (task_struc 
static_prio)。 这 些 优先 级 按 有 趣 的 方式 彼此 关联 ， 下 文中 我 会 具体 讨论 。 
static_prio 是 计算 的 起 点 。 假 定 它 已 经 设置 好 ， 而 内 核 现在 想 要 计算 其 他 优先 级 。 一 行 代 码 即 可 : 
p->prio = effective prio(p); 

辅助 函数 effective_prio 执 行 了 下 列 操作 : 

kernel/sched.c 

static int effective prio(struct task _ struct *p) 
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{ 
p->normal_prio = normal_priol(p); 
/* 
* 如 果 是 实时 进程 或 已 经 提高 到 实时 优先 级 ， 则 保持 优先 级 不 变 。 否 则 ， 返 回 普 通 优 先 级 : 
xy 


if (!rt prio(p->prio)) 
return p->normal prio; 
return p->prio; 


















































这 里 首先 计算 了 普通 优先 级 ， 并 保存 在 normal_priority。 这 个 副 效应 使 得 能 够 用 一 个 函数 调用 
设置 两 个 优先 级 (prio 和 normal_prio)。 男 一 个 辅助 函数 rt_prio, 会 检测 普通 优先 级 是 否 在 实时 范 
围 中 ， 即 是 否 小 于 RT_RT_PRIO。 请 注意 ， 该 检测 与 调度 类 无 关 ， 它 只 涉及 优先 级 的 数值 。 
现在 假定 我 们 在 处 理 普 通 进程 ， 不 涉及 实时 调度 。 在 这 种 情况 下 ，normal_prio 只 是 返 
先 级 。 结 果 很 简单 : 所 有 3 个 优先 级 都 是 同一 个 值 ， 即 静态 优先 级 ! 

实时 进程 的 情况 有 所 不 同 。 注 意 普通 优先 级 的 计算 方法 : 

kernel/sched.c 

static inline int normal prio(struct task_ struct *p) 
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{ 
int Brio; 
if (task_ has_rt_policy(p)) 
prio = MAX_ RT_ PRIO-1 -p->rt_priority; 
else 
prio = _ normal prio(p); 
return prio; 
} 




















普通 优先 级 需要 根据 普通 进程 和 实时 进程 进行 不 同 的 计算 。_normal_prio 的 计算 只 适用 于 普通 
进程 。 而 实时 进程 的 普通 优先 级 计算 ， 则 需要 根据 其 rt_priority 设 置 。 由 于 更 高 的 rt_priority 什 
表示 更 高 的 实时 优先 级 ， 内 核 内 部 优先 级 的 表示 刚好 相反 ， 越 0 的 值 表示 的 优先 级 越 0 。 因 此 ， 实 时 











































































































进程 在 内 核 内 部 的 优先 级 数值 ， 正 确 的 算法 是 MAX_RT_PRIO - 1 - p->rt_priority。 这 一 次 请 注意 ， 
与 effective_prio 相 比 ， 实 时 进程 的 检测 口 基于 优先 级 数值 ， 而 是 通过 task_struct 中 设置 的 调 


度 策略 来 检测 。 
























































_ normal_priority 做 什么 呢 ? 该 函数 实际 上 很 简单 ， 它 只 是 返回 静态 优先 级 : 


kernel/sched.c 
static inline int _ normal prio(struct task_ struct *p) 


{ 














return p->static prio; 














读者 现在 可 以 很 奇怪 ， 为 什么 对 此 增加 一 个 额外 的 函数 。 这 是 有 历史 原因 的 : 在 原来 的 O(1) 调 度 
器 中 , 普通 优先 级 的 计算 涉及 相当 多 技巧 性 的 工作 。 必须 检测 交互 式 进程 并 提高 其 优先 级 , 而 必须 “ 生 























昼 ” 非 交互 进程 ， 


















































以 便 使 系统 获得 恨 好 的 交互 体验 。 这 需要 大 量 的 启发 式 计 算 ， 它 们 可 能 完成 得 很 好 ， 














也 可 能 不 工作 。 感 谢 新 的 调度 器 ， 已 经 不 再 需要 此 类 魔法 式 计 算 。 
但 还 有 一 个 问题 : 为 什么 内 核 在 effective_prio 中 检测 实时 进程 是 基于 优先 级 数值 , 而 非 task_ 














has_rt_policy? 对 于 临时 提高 至 实时 优先 级 的 非 实 时 进程 来 说 ， 这 是 必要 的 ， 这 种 情况 可 能 发 生 在 





使 用 实时 互 斥 量 





最 后 ， 表 2-3 综 述 了 针对 不 同类 型 进程 上 述 计算 的 结果 。 






































(RT-Mutex) 时 。®? 




















表 2-3 ”对 各 种 类 型 的 进程 计算 优先 级 



































非 实 时 进程 static prio static_ prio static prio 
优先 级 提高 的 非 实 时 进程 static_ prio static _ prio prio 不 变 
实时 进程 static PE MAX_RT PRIO-1-rt priority prio 不 变 





























在 新 建 进程 用 wake_up_new_task 唤 醒 时 ， 或 使 用 nice 系 统 调用 改变 静态 优先 级 时 ， 则 用 上 文 给 









































出 的 方法 设置 p->prio。 



























































请 注意 ， 在 进程 分 文 出 子 进 程 时 ， 子 进程 的 静态 优先 级 继承 自 父 进程 。 子 进程 的 动态 优先 级 ， 即 






































task_struct->prio， 则 设置 为 父 进程 的 普通 优先 级 。 这 确保 了 实时 互 斥 量 引起 的 优先 级 提高 不 会 传 











递 到 子 进 程 。 









































QD 实时 互 斥 量 能 够 保护 内 核 的 一 些 部 分 ， 防 止 多 处 理 器 并 发 访问 。 但 有 一 种 现象 会 发 生 ， 称 作 D 0 DO D Cpriority 
inversion)。 其 中 一 个 低 优先 级 进程 在 执行 ， 而 较 高 优先 级 的 进程 则 在 等 待 CU。 这 可 以 通过 临时 提高 进程 的 优先 
级 解决 。 有 关 该 问题 的 更 多 细节 ， 请 参考 5.2.8 节 的 讨论 。 
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3. 计算 负荷 权重 
进程 的 重要 性 不 仅 是 由 优先 级 指定 的 ， 而 且 还 需要 考虑 保存 在 task_struct->se.1loadq 的 负荷 权 
。set_load_weight 负 责 根 据 进程 类 型 及 其 静态 优先 级 计算 负荷 权重 。 
负荷 权重 包含 在 数据 结构 load_weight 中 : 


<sched.h> 
struct load weight { 
unsigned long weight, inv_ weight; 


}s 
内 核 不 仅 维护 了 负荷 权重 自身 ， 而 且 还 有 另 一 个 数值 ， 用 于 计算 被 负荷 权重 除 的 结果 。” 

一 般 概 念 是 这 样 ， 进 程 每 降低 一 个 nice 值 ， 则 多 获得 10% 的 CPU 时 间 ， 每 升 高 一 个 nice 值 ， 则 放 
弃 10% 的 CPU 时 间 。 为 执行 该 策略 ， 内 核 将 优先 级 转换 为 权重 值 。 我 们 首先 看 一 下 转换 表 : 


kernel/sched.c 






























































[Nil 
Man 

































































































































































static const int prio to weight[40] = { 
/2 0 尖 / 887617 71755; 56483, 46273, 36291, 
/类 三 二 5 六/ 29154, 23254, 18705, 14949, 11916, 
/* -10 */ 9548, 7620, 6100, 4904， 3906, 
2 3121, 2601 1991; 1586, L277. 
和 0 #y 1024, 820, 655, 526, 423， 
A/* 5. 深 沙 光志 2727 包 二 号 72， 13.7, 
/* 10 */ 0 87， 了 05 56, 45, 
J ‘15: wy 365 29, 23; 18, 5 
有 
对 内 核 使 用 的 范围 [0, 39] 中 的 每 个 nice 级 别 ， 该 数组 中 都 有 一 个 对 应 项 。 各 数组 之 间 的 乘 数 因子 
是 1.25。 要 知道 为 何 使 用 该 因子 ， 可 考虑 下 列 例子 。 两 个 进程 A 和 和 B 在 nice 级 别 0 运行 ， 因 此 两 个 进程 


















































的 CPU 份额 相同 , 即 都 是 50%。nice 级 别 为 0 的 进程 ,其 权重 查 表 可 知 为 1024。 每 个 进程 的 份额 是 1024/ 
(1024+1024) =0.5， 即 50%。 

如 果 进 程 B 的 优先 级 加 1, 那么 其 CPU 份 额 应 该 减少 10%。 换 句 话说 , 这 意味 着 进程 A 得 到 总 的 CPU 
时 间 的 55%， 而 进程 B 得 到 45%。 优 先 级 增加 1 导致 权重 减少 ， 即 1024/1.25~820。 因 此 进程 A 现在 将 得 
到 的 CPU 份额 是 1024/(1024+820)=0.55， 而 进程 B 的 份额 则 是 820/(1024+820)=0.45， 这 样 就 产生 了 10% 
的 差 值 。 

执行 转换 的 代码 也 需要 考虑 实时 进程 。 实 时 进程 的 权重 是 普通 进程 的 两 倍 。 另 一 方面 ， 
SCHED_IDLE 进 程 的 权重 总 是 非常 小 : 


kernel/sched.c 


































































































#define WEIGHT_ IDLEPRIO 2 

#define WMULT_ IDLEPRIO (二 << 31} 

static void set load weight (struct task_ struct *p) 
{ 


if (task_ has_rt policy(p)) { 
p->se.load.weight = prio_ to weight[0] * 2; 
p->se.load.inv _ weight = prio_ to wmult[0] >> 1; 
return; 


} 


/* 












































Q 由 于 使 用 了 普通 的 1ong 类 型 , 因此 内 核 无 法 直接 存储 1/weight, 而 必须 借助 于 利用 乘法 和 位 移 来 执行 除法 的 技术 。 
但 这 里 并 不 关注 相关 的 细节 。 





























783 02 0000000 





} 

















* SCHED_IDLE 进 程 得 到 的 权重 最 小 : 


A 

if (p->policy == SCHED_ IDLE) { 
p->se.load.weight = WEIGHT IDLEPRIO; 
p->se.load.inv weight = WMULT_ IDLEPRIO; 
return; 

} 


p->se.load.weight = 


p->se.load.inv weight = prio_ to wmult[p->static prio -MAX RT_P. 


prio_to weight[p->static prio -MAX RT _ PRIO]; 











RIO]; 


内 核 不 仅 计 算出 权重 本 身 ， 还 存储 了 用 于 除法 的 值 。 请 注意 ， 每 个 优先 级 变化 关联 10% 的 CPU 时 
给 出 了 对 应 于 


间 的 特征 ， 


普通 优先 级 的 某 个 受 限 区 域内 的 曲线 图 。 下 方 的 插图 在 Y 轴 上 则 采用 












































权重 


























导致 了 权重 〈 和 相关 的 CPU 时 间 ) 的 0 0 特征 ， 见 图 2-15 

















。 图 中 上 方 的 插图 
































普通 到 实时 进程 间 的 临界 点 上 是 不 连续 的 。 








了 对 数 标 度 。 要 注 
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图 2-15 ”静态 优先 级 和 负 谷 之 间 关 系 ， 分 普通 和 实时 进程 两 种 情况 











I 











想 一 下 可 知 ， 不 仅 进 程 ， 而 




















就 绪 队 列 也 关联 至 


一 














内 核 会 调 月 
的 权重 添 力 


kerne 





日 inc_nr_running。 这 不 
0 到 就 绪 队 列 的 权重 中 ， 


lsched.c 




















仅 确保 就 绪 队 列 能 够 跟踪 记录 有 多 少 进程 在 运行 ， 而 且 还 将 进程 





个 负荷 权重 。 每 次 进程 被 加 到 就 绪 队 列 上 





140 

















意 ， 该 函数 在 





时 ， 

















static inline void update load add(struct load weight *]w, unsigned long inc) 


{ 
} 


lw->weight += inc; 
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static inline void inc_load(struct rq *rq, 








在 进程 从 就 绪 队 列 移 除 时 ， 会 调 


update load add(&rq->load, p->se.load.weight); 


rq->nr runningtt+; 
inc load(rq, p); 








load_sub)。 


2.5.4 


核心 调度 器 

















用 对 应 的 函数 (gdec_nr_running、 





const struct task_struct *p) 


static void inc nr running(struct task struct *p, struct rq *rq) 


dec_load、update_ 


如 前 所 述 ， 调 度 器 的 实现 基于 两 个 函数 : 周期 性 调度 器 函数 和 主 调度 器 函数 。 这 些 函数 根据 现 有 
么 整个 方法 称 之 为 0D DOD 的 原因 ， 不 过 其 实 也 是 一 个 非常 
一 般 的 术语 。 我 在 本 节 将 论述 优先 调度 的 实现 方式 。 


进程 的 优先 级 分 配 CPU 时 间 。 这 也 是 为 什 


1. 
周期 性 调度 器 在 scheduler_tick9 
































周期 性 调度 器 




































































FP 实现 。 如 果 系 统 正 在 活动 中 ， 内 核 会 按照 频率 HZ 目 动 调用 该 
函数 。 如 果 没 有 进程 在 等 竺 调度， 那么 在 计算 机 电力 供应 不 足 的 情况 下 ， 也 可 以 关闭 该 调度 器 以 减少 
电能 消耗 。 例 如 ， 笔 记 本 电脑 或 小 型 嵌入 式 系统 。 周 期 性 操作 的 底层 机 4 
下 面 两 个 主要 任务 。 

















判 将 在 第 15$ 章 讨论 。 该 函数 有 


(1) 管理 内 核 中 与 整个 系统 和 各 个 进程 的 调度 相关 的 统计 量 。 其 间 执 行 的 主要 操作 是 对 各 种 计数 


器 加 1， 我 们 对 此 没什么 兴趣 。 
































(2) 激活 负责 当前 进程 的 调度 类 的 周期 性 调度 方法 。 


kernel/sched.c 
void scheduler_ tick(void) 


{ 


该 函数 的 第 一 部 分 处 到 
是 增加 struct zG 当 前 实例 的 时 钟 时 间 戳 。 该 函数 必须 处 到 
标 不 相干 。updaate_cpu_loaq 负 责 更 新 前 
储 的 负荷 值 向 后 移动 一 个 位 置 ， 将 当前 到 

一 些 取 平 均值 的 技巧 ， 以 确保 负荷 数组 的 内 容 不 会 呈现 出 太 多 的 不 连续 跳 变 。 


int cpu = smp_processor id(); 


Struct rq *YG = Cou ra( 


cpu); 


struct task_ struct *curr = rq->curr; 


_ update rq clock(rq) 
update_cpu_load (rqa); 























C 绪 队列 的 负荷 记 入 数组 的 第 一 个 位 
















































































于 调度 器 的 模块 化 结构 ， 主 体 工程 实际 上 比较 简单 ， 因 为 主要 的 工作 可 


器 类 的 方法 : 


kernel/sched.c 


} 


If (curr != rq->idle) 














Curr->sched class->task tick(rg, curr); 





task_tick 的 实现 方式 取决 于 底层 的 调度 器 类 。 例 如 ， 完 全 公平 调度 器 会 在 该 方法 中 检测 是 否 进 





就 绪 队 列 时 钟 的 更 新 。 该 职责 委托 给 _update_rq_clock 完 成 , 本 质 上 就 
硬件 时 钟 的 一 些 奇异 之 处 ， 这 与 我 们 的 目 
绪 队列 的 cpu_loadqr] 数 组 。 本 质 上 相当 于 将 数组 中 先前 存 











。 男 外 ， 该 函数 还 引入 


以 完全 委托 给 特定 调度 























80 020 0000000 





程 已 经 运行 太 长 时 间 ， 以 避免 过 长 的 延迟 ， 
度 方法 ， 那 么 应 该 会 知道 ， 这 是 
在 所 谓 时 间 片 的 概念 。 

如 果 当 前 进程 应 该 被 重 


















































所 调度 ， 那 么 调 














我 会 在 下 文 详细 讨论 。 
的 做 法 实际 上 0 0 0 口 到 期 的 时 间 片 ， 








四 











如 


不 








标志 ， 以 表示 该 请 求 ， 而 内 核 会 在 接 下 来 的 适当 时 机 完成 该 请 求 。 


2. 主 调度 器 





在 内 核 中 的 许多 地 方 ， 如 果 要 将 CPU 分 配给 与 当前 活动 进程 不 同 的 另 
pb 会 检查 当前 进程 是 否 设置 了 如 
如 果 是 这 样 ， 则 内 核 会 调 月 








调度 器 函数 (schedule)。 在 从 系统 调用 返回 之 后 ， 


TIF_NEED_RESCHED， 例 如 ， 前 述 






































的 scheduler_tick 就 会 设置 


内 核 





大 |> 











度 器 中 不 





平 调 














度 器 类 方法 会 在 task_struct 中 设置 TIF_NI 














EED_RESC 


























品 








个 进程 » 








都 会 直接 调 





















































该 标 志 o 


























schedule。 该 函数 假定 当前 活动 进程 
在 详细 论述 schedule 之 前 ， 需 要 说 明 一 下 __ 
包括 schedule 自 身 。 其 声明 如 下 所 示 : 


__sched some function(...) { 





























void 
schedule (); 








sched 骨 | 





定 会 被 男 一 个 进程 取代 。 

















级 。 








该 前 











该 前 级 目的 在 于 ， 
中 (有 关 ELF 段 的 更 多 信息 ， 请 参见 附录 C) 。 









































将 相关 函数 的 代码 编译 之 后 , 放 到 
该 信 ， 





息 使 




















得 内 核 在 显示 








有 与 调度 有 关 的 调用 。 由 于 调度 器 函数 调用 不 是 

义 的 。 
我 们 现在 回 到 主 调度 器 schedqule 的 实现 。 

指 癌 《仍然 ) 活动 进程 的 task_struct 的 指针 。 


kernel/sched.c 
asmlinkage void 


{ 



































该 函 




















__sched schedqule(void) 


struct task_struct *preyv, 
Struct wo re 
int ‘Cpu; 


*next; 


need_resched: 
cpu = smp_processor_ id(); 
rq = cpu_rq(cpu); 
prev = rq->curr; 


类 似 于 周期 性 调度 器 ， 内 核 也 利用 该 时 机 来 更 3 
struct 中 的 重 调度 标志 TIF_NEED_RESCHED。 


kernel/sched.c 
_ update rq clock(rq); 
Clear tsk need_ resched (prev); 





























大 | 








普通 代码 流程 


数 首 














有 
A 








E 确 定 














新 就 绪 队 列 的 时 钟 ， 


级 用 于 可 








当前 就 绪 队 列 ， 








并 在 prev 中 保存 一 











; 





除 当前 运行 进程 task 




















] 主 


读者 熟悉 旧 的 基于 时 间 片 的 调 


Ee 
完全 公 


有 存 


HED 


能 调用 schedule 的 函数 ， 


标 文件 的 一 个 特定 的 段 中 , 即 .sched. text 
KR 栈 转 储 或 类 似 信 息 时 ， 忽 略 所 
因此 在 这 种 情况 下 是 没有 意 














同样 
眠 状态 但 








为 调度 器 的 模块 化 结构 ， 大 多 数 工 作 可 以 委托 给 


现在 接收 到 信号 ， 那 么 它 必须 再 次 提升 为 运行 进程 。 
止 活动 (deactivate_task 实 质 上 最 终 调用 了 scheqd_class->dequeue_ 





kernel/sched.c 


下 下 


调度 类 。 如 果 当 前 进程 原来 处 于 可 中 断 睡 


否则 ， 月 





(unlikely( (prev->state & TASK_INTERRUPTIBLE) 

















E 























日 相应 调度 器 类 的 方法 使 进程 停 





&& 


task) : 
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unlikely(signal Pending (Prev) ) )) { 
prev->state = TASK RUNNING; 
} else { 
deactivate task(rgq, prev, 1); 
} 














put_prev_task 首 先 通知 调 度 器 类 当前 运行 的 进程 将 要 被 另 一 个 进程 代替 。 要 注意 , 这 DUODD 
把 进程 从 就 绪 队 列 移 除 ， 而 是 提供 了 一 个 时 机 ， 供 执行 一 些 短 记 工 作 并 更 新 统计 量 。 调 度 类 还 必须 选 
择 下 一 个 应 该 执行 的 进程 ， 该 工作 由 pick_next_task 负 责 ; 


prev->sched_class->put_prev_task(rq, prev); 
next = pick next task(rq, prev); 





















































不 见得 必然 选择 一 个 新 进程 。 也 可 能 其 他 进程 都 在 睡眠 ， 当 前 上 只 有 一 个 进程 能 够 运行 ， 这 样 它 自 
然 就 被 留 在 CPU 上 。 但 如 果 已 经 选择 了 一 个 新 进程 ， 那 么 必须 准备 并 执行 硬件 级 的 进程 切换 。 
kernel/sched.c 
if (likely(prev != next)) { 


rq->curr = next; 
context_switch(rg, prev, next); 













































































} 

















context_switch 一 个 接口 ， 供 访问 特定 于 体系 结构 的 方法 ， 后 者 负责 执行 底层 上 下 文 切 换 。 
下 列 代 码 检测 当前 进程 的 重 调度 位 是 否 设置 ， 并 中 转 到 如 上 所 述 的 标号 ， 重 新 开始 搜索 一 个 新 
进程 : 


kernel/sched.c 
If (unlikely (test_ thread flag (TIF_NEED RESCHED))) 
goto need resched; 
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} 

请 注意 ， 上 述 代 码 片段 可 能 在 两 个 不 同 的 上 下 文中 执行 。 在 没有 执行 上 下 文 切换 时 ， 它 在 
schedule 函 数 的 末尾 直接 执行 。 但 如 果 已 经 执行 了 上 下 文 切换 , 当前 进程 会 0 口 在 这 以 前 停止 运行 ， 
新 进程 已 经 接管 了 CPU。 但 稍 后 在 前 一 进程 被 再 次 选择 运行 时 ， 它 会 刚好 在 这 一 点 上 恢复 执行 。 在 
这 种 情况 下 ， 由 于 prev 不 会 指向 正确 的 进程 ， 所 以 需要 通过 current 和 test_thread_flag 找 到 当前 
线程 。 

3. 与 fork 的 交互 

每 当 使 用 fork 系 统 调用 或 其 变 体 之 一 建立 新 进程 时 ， 调 度 器 有 机 会 用 scheq_fork 函 数 挂钩 到 该 
进程 。 在 单 处 理 器 系统 上 ， 该 函数 实质 上 执行 3 个 操作 : 初始 化 新 进程 与 调度 相关 的 字段 、 建 立 数据 
结构 (相当 简单 直接 ) 、 确 定 进程 的 动态 优先 级 。 


kernel/sched.c 
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/* 

* fork()/clone() 时 的 设置 : 

Sf 
void sched fork(struct task struct *p, int clone_ flags) 
{ 


/* 初始 化 数据 结构 */ 

















/* 
* 确认 没有 将 提高 的 优先 级 泄漏 到 子 进程 
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p->prio = current->normal_prio; 
if (!rt_ prio(p->prio)) 
p->sched_ class = &fair_ sched class; 


} 

通过 使 用 父 进 程 的 0 口 优先 级 作为 子 进 程 的 0D 口 优先 级 , 内 核 确保 父 进程 优先 级 的 临时 提高 不 会 

被 子 进程 继承 。 回 想 一 下 ， 可 知 在 使 用 实时 互 斥 量 时 进程 的 动态 优先 级 可 以 临时 修改 。 该 效应 不 能 

移 到 子 进 程 。 如 果 优 先 级 不 在 实时 范围 中 ， 则 进程 总 是 从 完全 公平 调度 类 开始 执行 。 

在 使 用 wake_up_new_task 唤 醒 新 进程 时 ， 则 是 调度 器 与 进程 创建 逻辑 交互 的 第 二 个 时 机 : 内 核 

会 调用 调度 类 的 task_new 函 数 。 这 提供 了 一 个 时 机 ， 将 新 进程 加 入 到 相应 类 的 就 绪 队 列 中 。 
4. 上 下 文 切换 
内 核 选 择 新 进程 之 后 ， 必 须 处 理 与 多 任务 相关 的 技术 细节 。 这 些 细节 总 称 为 DD DDD Ccontext 

switching)。 辅 助 函 数 context_switch 是 个 分 配器 ， 它 会 调用 所 需 的 特定 于 体系 结构 的 方法 。 


kernel/sched.c 

static inline void 

context_switch(struct rq *rq, struct task_ struct *prev, 
struct task_ struct *next) 



































































































































A 




































































{ 


struct mm_ struct *mm, *oldmm; 


prepare_ task_ switch(rq, prev, next); 
mm = next->mm; 
oldmm = prev->active_mm; 

















紧 接着 进程 切换 之 前 , prepare_task_switch 会 调用 每 个 体系 结构 都 必须 定义 的 prepare_arch_ 
switch 挂 钩 。 这 使 得 内 核 执行 特定 于 体系 结构 的 代码 ， 为 切换 做 事先 准备 。 大 多 数 文 持 的 体系 结构 
(Sparc64 和 Sparc 除 外 ) 都 不 需要 该 选项 ， 因 此 并 未 使 用 。 

上 下 文 切换 本 身 通过 调用 两 个 特定 于 处 理 器 的 函数 完成 。 

(1) switch_mm 更 换 通过 task_struct->mm 描 述 的 内 存 管理 上 下 文 。 该 工作 的 细节 取决 于 处 理 器 ， 
主要 包括 加 载 页 表 、 刷 出 地 址 转换 后 备 缓冲 器 《部 分 或 全 部 ) 、 向 内 存 管理 单元 (MMU) 提供 新 的 

言 息 。 由 于 这 些 操作 深入 到 CPU 的 细节 中 ， 我 不 打算 在 此 讨论 其 实现 。 

(2) switch_to 切 换 处 理 器 寄存 器 内 容 和 内 核 栈 〈( 虚 拟 地 址 空间 的 用 户 部 分 在 第 一 步 已 经 变更 ， 
其 中 也 包括 了 用 户 状态 下 的 栈 ， 因 此 用 户 栈 就 不 需要 显 式 变更 了 ) 。 此 项 工作 在 不 同 的 体系 结构 下 可 
能 差别 很 大 ， 代 人 码 通常 都 使 用 汇编 语言 编写 。 
于 用 户 空间 进程 的 寄存 器 内 容 在 进入 核心 态 时 保存 在 内 核 栈 上 《更 多 细节 请 参见 第 14 章 ) ， 在 
上 下 文 切换 期 间 无 需 显 式 操作 。 而 因为 每 个 进程 首先 都 是 从 核心 态 开始 执行 〈 在 调度 期 间 控制 权 传递 
到 新 进程 》， 在 返回 用 户 空 间 时 ， 会 使 用 内 核 栈 上 保存 的 值 自动 恢复 寄存 器 数据 。 

但 要 记 住 , 内 核 线程 没有 自身 的 用 户 空间 内 存 上 下 文 , 可 能 在 某 个 随机 进程 地 址 空间 的 上 部 执行 。 
其 task_struct->mm 为 NULL。 从 当前 进程 “ 借 来 ”的 地 址 空间 记录 在 active_mm 中 : 


kernel/sched.c 

if (unlikely(!'mm)) { 
next->active_mm = oldmm; 
atomic_inc(&oldmm->mm_ count); 
enter_lazy_tlb(oldmm, next); 





































































































mm 

















































































































































































































































































































} else 
switch mm(oldmm, mm, next); 
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enter_1azy_tlb 通 知 底层 体系 结构 不 需要 切换 虚拟 地 址 空间 的 用 户 空间 部 分 。 这 种 加 速 上 下 文 
切换 的 技术 称 之 为 0 0 TLB。 

如 果 前 一 进程 是 内 核 线程 ( 即 prev->mm 为 NULL〉， 则 其 active_mm 指 针 必须 重 置 为 NULL， 以 断 
与 借用 的 地 址 空间 的 联系 : 


kernel/sched.c 
if (unlikely(!prev->mm)) { 
prev->active mm = NULL; 
rq->prev_mm = oldmm; 





















































} 


























最 后 用 switch_to 完 成 进程 切换 ， 该 函数 切换 寄存 器 状态 和 栈 ， 新 进程 在 该 调用 之 后 开始 执行 : 


kernel/sched.c 
/* 这 里 我 们 只 是 切换 寄存 器 状态 和 栈 。 */ 


Switch to(prev, next, prev); 




















barrier(); 

/* 
* this rq 必须 重新 计算 ， 因 为 在 调用 schedule () 之 后 prev 可 能 已 经 移动 到 其 他 CPU， 
* 因此 其 栈 帧 上 的 rq 可 能 是 无 效 的 。 
4 

finish task Switch (this_ rq(), prev); 




































































} 

switch_to 之 后 的 代码 只 有 在 当前 进程 下 一 次 被 选择 运行 时 才 会 执行 。finish_task_switch 完 
成 一 些 清理 工作 ， 使 得 能 够 正确 地 释放 锁 ， 但 我 们 不 会 详细 讨论 这 些 。 它 也 向 各 个 体系 结构 提供 了 男 
一 个 挂钩 上 下 文 切换 过 程 的 可 能 性 ， 但 只 在 少量 计算 机 上 需要 。barzrier 语 句 是 一 个 编译 器 指令 ， 确 
保 switch_to 和 finish_task_switch 语 句 的 执行 顺序 不 会 因为 任何 可 能 的 优化 而 改变 (更 多 细节 请 
参见 第 5 章 ) 。 

@ switch tol| [DDODO 

finish_task_switch 的 有 趣 之 处 在 于 ， 调 度 过 程 可 能 选择 了 一 个 新 进程 ， 而 清理 则 是 针对 此 前 
的 活动 进程 。 请 注意 ， 这 不 是 发 起 上 下 文 切 换 的 那个 进程 ， 而 是 系统 中 随机 的 某 个 其 他 进程 ! 内 核 必 
须 想 办 法 使 得 该 进程 能 够 与 context_switch 例 程 通信 , 这 可 以 通过 switch_to 宏 实现 。 每 个 体系 结构 
都 必须 实现 它 ， 而 且 有 一 个 异乎 寻常 的 调用 约定 ， 即 通过 3 个 参数 传递 两 个 变量 ! 这 是 因为 上 下 文 切 
换 不 仅 涉 及 两 个 进程 ， 而 是 3 个 进程 。 该 情形 如 图 2-16 所 示 。 

next=B 


交心 态 栈 next=B next=C next=A MY 人 
Te prev=A prev=B prev=C see C } switch_to 返 回 之 后 


* | 


A= switch to( nt B) 加 Ce to(C,A) 
B= switch_to(B, 0 


图 2-16 ”上 下 文 切 换 期 间 prev 和 next 变 量 的 行为 特性 


假定 3 个 进程 A、B 和 C 在 系统 上 运行 。 在 某 个 时 间 点 ， 内 核 决定 从 进程 A 切 换 到 进程 B， 然 后 从 进 
程 B 到 进程 C， 再 接 下 来 从 进程 C 切 换 回 进程 A。 在 每 个 switch_to 调 用 之 前 ，next 和 prev 指 针 位 于 各 
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进程 的 栈 上 ，prev 指 向 0D 0 运行 的 进程 ， 而 next 指 向 将 要 运行 的 下 一 个 进程 。 为 执行 从 prev 到 next 
的 切换 ，switch_to 的 前 两 个 参数 足够 了 。 对 进程 A 来 说 ，prev 指 向 进程 A 而 next 指 问 进 程 B。 
在 进程 A 被 选中 再 次 执行 时 ， 会 出 现 一 个 问题 。 控 制 权 返回 至 switch_to 之 后 的 点 ， 如 果 栈 准确 
地 恢复 到 切换 之 前 的 状态 ， 那 么 prev 和 next 仍 然 指向 切换 之 前 的 值 ， 即 next = B 而 prev = A。 在 这 
种 情况 下 ， 内 核 无 法 知道 实际 上 在 进程 A 之 前 运行 的 是 进程 C。 
因此 ,在 新 进程 被 选中 时 ,底层 的 进程 切换 例 程 必须 将 此 前 执行 的 进程 提供 给 context_switch。 
于 控制 流 会 回 到 该 函数 的 中 间 ， 这 无 法 用 普通 的 函数 返回 值 来 做 到 ， 因 此 使 用 了 一 个 3 个 参数 的 0 。 
但 逻辑 上 的 效果 是 相同 的 ， 仿 佛 switch_to 是 带 有 两 个 参数 的 函数 ， 而 且 返 回 了 一 个 指向 此 前 运行 进 
程 的 指针 。switch_to 宏 实际 上 执行 的 代码 如 下 : 
prev = Switch to(prev,next) 
其 中 返回 的 prev 值 并 不 是 用 作 参 数 的 prev 值 ， 而 是 上 一 个 执行 的 进程 。 在 上 述 例子 中 ， 进 程 A 提 供给 
switch_to 的 参数 是 和 B， 但 恢复 执行 后 得 到 的 返回 值 是 prev = C。 内 核实 现 该 行为 特性 的 方式 依赖 
于 底层 的 体系 结构 ， 但 内 核 显 然 可 以 通过 考虑 两 个 进程 的 核心 态 栈 来 重建 所 要 的 信息 。 对 可 以 访问 所 
有 内 存 的 内 核 而 言 ， 这 两 个 栈 显 然 是 同时 可 用 的 。 
© [| [0 FPUDO 
1 于 上 下 文 切 换 的 速度 对 系统 性 能 的 影响 举足轻重 , 所 以 内 核 使 用 了 一 种 技巧 来 减少 所 需 的 CPU 
时 间 。 浮 点 寄存 器 《及 其 他 内 核 未 使 用 的 扩充 寄存 器 ， 例 如 IA-32 平 台 上 的 SSE2 寄 存 器 ) 除非 有 应 用 
程序 实际 使 用 ， 和 否则 不 会 保存 。 此 外 ， 除 非 有 应 用 程序 需要 ， 和 否则 这 些 寄存 器 也 不 会 恢复 。 这 称 之 为 
DODOFPUDOD 。 由 于 使 用 了 汇编 语言 代码 ， 因 此 其 实现 依 平 台 而 有 所 不 同 ， 但 基本 原理 总 是 同样 的 。 
也 应 注意 到 , 如 果 不 考 虑 平台 , 浮 点 寄存 器 的 内 容 不 是 保存 在 进程 栈 上 , 而 是 保存 在 线程 数据 结构 中 。 
我 将 通过 一 个 例子 来 说 明 该 技术 。 
为 简明 起 见 ， 我 们 假定 这 一 次 系统 中 只 有 进程 A 和 进程 B。 进 程 A 在 运行 并 使 用 浮 点 操作 。 在 调度 
器 切换 到 进程 B 时 ， 进 程 A 的 浮 点 寄存 器 的 内 容 保存 到 进程 的 线程 数据 结构 中 。 但 这 些 寄存 器 中 的 值 
DD 立即 被 来 自 进程 B 的 值 奉 换 。 

如 果 进 程 B 在 其 时 间 方 内 并 不 执行 任何 浮 点 操作 ， 那 么 在 进程 A 下 一 次 激活 时 ， 会 看 到 CPU 浮 点 
寄存 器 内 容 与 此 前 相同 。 内 核 因 此 节省 了 显 式 恢复 寄存 器 值 的 工作 量 ， 这 节省 了 时 间 。 

但 如 果 进 程 B 确 实 执 行 了 浮 点 操作 ， 该 事实 会 报告 给 内 核 ， 它 会 用 来 自 线 程 数 据 结 构 的 适当 值 填 
充 寄存 器。 因此 ， 只 有 在 需要 的 情况 下 ， 内 核 才 会 保存 和 恢复 浮 点 寄存 器 内 容 ， 不 会 因为 多 余 的 操作 
浪费 时 间 。 


2.6 ”完全 公平 调度 类 
核心 调度 器 必须 知道 的 有 关 完 全 公平 调度 器 的 所 有 信息 ， 都 包含 在 fair_scheq_class 中 ; 


kernel/sched _fair.c 
static const struct sched class fair_sched class = { 
.next = &idle_ sched class, 
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.enqueue task = enqueue task_ fair, 
.dequeue task = dequeue task_ fair, 
.yield task = yield task fair, 


.Check preempt_curr = check _ preempt_wakeup, 


.pick next task = pick next _ task fair, 
.put_prev_task = put_ prev task fair, 
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.Set_curr_ task = set_curr task fair, 

task tick = task tick fair, 

.task new = task new_ fair, 
站 
在 先前 的 讨论 中 ， 我 们 已 经 看 到 主 调度 器 调用 这 些 函 数 ， 接 下 来 我 们 将 考察 这 些 函 数 在 CFS 中 的 
实现 方式 。 


2.6.1 数据 结构 


首先 ， 我 们 需要 介绍 一 下 CFS 的 就 绪 队 列 。 回 想 一 下 ， 可 知 主 调度 器 的 每 个 就 绕 队 列 中 都 答 入 了 
一 个 该 结构 的 实例 : 

kernel/sched.c 

struct cfs rg { 


struct load weight load; 
unsigned long nr_running; 























u64 min vruntime; 


struct rb_ root tasks_ timeline; 
struct rb node *rb_ leftmost; 


struct sched entity *curr; 


} 

各 个 成 员 的 语义 如 下 。 

口 nr_running 计 算 了 队列 上 可 运行 进程 的 数目 ，1load 维 护 了 所 有 这 些 进程 的 累积 负荷 值 。 回 想 
一 下 在 2.5.3 节 已 经 遇 到 的 负荷 计算 相关 内 容 。 

D min_vruntime 跟 踪 记 录 队 列 上 所 有 进程 的 最 小 虚拟 运行 时 间 。 这 个 值 是 实现 与 就 绪 队 列 相 关 
的 虚拟 时 钟 的 基础 。 其 名 字 很 容易 会 产生 一 些 误解 ， 因 为 min_vruntime 实 际 上 可 能 比 最 左边 
的 树 结 点 的 vruntime 大 些 。 因 为 它 是 单调 递增 的 ， 在 我 详细 论述 该 值 的 设置 时 会 继续 讨论 
该 问题 。 

口 tasks_timeline 是 一 个 基本 成 员 , 用 于 在 按时 间 排 序 的 红 黑 树 中 管理 所 有 进程 。rb_leftmost 
总 是 设置 为 指向 树 最 左边 的 结 点 ， 即 最 需要 被 调度 的 进程 。 该 成 员 理 论 上 可 以 通过 遍历 红 

黑 树 获得 ， 但 由 于 我 们 通常 只 对 最 左边 的 结 点 感 兴趣 ， 因 为 这 可 以 减少 搜索 树 花 费 的 平均 
时 间 。 

口 curr 指 向 当前 执行 进程 的 可 调度 实体 。 


2.6.2 CFS 操作 


我 们 现在 把 注意 力 转 向 如 何 实现 CF 调度 器 提供 的 调度 方法 。 

1. 虚拟 时 钟 

我 在 2.5.1 节 提 到 ,完全 公平 调度 算法 依赖 于 虚拟 时 钟 ， 用 以 度量 等 待 进程 在 完全 公平 系统 中 所 能 
得 到 的 CPU 时 间 。 但 数据 结构 中 任何 地 方 都 没 找到 虚拟 时 钟 ! 这 是 由 于 所 有 的 必要 信息 都 可 以 根据 现 
存 的 实际 时 钟 和 与 每 个 进程 相关 的 负荷 权重 推算 出 来 。 所 有 与 虚拟 时 钟 有 关 的 计算 都 在 update_curr 
中 执行 ， 该 函数 在 系统 中 各 个 不 同 地 方 调用 ， 包 括 周期 性 调度 器 之 内 。 图 2-17 的 代码 流程 图 提供 了 该 
函数 所 完 成 工作 的 概述 。 
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86 020 0000000 


更 新 进程 的 物理 运行 时 间 和 虚拟 运行 时 间 





































对 CFS 队 列 更 新 min_vruntime 











设置 rq->exec_start | 











图 2-17” ”update_curr 的 代码 流程 图 
和 先 ， 该 函数 确定 就 绪 队 列 的 当前 执行 进程 ， 并 获取 主 调度 器 就 绪 队 列 的 实际 时 钟 值 ， 该 值 在 每 
个 调度 周期 都 会 更 新 (rq_of 是 一 个 辅助 函数 ， 用 于 确定 与 CFS 就 绪 队 列 相关 的 struct ra 实例 ): 


static void update curr(struct cfs_ rq *cfs_rq) 


{ 


















































struct sched_ entity *curr = cfs_rq->curr; 
u64 now = rq_of(cfs_rq)->clock; 
unsigned long delta exec; 


if (unlikely(!curr)) 
return; 




















如 果 就 绪 队 列 上 当前 没有 进程 正在 执行 ， 则 显然 无 事 可 做 。 和 否则， 内 核 会 计算 当前 和 上 一 次 更 新 
负荷 统计 量 时 两 次 的 时 间 差 ， 并 将 其 余 的 工作 委托 给 ”update_curr。 


kernel/sched _fair.c 
delta _ exec = (unsigned long) (now -curr->exec start); 




















_ Update currl(cfs_ rq, curr, delta exec); 
Curr->exec_start = now; 


} 

根据 这 些 信息 ， update_curr 需 要 更 新 当前 进程 在 CPU 上 执行 花费 的 物理 时 间 和 虚拟 时 间 。 物 
里 时 间 的 更 新 比较 简单 ， 只 要 将 时 间 差 加 到 先前 统计 的 时 间 即 可 : 

kernel/sched_fair.c 

static inline void 


_ update_curr (struct cfs_rq *cfs rq, struct sched entity *curr, 
unsigned long delta exec) 









































I 

















{ 
unsigned long delta exec weighted; 


u64 vruntime; 


Curr->sum exec_ runtime += delta_ exec; 


有 趣 的 事情 是 如 何 使 用 给 出 的 信息 来 模拟 不 存在 的 虚拟 时 钟 。 这 一 次 内 核 的 实现 仍然 是 非常 巧妙 
的 ， 针 对 最 普遍 的 情形 节省 了 一 些 时 间 。 对 于 运行 在 nice 级 别 0 的 进程 来 说 ， 根 据 定 义 虚 拟 时 间 和 物 
理 时 间 是 相等 的 。 在 使 用 不 同 的 优先 级 时 ， 必 须根 据 进程 的 负荷 权重 重新 衡 定时 间 (回想 2.5.3 节 讨论 
的 进程 优先 级 与 负荷 权重 之 间 的 关联 ) : 


kernel/sched_fair.c 
delta_exec_weighted = delta exec; 
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if (unlikely(curr->load.weight != NICE_0_LORAD)) { 
delta _ exec weighted = calc delta fair(delta exec weightedqd, 
&curr->lo0ad); 
} 


curr->vruntime += delta exec weighted; 





忽略 舍 入 和 洲 出 检查 ，calc_qdelta_fair 所 作 的 就 是 根据 下 列 公 式 计 算 : 
NICE_0_LOAD 
Curr->load.weight 


前 文 提 到 的 逆向 权重 值 ， 在 该 计算 中 可 以 派 上 用 场 了 。 回 想 一 下 ， 可 知 越 重 要 的 进程 会 有 越 高 的 
优先 级 〈 即 ， 越 低 的 nice 值 ) ， 会 得 到 更 0 的 权重 ， 因 此 累加 的 虚拟 运行 时 间 会 0 一 些 。 图 2-18 给 出 
了 不 同 优先 级 的 实际 时 间 和 虚拟 时 间 之 间 的 关系 。 根 据 公式 可 知 ，nice 0 进程 优先 级 为 120， 则 虚拟 
时 间 和 物理 时 间 是 0 的 ， 即 current->load.weight 等 于 NICE_0_LOAD 的 情况 。 请 注意 图 2-18 的 插 
图 ， 其 中 使 用 了 双 对 数 坐 标 来 对 各 种 优先 级 绘图 。 








delta_exec weighted= delta exec x 
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图 2-18 ”不 同 nice 级 别 /优先 级 的 进程 ， 实 际 时 间 和 虚拟 时 间 的 关系 
最 后 ， 内 核 需要 设置 min_vruntime。 必 须 小 心 保证 该 值 是 单调 递增 的 。 


kernel/sched_fair.c 
严 过 
* 跟踪 树 中 最 左边 的 结 点 的 vruntime， 维 护 cfs_rq->min_vruntime 的 单调 递增 性 
*/ 
至 在 (first fair (efs roaq)) A 
vruntime = min vruntime (curr->vruntime, 
pick next_ entityl(cfs rq)->vruntime); 
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} else 


vruntime = curr->vruntime; 


cfs_rq->min vruntime = 


} 


max_vruntime(cfs_rq->min vruntime, 








first_fair 是 














左边 的 结 点 ， 则 使 





个 

















表 助 函数 ， 检 测 树 是 
































否 有 最 左边 的 结 点 ， 即 是 
若 如 此 ， 则 内 核 获取 其 vcuntime， 即 树 中 所 有 结 点 最 小 的 veuntime 值 。 
自 当前 进程 的 虚拟 运行 时 间 。 


vruntime); 





否 有 进程 在 树 上 等 待 调度 。 倘 
如 果 因 为 树 是 空 的 而 没有 最 









































为 保证 每 个 队列 的 min_vruntime 是 单调 递增 的 ， 内 











核 将 其 设置 为 二 者 中 的 较 大 者 ,这 意味 着 , 每 个 队列 的 min_vruntime 只 有 被 树 上 某 个 结 点 的 vruntime 





到 


超出 时 才 更 新 。 利 用 该 策略 ， 内 
完全 公平 调度 器 的 真 了 











kernel/sched_fair.c 
static inline s64 entity key(struct cfs rq *cfs_rq, 


{ 














核 确 保 min_vrtime 只 能 增加 ， 不 能 减少 。 
E 关 键 点 是 ， 红 黑 树 的 排序 过 程 是 根据 下 列 键 进行 的 : 


return se->vruntime -cfs_rq->min vruntime; 


. 








键 值 较 小 的 结 点 ， 排 序 位 




















对 立 的 机 制 。 
(1) 在 进程 运行 时 ， 









































一 下 ， 它 是 单调 的 !)， 圈 





实际 上 上 述 两 种 效应 是 同时 发 生 作 用 的 ， 但 这 





制 ， 作 出 了 图 解 。 





2. 延迟 跟踪 











卢 ， 


就 更 靠 左 ， 因 此 

















其 vruntime 稳 定 地 增加 ， 
因为 越 重要 的 进程 vruntime 增 加 口 ， 因 此 它 个 
要 大 于 次 要 进程 ， 这 刚 

(2) 如 果 进 程 进 入 睡 


好 是 我 们 需要 的 。 
则 其 vrunt 




















那么 此 














图 2-19 ”每 个 调度 实体 和 


内 核 有 一 个 固有 的 概念 ， 
































ns 控制 ， 


其 中 处 理 


































































































EH 民 进 程 醒 来 后 ， 在 红 黑 树 中 的 位 





























struct sched entity *se) 





会 被 更 快 地 调度 。 


它 在 红 黑 树 中 总 是 

















用 这 种 方法 ， 内 核实 现 了 下 面 两 种 

















向 右 移动 的 。 


] 向 右 移 动 的 速度 也 越 慢 ， 这 样 其 被 调度 的 机 会 

















ime 保 持 不 变 。 因 为 每 个 队列 min_vruntime 同 时 会 增加 (回想 



































min_vruntime 个 
< 一 



















































































@ 对 短 时 间 睡 眠 的 进程 来 说 ， 稍 有 不 同 ， 在 我 讨论 
加 切记， 这 与 时 间 片 无 关 ， 





























个 值 庆 高 
起 -一 一 值 降低 
vruntime 个 Mt 
红 黑 树 中 的 位 置 
( 靠 左 更 好 ) 


I 每 个 队列 的 虚拟 时 间 对 进程 在 





会 更 靠 左 ， 
不 影响 解释 。 图 2-19 针 对 红 黑 树 上 不 同 的 移动 机 














因为 其 键 值 变 得 D 0D 。? 




















RY 





工 黑 树 中 位 置 的 影响 




















为 良好 的 调度 延迟 ， 即 保证 每 个 可 运行 的 进程 都 应 该 
的 某 个 时 间 间 隔 。2 ， sched_1a 
默认 值 为 20 000 000 纳 秒 或 20 毫 秒 。 第 二 个 控制 参数 scheq_nr_latency， 控 制 在 一 个 延迟 周 
的 最 大 活动 进程 数目 。 如 果 活 动 进程 的 数目 超出 该 上 限 ， 则 延迟 周期 也 成 比例 


sched_nr_latency 可 以 通 








去 至 少 运行 一 次 








tency 给 出 ， 可 通过 /proc/sys/kernel/sched_ latency_ 




















也 线性 扩展 。 








过 sysct1_schead_min_granularity 间 接地 控制 ， 后 者 可 通过 /procy/sysy/ 














具体 机 制 时 会 考虑 这 种 情况 。 
旧 的 调度 器 才 使 用 时 间 片 ! 
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kernel/sched_min_granularity ns 设置 。 默 认 值 是 4 000 000 纳 秒 ， 即 4 毫秒 ， 每 次 sysctl_sched_ 
latency/sysctl_scheqd min_ granularity 之 一 改变 时 ， 都 会 重新 计算 scheqd_nr_latency。 

__sched_periogd 人 确定 延迟 周期 的 长 度 ， 通 常 就 是 sysctl_sched_latency， 但 如 果 有 更 多 进程 
在 运行 ， 其 值 有 可 能 按 比例 线性 扩展 。 在 这 种 情况 下 ， 周 期 长 度 是 : 


nr_running 
































sysctl_sched_latency x 





sched nr_latency 
通过 考虑 各 个 进程 的 相对 权重 , 将 一 个 延迟 周期 的 时 间 在 活动 进程 之 间 进 行 分 配 。 对 于 由 某 个 可 
调度 实体 表示 的 给 定 进程 ， 分 配 到 的 时 间 如 下 计算 : 


kernel/sched_fair.c 
static u64 sched slice(struct cfs_rq *cfs_rc，Struct sched entity *se) 


{ 





















































u64 slice = _ sched period(cfs_ rq->nr_ running); 


slice *= se->load.weight; 
do_div(slice, cfs_rq->load.weight); 


return slice; 


} 
回想 一 下 ， 就 绪 队 列 的 负荷 权重 是 队列 上 所 有 活动 进程 负荷 权重 的 累加 和 。 结 果 时 间 段 是 按 实 际 
时 间 给 出 的 ， 但 内 核 有 时 候 也 需要 知道 等 价 的 虚拟 时 间 。 


kernel/sched_fair.c 
static u64 schedq_ vslice(unsigned long rq weight, unsigned long nr_running) 


{ 












































u64 vslice = _ sched period(nr _ running); 


vslice *= NICE_ 0_LOAD; 
do_div(vslice, rq weight); 


return vslice; 


} 


static u64 sched vslicel(struct cfs_ rq *cfs_rq) 
{ 
return __sched vslicel(cfs rq->load.weight, cfs_ rq->nr_ running); 


} 
回想 一 下 ， 对 权重 weight 的 进程 来 说 ， 实 际 时 间 段 time 对 应 的 虚拟 时 间 长 度 为 : 


NICE_0_LOAD 











time x - 
weight 


该 公式 也 用 于 转换 分 配 到 的 延迟 时 间 间 隔 。 

现在 万 事 俱 备 ， 可 以 开始 讨论 CFS 与 全 局 调度 器 交互 所 必须 实现 的 各 个 方法 了 。 
2.6.3 ”队列 操作 

有 两 个 函数 可 用 来 增删 就 绕 队 列 的 成 员 enqueue_task_fair 和 和 dequeue_task_fair。 我 们 首 
先 关 注 如 何 向 就 绪 队 列 放置 新 进程 。 

































































除了 指向 所 述 的 就 绪 队 列 和 task_struct 的 指针 外 , 该 函数 还 有 男 一 个 参数 wakeup。 这 使 得 可 以 
指定 入 队 的 进程 是 否 最 近 才 被 唤醒 并 转换 为 运行 状态 (在 这 种 情况 下 wakeup 为 1), 还 是 此 前 就 是 可 运 











行 的 (那么 wakeup 是 0)。enqueue_task_fair 的 代码 流程 图 如 图 2-20 所 示 。 


90 


U20 00000050 





如 果 通 过 struct scheq_entity 的 on_rgq 成 员 判 断 进程 已 经 在 就 绪 队 列 上 ， 则 无 事 可 做 。 
具体 的 工作 委托 给 enqueue_entity 完 成 ， 其 中 内 核 会 借 机 用 updater_curr 更 3 






































已 经 在 就 绪 队 列 中 ? 


enqueue_entity 


进程 刚刚 被 唤醒 ? | 
























































图 2-20 ”enqueue_task_fair 的 代码 流程 图 


se != cts_rar>curr| | enqueue entity] 





























enqueue_entity 加 入 红 黑 树 中 。 该 函数 需要 一 些 处 理 红 黑 树 的 机 


如 果 进 程 最 近 在 运行 ， 其 虚拟 运行 时 间 仍 然 有 效 ， 那 么 〔 除 非 它 当 前 在 执行 中 )〉 它 








新 统计 量 。 


否则 ， 














可 以 直 














接 用 








hol 





了 二 
本 














前 ， 但 这 可 以 依靠 





mE | 


内 核 的 标准 方 






































法 (更 多 信息 请 参见 附录 C)， 无 需 多 虑 。 函 数 的 要 点 在 于 将 进程 置 于 正确 的 位 3 


点 保证 : 





此 前 





















































如 果 进 程 此 前 在 睡眠 ， 那 么 在 place_entity 中 首先 会 调整 进程 的 虚拟 运 


kernel/sched _fair.c 
static void 
place_ entity(struct cfs_ rq *cfs_rq, struct sched entity *se, int initial) 


{ 


. 


函数 


里 的 情况 
























































u64 vruntime; 
vruntime = cfs_rq->min vruntime; 


if (initial) 
vruntime += sched vslice addl(cfs rq, se); 





if (!initial) { 
vruntime -= sysctl_sched latency; 

















行 时 间 ?: 


vruntime = max vruntime(se->vruntime, vruntime); 


} 


se->vruntime = vruntime; 



































要 注 


那些 总 


- 
| 
已 ， 














民 据 initial 的 值 来 区 分 两 种 情况 。 只 有 在 新 进程 被 加 到 系统 中 时 ， 才 会 设置 该 
非 如 此 : initial 是 零 (在 下 文 讨 论 task_new_fair 时 ， 我 会 说 明 另 一 种 情况 )。 













































































o 





， 这 可 以 通过 以 下 两 
已 经 设置 过 进程 的 vruntime 字 段 ， 内 核 会 不 断 更 新 队列 的 min _vruntime 信 


但 























在 实际 的 内 核 源 代码 中 ， 会 根据 sched_ feature 查 询 的 结 吉 果 来 执行 部 分 代码 。CF 调 度 器 支持 一 些 “ 可 
配置 ”特性 ， 这 些 只 能 在 调试 状态 下 打开 或 关闭 ， 否 则 特性 集合 是 固定 的 。 因 此 我 忽略 了 特性 选择 机 制 ， 


< 总 是 编译 到 内 核 中 ， 处 于 活动 状态 的 代码 。 


只 考虑 
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于 内 核 已 经 承诺 在 当前 的 延迟 周期 内 使 所 有 活动 进程 都 至 少 运 行 一 次 ， 队 列 的 min_vruntime 
用 作 基 准 虚 拟 时 间 ， 通 过 减 去 sysct1l_scheq_latency， 则 可 以 确保 新 唤醒 的 进程 只 有 在 当前 延迟 周 
期 结束 后 才能 运行 。 
但 如 果 睡 眠 进程 已 经 累积 了 比较 大 的 不 公平 值 ( 即 se_vruntime 值 比较 大 ) ， 则 内 核 必 须 考 虑 这 
点 。 如 果 se->vruntime 比 先前 计算 的 差 值 更 大 ， 则 将 其 作为 进程 的 vruntime， 这 会 导致 该 进程 在 
红 黑 树 中 处 于 比较 靠 左 的 位 置 ， 回 想 一 下 可 知 具 有 较 大 vruntime 值 的 进程 可 以 更 早 调度 执行 。 Ci 
我 们 回 到 encueue_entity: 在 place_entity 确 定 了 进程 正确 的 虚拟 运行 时 间 之 后 ， 则 用 
__enqueue_entity 将 其 置 于 红 黑 树 中 。 我 在 此 前 已 经 注意 到 ， 这 是 个 纯粹 机 械 性 的 函数 ， 它 使 用 了 
内 核 的 标准 方法 将 进程 排序 到 红 黑 树 中 。 
2.6.4 选择 下 一 个 进程 
选择 下 一 个 将 要 运行 的 进程 由 pick_next_task_fair 执 行 。 其 代码 流程 图 在 图 2-21 给 出 。 


pick next_ task_ fair 


没有 可 运行 




























































































































































































































































































































































































FP 的 最 左 进程 可 用 ? | 











江 黑 树 





















__pick next_ entity 


set _ next _ entity 


图 2-21 pick_next_task_fair 的 代码 流程 医 


如 果 nr_running 计 数 器 为 0， 即 当前 队列 上 没有 可 运行 进程 ， 则 无 事 可 做 ， 函 数 可 以 立即 返 
否则 将 具体 工作 委托 给 pick_next_entity。 

如 果树 中 最 左边 的 进程 可 用 ， 可 以 使 用 辅助 函数 first_fair 立 即 确 定 ， 然 后 用 _ pick_next_ 
entity 从 红 黑 树 中 提取 出 sched_entity 实 例 。 这 是 使 用 container_of 机 制 完成 的 ， 因 为 红 黑 树 管理 
的 结 点 是 rb_node 的 实例 ， 而 rb_node 即 在 入 在 sched_entity 中 。 

现在 已 经 选择 了 进程 ， 但 还 需要 完成 一 些 工 作 ， 才 能 将 其 标记 为 运行 进程 。 这 是 通过 set_next 
entity 处 理 的 。 


kernel/sched_fair.c 
static void 
set_ next_ entity(struct cfs_rq *cfs_ rq, struct sched entity *se) 


{ 




































o 




























































































































































































/* 树 中 不 保存 “当前 ”进程 。 */ 
if (se->on rq) { 
__ dequeue entityl(cfs rq, se); 





} 











当前 执行 进程 不 保存 在 就 绪 队 列 上 ， 因 此 使 用 _dequeue_entity 将 其 从 树 中 移 除 。 如 果 当 前 进 
程 是 最 左边 的 结 点 ， 则 将 leftmost 指 针 设 置 到 下 一 个 最 左边 的 进程 。 请 注意 在 我 们 的 例子 中 ,进程 确 
实 已 经 在 就 绪 队 列 上 ， 但 set_next_entity 可 能 从 不 同 地 方 调用 ， 所 以 情况 会 有 所 不 同 。 
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尽管 该 进程 不 再 包含 在 红 黑 树 























kernel/sched _fair.c 
cfs_rq->c 


se->prev_ 


























旦 和 就 绪 队 列 之 间 的 关联 没有 丢失 , 因为 curr 标 记 了 当前 


UD 











> 





， 但 进 














urr = se; 
sum_ exec_runtime = se->sum exec_runtime; 








因为 该 进程 是 当前 活动 进程 ， 在 CPU 上 花费 的 实际 时 间 将 记 入 sum_exec_runtime， 因 此 内 核 会 






































在 prev_sum_exec_runtime 保 存 此 前 的 设置 。 要 注意 进程 中 的 sum_exec_runtime0 口 重 置 。 因 此 差 





全 








sum exec runtime - 





2.6.5 ”处理 周期 性 调度 器 


tick 完 成 。 图 2-22 给 出 了 代码 流程 图 。 


entityatiek 


0 


























prev_sum_exec_runtime 人 确实 表示 了 在 CPU 上 执行 花费 的 实际 时 间 。 



























































在 处 理 周 期 调度 时 前 述 的 差 值 很 重要 。 形式 上 由 函数 task_tick_fair 人 负责 , 但 实际 工作 由 entity_ 


























































































































Check preempt tick 


超出 了 延 信 限制 | 

















图 2-22”entity_tick 的 代码 流程 图 


























f 先 ， 一 如 既往 地 使 用 upaate_curr 更 新 统计 量 。 如 果 队 列 的 nr_running 计 数 器 表明 队列 上 可 
运行 的 进程 少 于 两 个 ， 则 实际 上 无 事 可 做 。 如 果 某 个 进程 应 该 被 抢占 ， 那 么 至 少 需要 有 另 一 个 进程 [] 
















































































抢占 它 。 如 果 进 程 数 











不 少 于 两 个 ， 则 由 check_preempt_tick 作 出 决策 





























kernel/sched _fair.c 
static void 


check _ preempt_ tick(struct cfs_ rq *cfs_rq, struct sched entity *curr) 


{ 


unsigned 


long ideal runtime, delta exec; 


ideal_ runtime = sched_ slicel(cfs_ rq, curr); 


delta_ex 
if (delt 


} 





该 函数 的 目的 在 于 ， 
实际 时 间 长 度 在 sched_slice 中 计算 ， 如 上 文 上 述 ， 进 程 在 CPU 上 已 经 运行 的 实际 时 间 间 隔 
sum_ exec_runtime-prev_sum exec_runtime 给 痊 出 : 因此 抢 5 决策 很 容易 作出 : 





比 期 望 的 时 间 间 隔 长 ， 


Ef 











N 











EED_ RESCH. 





ec = Curr->sum exec_runtime -curr->prev_sum exec_runtime; 
a_exec > ideal_ runtime) 
resched task(rg of (cfs_rq)->curr); 























确保 没有 哪个 进程 能 够 比 延 迟 周 期 中 确定 的 份额 运行 得 更 长 。 该 份额 对 应 的 





















































如 果 进 程 运行 时 间 
那么 通过 rescheqd_task 发 出 重 调度 请 求 。 这 会 在 task_struct 中 设置 TIF_ 






































D 标 志 ， 核 心 调度 器 会 在 下 一 个 适当 时 机 发 起 重 调度 。 
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2.6.6 ”唤醒 抢占 


当 在 try_to_wake_up 和 wake_up_new_task 中 唤醒 进程 时 ， 内 核 使 用 check_preempt_curr 看 看 

进程 可 以 抢占 当前 运行 的 进程 。 请 注意 该 过 程 不 涉及 核心 调度 器 ! 对 完全 公平 调度 器 处 理 的 进 

程 ， 则 由 check_preempt -wakeup 隙 数 执行 该 该 检测 。 
新 唤醒 的 进程 不 必 一 定 由 完全 公平 调度 器 处 理 。 如 果 新 进程 是 一 个 实时 进程 ， 则 会 立即 请 求 重 调 Ci 

度 ， 六 为 实时 进程 总 是 会 抢占 CES 进程 

kernel/sched_fair.c 

static void check preempt wakeup(struct rq *rq, struct 七 aSK_Struct *p) 


{ 














否 划 















































































































































struct task_ struct *curr = rdq->curr; 

struct cfs rq *cfs rq = task cfs raq(curr); 

struct sched entity *se = &curr->se, *pse = &p->se; 
unsigned long gran; 


If (unlikely(rt prio(p->prio))) { 
update rq clock (rg); 
update_curr(cfs_rq); 
resched_ task (curr); 
return; 






































最 便于 处 理 的 情况 是 scHED_BATCH 进 程 ， 根 据 定义 它们 不 抢占 其 他 进程 。 
kernel/sched.c 


If (unlikely(p->policy == SCHED_ BATCH)) 
Feturns 









































当 运 行进 程 被 新 进程 抢占 时 ， 内 核 确 保 被 抢占 者 至 少 已 经 运行 了 某 一 最 小 时 间 限 额 。 该 最 小 值 保 
存在 sysct1_scheq_wakeup_granularity， 我 们 此 前 已 经 遇 到 。 回 想 可 知 其 默认 值 设 置 为 4 毫秒 。 这 
指 的 是 实际 时 间 ， 因 此 在 必要 的 情况 下 内 核 首先 需要 将 其 转换 为 虚拟 时 间 : 







































































kernel/sched_fair.c 
gran = sysctl_ sched wakeup_granularity; 
if (unlikely(se->load.weight != NICE_ 0_LOAD)) 
gran = calc delta fair(gran, &se->load); 








\ 


如 果 新 进程 的 虚拟 运行 时 间 ， 加 上 最 小 时 间 限 额 ,， 仍 然 小 于 当前 执行 进程 的 虚拟 运行 时 间 〈 由 其 
调度 实体 se 表示 ) ， 则 请 求 重 调度 : 
kernel/sched_fair.c 


if (pse->vruntime + gran < se->vruntime) 
rescheqd task (curr); 






































} 

增加 的 时 间 “ 缓 冲 ” 确 保 了 进程 不 至 于 切换 得 太 频 繁 ， 避 免 了 花费 过 多 的 时 间 用 
而 非 实际 工作 。 
2.6.7 “处理 新 进程 


我 们 对 完全 公平 调度 器 需要 考虑 的 最 后 一 个 操作 是 创建 新 进程 时 调用 的 挂钩 函 数 : task_ 
new_fair。 该 函数 的 行为 可 使 用 参数 sysctl_scheqd_chilg_runs_first 控 制 。 顾 名 思 义 ， 该 参数 























于 上 下 文 切换 ， 















































LE 





94 0020 UU0U00D00 






































于 判断 新 建 子 进程 是 否 应 该 在 父 进程 之 前 运行 。 这 通常 是 有 益 的 ， 特 别 是 在 子 进 程 随后 会 执行 exec 
系统 调用 的 情况 下 。 该 参数 的 默认 设置 是 1， 但 可 以 通过 /proc/sys/kernel/scheqd chilg_runs_ 
first 修 改 。 
该 函数 先 用 update_curr 进 行 通常 的 统计 量 更 新 ， 然 后 调用 此 前 讨论 过 的 place_entity: 


kernel/sched _fair.c 
static void task new fair(struct rg *rg, struct task_ struct *p) 


{ 























































































































struct cfs_rq *cfs_ rq = task cfs_ rql(p); 
struct sched entity *se = &p->se, *curr = cfs_rq->curr; 
int this_ cpu = smp_processor_ id(); 


update_curr (cfs_rq); 
place_entity(cfs_rq, se, 1); 











在 这 种 情况 下 ， 调 用 place_entity 时 的 initial 参 数 设置 为 1， 以 便 用 scheq_vslice_aaqq 计 算 
初始 的 vzuntime。 回 想 一 下 ， 可 知 这 实际 上 确定 了 进程 在 延迟 周期 中 所 占 的 时 间 份额 ， 只 是 转换 为 虚 
拟 时 间 。 这 是 调度 器 最 初 向 进程 从 下 的 债务 。 


kernel/sched_fair.c 
if (Sysct1_schedq_chil1dq_ runs_first && curr->vruntime < se->vruntime) { 
swap (curr->vruntime, se->vruntime); 



































} 


enqueue_ task_ fair(rq, p, 0); 
resched task (rgq->curr); 


} 

如 果 父 进程 的 虚拟 运行 时 间 (由 curr 表 示 ) 小 于 子 进程 的 虚拟 运行 时 间 ， 则 意味 着 父 进程 将 在 子 
进程 之 前 调度 运行 。 回 想 一 下 前 文 的 内 容 , 可 知 虚拟 运算 时 间 比 较 小 , 则 在 红 黑 树 中 的 位 置 比较 靠 左 。 
如 果子 进程 应 该 在 父 进程 之 前 运行 ， 则 二 者 的 虚拟 运算 时 间 需 要 换 过 来 。 

然后 子 进程 按 常 规 加 入 就 绕 队 列 ， 并 请 求 重 调度 。 


2.7 ”实时 调度 类 


按照 POSIX 标 准 的 强制 要 求 ， 除 了 “普通 ”进程 之 外 ，Linux 还 支持 两 种 实时 调度 类 。 调 度 器 结 
构 使 得 实时 进程 可 以 平滑 地 集成 到 内 核 中 ， 而 无 需 修改 核心 调度 器 ， 这 显然 是 调度 类 带 来 的 好 处 。” 

现在 比较 适合 于 回想 一 些 很 久 以 前 讨论 过 的 事实 。 实 时 进程 的 特点 在 于 其 优先 级 比 普通 进程 ， 
对 应 地 ， 其 static_prio 值 总 是 比 普通 进程 0 ， 如 图 2-14 所 示 。rt_task 宏 通过 检查 其 优先 级 来 证 实 
给 定 进 程 是 否 是 实时 进程 ， 而 task_has_rt_policy 则 检测 进程 是 否 关 联 到 实时 调度 策略 。 


2.7.1 性 质 
实时 进程 与 普通 进程 有 一 个 根本 的 不 同 之 处 : 如 果 系 统 中 有 一 个 实时 进程 且 可 运行 ,那么 调度 器 
总 是 会 选中 它 运行 ， 除 非 有 另 一 个 优先 级 更 高 的 实时 进程 。 
现 有 的 两 种 实时 类 ， 不 同 之 处 如 下 所 示 。 
口 口 DDOD (scasp_RR) 有 时 间 片 ， 其 值 在 进程 运行 时 会 减少 ， 就 像 是 普通 进程 。 在 所 有 的 时 
间 段 都 到 期 后 ， 则 该 值 重 置 为 初始 值 ， 而 进程 则 置 于 队列 的 末尾 。 这 确保 了 在 有 几 个 优先 级 























































































































































































































































































































































































































Q 完全 公平 调度 器 在 唤醒 抢占 代码 部 分 需要 了 解 实时 进程 的 存在 ， 但 这 需要 的 工作 量 微乎其微 。 
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相同 的 ScHED_RR 进 程 的 情况 下 ， 它 们 总 是 依次 执行 。 
DOO000D0 (scHED_ FIFO) 没有 时 间 片 ， 在 被 调度 器 选择 执行 后 ， 可 以 运行 任意 长 时 间 。 
很 明显 ， 如 果实 时 进程 编写 得 比较 差 ， 系 统 可 能 变 得 无 法 使 用 。 只 要 写 一 个 无 限 循环 ， 循 环 体内 
不 进入 睡眠 即 可 。 在 编写 实时 应 用 程序 时 ， 应 该 多 加 小 心 。” 


2.7.2 ”数据 结构 Ci 
实时 进程 的 调度 类 定义 如 下 : 
kernel/sched-rt.c 
const struct sched class rt_scheq_class = { 
.next = &fair sched class, 
.enqueue task = enqueue task rt, 


.dequeue task = dequeue task rt, 
.yield task = yield task rt, 

























































































.Check preempt_curr = check preempt_curr_rt, 


.pick next task = pick next task rt, 
.put_prev_task = put_prev_ task rt, 


.Set_curr_task = set_curr task rt, 

.task tick = task tick rt, 
下 
实时 调度 器 类 的 实现 比 完 全 公平 调度 器 简单 。 大 约 只 需要 250 行 代码 ， 而 CFS 则 需要 1 100 行 ! 
核心 调度 器 的 就 绪 队 列 也 包含 了 用 于 实时 进程 的 子 就 绪 队 列 ， 是 一 个 散 入 的 struct rt_ra 实 例 : 
kernel/sched.c 
Struct, rd 革 























下 半 本 长 芝 


} 

就 绪 队 列 非常 简单 ， 链 表 就 足够 了 ”: 

kernel/sched.c 

struct rt_ prio array { 
DECLARE_BITMAP (bitmap，MAX_RT_PRIO+1); /* 包含 1 比特 用 于 间隔 符 */ 
struct list head queue[MAX RT PRIO]; 


























过 


struct rt _rdq 1 
struct rt prio array active; 
} 
有 具有 相同 优先 级 的 所 有 实时 进程 都 保存 在 一 个 链表 中 ， 表 头 为 active.queue[priol ， 而 
active.bitmap 位 图 中 的 每 个 比特 位 对 应 于 一 个 链表 ， 几 包含 了 进程 的 链表 ， 对 应 的 比特 位 则 置 位 。 
如 果 链 表 中 没有 进程 ， 则 对 应 的 比特 位 不 置 位 。 图 2-23 说 明了 具体 情形 。 





































































































QD 请 注意 ， 在 内 核 2.6.25 引 入 实时 组 调度 之 后 ， 这 种 情况 会 有 所 绥 解 。 在 本 书 撰写 时 ， 该 特性 仍然 在 开发 中 。 


@ SMP 系 统 需 要 更 多 的 结构 成 员 ， 用 于 负载 均衡 ， 但 我 们 在 此 不 关心 这 些 。 
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图 2-23 ”实时 调度 器 的 就 绪 队 列 

实时 调度 器 类 中 对 应 于 update_cur 的 是 update_curr_rt， 该 函数 将 当前 进程 在 CPU 上 执行 花费 
的 时 间 记 录 在 sum_exec_runtime 中 。 所 有 计算 的 单位 都 是 实际 时 间 ， 不 需要 虚拟 时 间 。 这 样 就 简化 
了 很 多 。 
2.7.3 调度 器 操作 

进程 的 入 队 和 离队 都 比较 简单 。 只 需 以 p->prio 为 索引 访问 aueue 数 组 aueue [p->priol， 即 可 获 
得 正确 的 链表 ， 将 进程 加 入 链表 或 从 链表 删除 即 可 。 如 果 队 列 中 至 少 有 一 个 进程 ， 则 将 位 图 中 对 应 的 
比特 位 置 位 ;如 果 队 列 中 没有 进程 ， 则 清除 位 图 中 对 应 的 比特 位 。 请 注意 ， 新 进程 总 是 排列 在 每 个 链 
表 的 末尾 。 
两 个 比较 有 趣 的 操作 分 别 是 ， 如 何 选择 下 一 个 将 要 执行 的 进程 ， 以 及 如 何 处 理 抢占 。 首 先 考 虑 


pick_next_task_rt， 该 函数 放置 选择 下 一 个 将 执行 的 进程 。 其 代码 流程 图 在 图 2-24 给 出 。 


将 进程 从 队列 移 除 

















































































































































































































































设置 se .exec_start | 








图 2-24 ”pick_next_task_rt 的 代码 流程 图 























sched_fing first_bit 是 一 个 标准 函数 ， 可 以 找到 active.bitmap 中 第 一 个 置 位 的 比特 位 ， 这 
意味 着 高 的 实时 优先 级 (对 应 于 较 低 的 内 核 优先 级 值 )， 因 此 在 较 低 的 实时 优先 级 之 前 处 理 。 取 出 所 
选 链表 的 第 一 个 进程 ， 并 将 se .exec_start 设 置 为 就 绪 队 列 的 当前 实际 时 钟 值 ， 即 可 。 

周期 调度 的 实现 同样 简单 。scHED_FIFO 进 程 最 容易 处 理 。 它 们 可 以 运行 任意 长 的 时 间 ， 而 且 必 
须 使 用 yield 系 统 调用 将 控制 权 显 式 传递 给 另 一 个 进程 : 

kernel/sched.c 

static void task tick rt(struct rq *rq, struct task_ struct *p) 


{ 
























































































































































update_curr_rt (rq); 

















* 循环 进程 需要 一 种 特殊 形式 的 时 间 片 管理 。 
* 先进 先 出 进程 没有 时 间 片 。 
yy 
if (p->policy != SCHED_ RR) 
return; 
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如 果 当 前 进程 是 循环 进程 ， 则 减少 其 时 间 片 。 在 尚未 超出 时 间 段 时 ， 没 什么 可 作 的 ， 进 程 可 以 继 
续 执 行 。 计 数 器 归 0 后 ， 其 值 重 置 为 DEF_TIMESLICE， 即 100 * Hz / 1000， 亦 即 100 毫 秒 。 如 果 该 进 
程 不 是 链表 中 唯一 的 进程 ， 则 重新 排队 到 末尾 。 通 过 用 set_tsk_need_resched 设 置 TIF_NEED_ 
RESCHED 标 志 ， 照 常 请 求 重 调度 : 


kernel/sched-rt.c 
if (--p->time slice) 


return; 
































































































































p->time_slice = DEF_TIMESLICE; 


过 


* 如 果 不 是 队列 上 的 唯一 成 员 ， 则 重新 排队 到 末尾 。 








过 关 

if (p->run_list.prev != p->run list.next) { 
requeue task rt(rqgq, p); 
set_tsk need resched(p); 

} 


} 
为 将 进程 转换 为 实时 进程 ,必须 使 用 scheqd_setscheduler 系 统 调用 。 这 里 不 详细 讨论 该 函数 了 ， 
因为 它 只 执行 了 下 列 简 单 任务 。 
口 使 用 aeactivate_task 将 进程 从 当前 队列 移 除 。 
口 在 task_struct 中 设置 实时 优先 级 和 调度 类 。 
口 重新 激活 进程 。 
如 果 进 程 此 前 不 在 任何 就 绪 队 列 上 ， 那 么 只 需要 设置 调度 类 和 新 的 优先 级 数值 。 停止 进 程 活动 和 
重 激 活 则 是 不 必要 的 。 
要 注意 ， 只 有 上 共有 root 权 限 (或 等 价 于 cAP_SYS_NICE) 的 进程 执行 了 sched_setscheduler 系 统 
]， 才 能 修改 调度 器 类 或 优先 级 。 耕 则 ， 下 列 规则 适 
口 调度 类 只 能 从 SCHED_NORMAL 改 为 SCHED_BATCH， 或 反 过 来 。 改 为 SCHED_FIFO 是 不 可 能 丸 
口 具有 目标 进程 的 UID 或 EUID 与 调用 者 进程 的 EUID 相 同时 , 才能 修改 目标 进程 的 优先 级 。 此外， 
优先 级 只 能 降低 ， 不 能 提升 。 
2.8 调度 器 增强 
到 目前 为 止 ， 我 们 只 考虑 了 实时 系统 上 的 调度 。 事 实 上 ，Linux 可 以 做 得 更 好 些 。 除 了 支持 多 个 
CPU 之 外 ， 内 核 也 提供 其 他 几 种 与 调度 相关 的 增强 功能 ， 在 以 后 几 节 里 会 论述 。 但 请 注意 ， 这 些 增强 
功能 大 大 增加 了 调度 器 的 复杂 性 ， 因 此 我 主要 考虑 简化 的 情形 ， 目 的 在 于 说 明 实 质 性 的 原理 ， 而 不 考 
虑 所 有 的 边界 情形 和 调度 中 出 现 的 奇异 情况 。 
2.8.1 ”SMP 调度 
多 处 理 器 系统 上 ， 内 核 必须 考虑 几 个 额外 的 问题 ， 以 确保 良好 的 调度 。 
口 CPU 负荷 必须 尽 可 能 公平 地 在 所 有 的 处 理 器 上 共享 。 如 果 一 个 处 理 器 负责 3 个 并 发 的 应 用 程 
序 ， 而 另 一 个 只 能 处 理 空闲 进程 ， 那 是 没有 意义 的 。 
口 进程 与 系统 中 某 些 处 理 器 的 0 口 口 (affinity) 必须 是 可 设置 的 。 例 如 在 4 个 CPU 系统 中 ， 可 以 
将 计算 密集 型 应 用 程序 绑 定 到 前 3 个 CPU， 而 剩余 的 《交互 式 ) 进程 则 在 第 4 个 CPU 上 运行 。 
口 内 核 必 须 能 够 将 进程 从 一 个 CPU 迁移 到 另 一 个 。 但 该 选项 必须 谨慎 使 用 ， 因 为 它 会 严重 危害 
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性 能 。 在 小 型 SMP 系 统 上 CPU 高 速 绥 存 是 最 大 的 问题 。 对 于 口 口 大 型 系统 ，CPU 与 迁移 进程 此 
前 使 用 的 物理 内 存 距离 可 能 有 若干 米 ， 因 此 对 该 进程 内 存 的 访问 代价 高 昂 。 
进程 对 特定 CPU 的 亲 合 性 ， 定 义 在 task_struct 的 cpus_allowedq 成 员 中 。Linux 提 供 了 



















































































scheq_setaffinity 系 统 调用 ， 可 修改 进程 与 CPU 的 现 有 分 配 关系 。 


[dl 








1. 数据 结构 的 扩展 
在 SMP 系 统 上 ， 每 个 调度 器 类 的 调度 方法 必须 增加 两 个 额外 的 函数 : 


<sched.h> 
struct sched class { 


#ifdef CONFIG_ SMP 
unsigned long (*load balance) (struct rq *this rq, int this_cpu, 
struct rq *busiest, unsigned long max load move, 
struct sched _ domain *sd, enum cpu_ idle type idle, 
int *all pinned, int *this_ best prio); 


int (*move_one task) (struct rq *this rg, int this_cpu, 
struct rq *busiest, struct sched domain *sd, 
enum cpu_idle type idle); 
#endif 


ge 
虽然 其 名 字 称 之 为 1oad_balance， 但 这 些 函 数 并 不 直接 负责 处 理 负载 均衡 。 每 当 内 核 认为 有 必 
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要 
人 


各 得 核心 调度 器 能 够 遍历 所 有 可 能 迁移 到 男 一 个 队列 的 备 选 进程 ,但 各 个 调度 器 类 的 内 部 结构 0 0 因 
为 迭代 器 而 暴露 给 核心 调度 器 。load_balance 函 数 指针 采用 了 一 般 性 的 函数 loag_balance， 而 


新 均衡 时 ， 核 心 调度 器 代码 都 会 调用 这 些 函 数 。 特 定 于 调度 器 类 的 函数 接 下 来 建立 一 个 迭代 器 ， 
























































move_one_task 则 使 有 了 IILer_move_one _ task。 这 些 函 数 月 日 于 不 同 的 目的 。 


述 完 成 所 有 系统 都 需要 的 任务 之 后 ， 会 调用 trigger_loaq_balance 图 数 。 这 会 引发 SCHEDULE 
SOFTIRQ 软 中 断 softIRQ 《硬件 中 断 的 软件 模拟 ， 更 多 细节 请 参见 第 14 章 ) ， 该 中 断 确保 会 在 适当 的 时 














口 iter_move_one_task 从 最 忙碌 的 就 绪 队 列 移出 一 个 进程 ， 迁 移 到 当前 CPU 的 就 绪 队 列 。 
口 load_balance 则 允许 从 最 忙 的 就 绪 队 列 分 配 多 个 进程 到 当前 CPU， 但 移动 的 负 蓓 不 能 比 
max_load_move 更 多 。 


负载 均衡 处 理 过 程 是 如 何 发 起 的 ? 在 SMP 系 统 上 ， 周 期 性 调度 器 函数 scheduler_tick 按 上 文 所 























































































































机 执行 zun_rebalance_domains。 该 函数 最 终 对 当前 CPU 调 用 rebalance_domains， 实 现 负 载 均衡 。 
时 序 如 图 2-25 所 示 。 








定时 器 
(一 scheduler_ tick 
trigger_load balance 


WW 一 > |run rebalance domains rebalance_ domains 


中 断 










引发 
SCHEDULE_SOFTIRQ 









图 2-25 ”在 SMP 系 统 上 发 起 负载 均衡 的 时 序 
为 执行 重新 均衡 的 操作 ， 内 核 需 要 更 多 信息 。 因 此 在 SMP 系 统 上 ， 就 绪 队 列 增加 了 额外 的 字段 : 
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kernel/sched.c 
Struct Eq 


#ifdef CONFIG_ SMP 
struct sched _ domain *sd; 
/* 用 于 主动 均衡 */ 
int active_ balance; 
int push cpu; 
/* 该 就 绪 队 列 的 CPU: */ 
int Cpu 























struct task_ struct *migration thread; 
struct list head migration queue; 
#endif 


} 

就 绪 队 列 是 特定 于 CPU 的 ， 因 此 cpu 表 示 了 该 就 绕 队 列 所属 的 处 理 器 。 内 核 为 每 个 就 绪 队 列 提供 
了 一 个 0 0 0 D ， 可 以 接收 迁移 请 求 ， 这 些 请 求 保 存在 链表 migration_oueue 中 。 这 样 的 请 求 通常 发 
源 于 调度 器 自身 ， 但 如 果 进 程 被 限制 在 某 一 特定 的 CPU 集合 上 ， 而 不 能 在 当前 执行 的 CPU 上 继续 运行 
时 ， 也 可 能 出 现 这 样 的 请 求 。 内 核 试 图 周期 性 地 均衡 就 绪 队 列 ， 但 如 果 对 某 个 就 绪 队 列 效 果 不 佳 ， 则 
必须 使 用 主动 均衡 〈active balancing)。 如 果 需 要 主动 均衡 ， 则 将 active_balance 设 置 为 非 零 值 ， 而 
cpu 则 记录 了 从 哪个 处 理 器 发 起 的 主动 均衡 请 求 。 

此 外 ， 所 有 的 就 绪 队 列 组 织 为 DD 口 “ (scheduling domain)。 这 可 以 将 物理 上 邻近 或 共享 高 速 缓存 
的 CPU 群 集 起 来 ， 应 优先 选择 在 这 些 CPU 之 间 迁 移 进程 。 但 在 “ 兽 通 ”的 SMP 系 统 上 ， 所 有 的 处 理 器 
都 包含 在 一 个 调度 域 中 。 因 此 我 不 会 详细 讨论 该 结构 ， 要 提 的 一 点 是 该 结构 包含 了 大 量 参数 ， 可 以 通 
过 /proc/sys/kernel/cpuX/domainY 设 置 。 其 中 包括 了 在 多 长 时 间 之 后 发 起 负载 均衡 (包括 最 大 /最 
小 时 间 间 隔 )， 导 致 队列 需要 重新 均衡 的 最 小 不 平衡 值 ， 等 等 。 此 外 该 结构 还 管理 一 些 字 段 ， 可 以 在 
运行 时 设置 ， 使 得 内 核能 够 跟踪 记录 上 一 次 均衡 操作 在 何 时 执行 ， 下 一 次 将 在 何 时 执行 。 
那么 1oad_balance 做 什么 呢 ? 该 函数 会 检测 在 上 一 次 重新 均衡 操作 之 后 是 否 已 经 过 去 了 足够 的 
时 间 ， 在 必要 的 情况 下 通过 调用 loaq_balance 发 起 一 轮 新 的 重新 均衡 操作 。 该 函数 的 代码 流程 图 如 
图 2-26 所 示 。 请 注意 ， 我 在 该 图 中 描述 的 是 一 个 简化 的 版 本 ， 因 为 SMP 调 度 器 必须 处 理 大 量 边 边 角 
的 情况 。 如 果 都 画 出 来 ， 相 关 的 细节 会 扰乱 图 中 真正 的 实质 性 操作 。 


1oadq_balance 


忙 的 队列 上 进程 多 于 1 个 ? 



























































































































































































































































































































































[dl 
四 时 
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move_tasks class->load_ balance 














均衡 操作 失败 ? “上 一 >| 唤醒 迁移 进 各 




















图 2-26 ”1loadq_balance 的 代码 流程 民 

首先 该 函数 必须 标识 出 哪个 队列 工作 量 最 大 。 该 任务 委托 给 find_busiest_cueue， 后 者 对 一 个 
特定 的 就 绪 队 列 调用 。 函 数 迭 代 所 有 处 理 器 的 队列 《或 确切 地 说 ， 当 前 调度 组 中 的 所 有 处 理 器 ) ， 比 
较 其 负荷 权重 。 最 忙 的 队列 就 是 最 后 找到 的 负荷 值 最 大 的 队列 。 
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在 findq_busiest_cueue 标 识 出 一 个 非常 繁忙 的 队列 之 后 ， 如 果 至 少 有 一 个 进程 在 该 队列 上 执行 
(否则 负载 均衡 就 没 多 大 意义 )， 则 使 用 move_tasks 将 该 队列 中 适当 数目 的 进程 迁移 到 当前 队列 。 











move_tasks 函 数 接 下 来 会 调用 特定 于 调度 器 类 的 lo0ad_balance 方 法 。 
在 选择 被 迁移 的 进程 时 ， 内 核 必须 确保 所 述 的 进程 : 






























































该 进程 则 完全 抵消 了 高 速 缓 存 带 来 的 好 处 ; 
口 根据 其 CPU 亲 合 性 ， 可 以 在 与 当前 队列 关联 的 处 理 器 上 执行 。 















































口 目前 没有 运行 或 刚 结 束 运行 ， 因 为 对 运行 进程 而 言 ，CPU 高 速 缓 存 充 满 了 进程 的 数据 ， 迁 移 





如 果 均 衡 操作 失败 例如 ， 远 程 队列 上 所 有 进程 都 有 较 高 的 内 核 内 部 优先 级 值 ， 即 较 低 的 nice 
值 )， 那 么 将 唤醒 负责 最 忙 的 就 绪 队 列 的 迁移 线程 。 为 确保 主动 负载 均衡 执行 得 比 上 述 方法 更 积极 一 





















































点 ，1load_balance 会 设置 最 忙 的 就 绪 队 列 的 active_balance 标 志 ， 将 发 起 请 求 的 CPU 记录 到 








rq->cpu。 


2. 迁移 线程 


























迁移 线程 用 于 两 个 目的 ,一 个 是 用 于 完成 发 自 调度 器 的 迁移 请 求 , 另外 一 个 是 用 于 实现 主动 均衡 。 
迁移 线程 是 一 个 执行 migration_thread 的 内 核 线 程 。 该 函数 的 代码 流程 图 如 图 2-27 所 示 。 






































migration thread 


设置 了 rq->active_balance? | 


active_load_balance 


move_one_task 
























没有 迁移 请 求 ? 










class-> 






获取 迁移 请 求 


__migrate_task | 


图 2-27 migration_threagd 的 代码 流程 图 


migration_thread 内 部 是 一 个 无 限 循 环 ， 在 无 事 可 做 时 进入 睡眠 状态 。 





人 迭代 所 有 的 调度 器 类 



































move one task 











首先 ， 该 函数 检测 是 否 




















需要 主动 均衡 。 如 果 需 要 ， 则 调用 active_loaq_balance 满 足 该 请 求 。 该 函数 试图 从 当前 就 绪 队 列 移 





















































出 一 个 进程 ， 且 移 至 发 起 主动 均衡 请 求 CPU 的 就 绕 队 列 。 它 使 用 move_one_task 完 成 该 工作 ， 后 者 又 

















对 所 有 的 调度 器 类 ， 分 别 调用 特定 于 调度 器 类 的 move_one_task 函 数 ， 直 至 其 中 一 个 成 功 。 注 意 ， 这 
些 函 数 移动 进程 时 会 尝试 比 l0ad_balance 更 激烈 的 方法 。 例 如 ， 它 们 不 进行 此 前 提 到 的 优先 级 比较 ， 



































天 此 它们 更 有 可 能 成 功 。 
完成 主动 负载 均衡 之 后 ， 迁 移 线程 会 检测 migrate_req 链 表 中 是 否 有 来 



























































出 所 要 求 的 进程 ， 而 不 再 与 调度 器 类 进一步 交互 。 
3. 核心 调度 器 的 改变 











自 调度 器 的 待 决 迁 移 请 





求 。 如 果 没 有 ， 则 线程 发 出 重 调度 请 求 。 否 则 ， 用 _ migrate_task 完 成 相关 请 求 ， 该 函数 会 直接 移 

















除了 上 述 增加 的 特性 之 外 ,在 SMP 系 统 上 还 需要 对 核心 调度 器 的 现存 方法 作 一 些 修 改 。 昌 然 到 处 
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都 是 一 些小 的 细节 变化 ， 与 单 处 理 器 系统 相 比 最 重要 的 差别 如 下 所 示 。 

















口 在 用 exec 系 统 调用 启动 一 个 新 进程 时 ， 
实 上 ， 该 进程 尚未 执行 ， 因 此 将 其 移动 至 

















是 调度 器 跨越 CPU 移 
| 另 一 个 CPU 不 会 带 来 对 CPU 高 速 缓 存 的 负面 效应 。 








动 该 进程 的 一 个 恨 好 的 时 机 。 事 























exec 系 统 调用 会 调用 挂钩 函数 schedq_exec， 其 代码 流程 图 如 图 2-28 所 示 。 


scheq_balance_self 挑 选 当前 负荷 最 少 的 CPU《〈 而 上 


















































进程 得 允许 在 该 CPU 上 运行 ) 。 如 果 不 





是 当前 CPU， 那 么 会 使 用 scheqd_migrate_task， 问 迁移 线程 发 送 一 个 迁移 请 求 。 





口 完全 公平 调度 器 的 调度 粒度 与 CPU 的 数 
































目 是 成 比例 的 。 系 统 中 处 理 器 越 多 ， 可 以 采用 的 调度 








粒度 就 越 大 。 sysctl_sched min granularity 利 sysct1_scheq_latency 都 乘 以 校正 因子 1 
+logsxnr_cpus)， 其 中 nr_cpus 表 示 现 有 的 CPU 的 数目 。 但 它们 不 能 超出 200 上 毫秒 。 
sysct1_sched_wakeupb_granularity 也 需要 乘 以 该 因子 ， 但 没有 上 界 。 


sched_exec 


























sched_ balance self | 

















2.8.2 ”调度 域 和 控制 组 











图 2-28 























scheqd_exec 的 代码 流程 图 








在 此 前 对 调度 器 代码 的 讨论 中 ， 调 度 器 并 不 直接 与 进程 交互 ， 而 是 处 理 0D 0 UD DU 。 这 使 得 可 以 





实现 0 0 0 : 进程 置 于 不 同 的 组 中 ， 调 度 器 首先 在 这 些 组 之 间 保 证 公平 ， 然 后 在 组 中 的 所 有 进程 之 间 














保证 公平 。 举 例 来 说 ， 这 使 得 可 以 向 每 个 用 

















"授予 相同 




















的 CPU 时 间 份 额 。 在 调度 器 确定 每 个 用 户 获 得 














多 长 时 间 之 后 ， 确 定 的 时 间 间 隔 以 公平 的 方式 分 配 到 该 用 户 的 进程 。 事 实 上 ， 这 意味 着 一 个 用 户 运行 














的 进程 越 多 ， 那 么 每 个 进程 获得 的 CPU 份额 避 




















口 
时 集合 ， 




















甚至 可 以 分 为 多 个 


















































EC 越 少 。 但 用 户 获 得 的 总 时 间 不 受 进程 数目 的 影响 。 
把 进程 按 用 户 分 组 不 是 唯一 可 能 的 做 法 。 内 核 还 提供 了 D D DO 《control group)， 该 特性 使 得 通过 
特殊 文件 系统 cgroups 可 以 创建 任意 的 进 和 


人 可 调度 实体 
\ 进程 
/ ~ pe % 4 ~~ / ` 

















层次 。 该 情形 如 图 2-29 所 示 。 





























图 2-29 公平 的 组 调度 概观 : 可 用 的 CPU 时 间 首 先 加 
公平 地 分 配 ， 然 后 在 每 个 组 内 的 进程 之 间 分 配 





























E 调 度 组 之 间 























为 反映 内 核 中 的 此 种 层次 化 情形 , struct scheq_entity 增 加 了 一 个 成 员 , 用 以 表示 这 种 层次 结构 : 





<sched.h> 
struct sched entity { 


#ifdef CONFIG FAIR_ GROUP_SCHI 





ED 


struct sched entity *parent; 
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#endif 
所 有 调度 类 相关 的 操作 ， 都 必须 考虑 到 调度 实体 的 这 种 子 结构 。 举 例 来 说 ， 考 虑 一 下 在 完全 公平 
调度 器 将 进程 加 入 就 绪 队 列 的 实际 代码 : 


kernel/sched fair.c 
static void enqueue task fair(struct rg *rq, struct task_ struct *p, int wakeup) 


{ 




















Struct. ‘CES EG “CES Eo 
struct sched entity *se = &p->se; 


for_each sched entity(se) { 
if (se->on_ rq) 
break; 
CES_ Ed = CES ra Of'(Se); 
enqueue entityl(cfs_ rq, se, wakeup); 
wakeup = 1; 
} 
} 
for_each_sched_entity 会 遍历 由 scheqd_entity 的 parent 成 员 定 义 的 调度 层次 结构 , 每 个 实体 
都 加 入 到 就 绪 队 列 。 
请 注意 ，for_each_sched_entity 实 际 上 是 一 个 平凡 的 循环 。 如 果 未 选择 文 持 组 调度 ， 则 会 退 
化 为 只 执行 一 次 循环 体 中 的 代码 ， 因 此 又 恢复 了 先前 的 讨论 所 描述 的 行为 特性 。 


2.8.3 内核 抢占 和 低 延 迟 相 关 工 作 


我 们 现在 把 注意 力 转向 内 核 抢占 , 该 特性 用 来 为 系统 提供 更 平滑 的 体验 , 特别 是 在 多 媒体 环境 下 。 
与 此 密切 相关 的 是 内 核 进行 的 低 延 迟 方面 的 工作 ， 我 会 稍 后 讨论 。 
1. 内 核 抢占 
如 上 所 述 ， 在 系统 调用 后 返回 用 户 状态 之 前 ， 或 者 是 内 核 中 某 些 指定 的 点 上 ， 都 会 调用 调度 器 。 
这 确保 除了 一 些 明 确 指定 的 情况 之 外 ， 内 核 是 无 法 中 断 的 ， 这 不 同 于 用 户 进程 。 如 果 内 核 处 于 相对 耗 
时 较 长 的 操作 中 ， 比 如 文件 系统 或 内 存 管理 相关 的 任务 ， 这 种 行为 可 能 会 带 来 问题 。 内 核 代 表 特 定 的 
进程 执行 相当 长 的 时 间 ， 而 其 他 进程 则 无 法 运行 。 这 可 能 导致 系统 延迟 增加 ， 用 户 体 验 到 “缓慢 的 ” 
响应 。 如 果 多 媒体 应 用 长 时 间 无 法 得 到 CPU， 则 可 能 发 生 视 频 和 音频 漏 失 现象 。 
在 编译 内 核 时 启用 对 0 DDD 的 支持 , 则 可 以 解决 这 些 问题 。 如 果 高 优先 级 进程 有 事情 需要 完成 ， 
那么 在 启用 内 核 抢占 的 情况 下 ， 不 仅 用 户 空 间 应 用 程序 可 以 被 中 断 ， 内 核 也 可 以 被 中 断 。 切 记 ， 内 核 
抢占 和 用 户 层 进程 被 其 他 进程 抢占 是 两 个 不 同 的 概念 ! 
内 核 抢 占 是 在 内 核 版 本 2.5 开 发 期 间 增加 的 。 尽 管 使 内 核 可 抢占 所 需 的 改动 非常 少 ， 但 该 机 制 不 
像 抢占 用 户 空间 进程 那样 容易 实现 。 如 果 内 核 无 法 一 次 性 完成 某 些 操作 〈 例 如 ， 
Bb 么 可 能 出 现 0 DDD 而 使 得 系统 不 一 致 。 在 多 处 理 器 系统 上 出 现 的 同样 的 问题 会 在 第 5 章 论 
因此 内 核 不 能 者 II 
在 实现 内 核 抢占 时 可 以 重用 这 些 信息 。 内 核 的 某 些 易 于 出 现 问题 的 部 分 每 次 具 能 由 一 个 处 理 器 访 
问 ， 这 些 部 分 使 用 所 谓 的 0 口 口 保护 : 到 达 和 危险 区 域 〈 亦 称 之 为 临界 区 ) 的 第 一 个 处 理 器 会 获得 锁 ， 
在 离开 该 区 域 时 释放 该 锁 。 另 一 个 想 要 访问 该 区 域 的 处 理 器 在 此 期 间 必须 等 待 ， 直 到 第 一 个 处 理 器 释 
放 锁 为 止 。 只 有 此 时 它 才 能 获得 锁 并 进入 临界 区 。 
如 果 内 核 可 以 被 抢占 ， 即 使 单 处 理 器 系统 也 会 像 是 SMP 系 统 。 考 虑 正在 临界 区 内 部 工作 的 内 核 被 






















































































































































































rr 证 过 寺 








































































































































































































沽 六 































































































































































































































































































哮 











2.8 0U00000 103 















































抢占 的 情形 。 下 一 个 进程 也 在 核心 态 操作 ， 凌 巧 也 想 要 访问 同一 个 临界 区 。 这 实际 上 等 价 于 两 个 处 理 
器 在 临界 区 中 工作 ， 我 们 必须 防止 这 种 情形 。 每 次 内 核 进入 临界 区 时 ， 我 们 必须 停 用 内 核 抢 占 。 

内 核 如 何 跟 踪 它 是 否 能 够 被 抢占 ?回想 一 下 , 可 知 系统 中 的 每 个 进程 都 有 一 个 特定 于 体系 结构 和 
struct thread_info 实 例 。 该 结构 也 包含 了 一 个 DDDDD (preemption counter ): 


<asm-arch/thread_info.h> 
struct thread info { 




































































int preempt_count; /* 0 => 可 抢占 ， <0 => BUG */ 


} 

该 成 员 的 值 确定 了 内 核 当前 是 否 处 于 一 个 可 以 被 中 断 的 位 置 。 如 果 preempt_count 为 零 ， 则 内 核 
可 以 被 中 断 ， 和 否则 不 行 。 该 值 不 能 直接 操作 ， 只 能 通过 辅助 函数 aec_preempt_count 和 inc_preempt_ 
count， 这 两 个 函数 分 别 对 计数 器 减 1 和 加 1。 每 次 内 核 进 入 重要 区 域 ， 需 要 禁止 抢占 时 ， 都 会 调用 
inc_preempt_count。 在 退出 该 区 域 时 ， 则 调用 dec_preempt_count 将 抢占 计数 器 的 值 减 1。 由 于 内 
核 可 能 通过 不 同 路 线 进入 某 些 重要 的 区 域 ， 特 别 是 典 套 的 路 线 ， 因 此 preempt_count 使 用 简单 的 布 
尔 变 量 是 不 够 的 。 在 陆续 进入 多 个 临界 区 时 ， 在 内 核 再 次 启用 抢占 之 前 ， 必 须 确认 已 经 离开 0 0 的 
临界 区 。 
dec_preempt_count 和 inc_preempt_count 调 用 会 集成 到 SMP 系 统 的 同步 操作 中 (参见 第 5 章 ) 。 
无 论 如 何 ， 对 这 两 个 函数 的 调用 都 已 经 出 现在 内 核 的 所 有 相关 点 上 ， 因 此 抢占 机 制 只 需 重 用 现存 的 基 
础 设施 即 可 。 

还 有 更 多 的 例 程 可 用 于 抢占 处 理 。 

口 breempt_disable 通 过 调用 inc_preempt_count 停 用 抢占 。 此 外 ， 会 指示 编译 器 避免 某 些 内 

存 优化 ， 以 免 导致 某 些 与 抢占 机 制 相关 的 问题 。 

口 preempt_check_resched 会 检测 是 否 有 必要 进行 调度 ， 如 有 必要 则 进行 。 
口 preempt_enable 启 用 内 核 抢 占 ， 然 后 用 preempt_check_resched 检 测 是 否 有 必要 重 调度 。 


口 preempt_disable_no_resched 停 用 抢占 ， 但 不 进行 重 调度 。 
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内 核 如 何 知 道 是 否 需 要 抢占 ? 首先 ， 必 须 设置 TIF_NEED_RESCHED 标 志 来 通知 有 进程 在 等 待 得 到 
CPU 时 间 。 这 是 通过 preempt_check_resched 来 确认 的 : 

<preempt.h> 

#define preempt_ check_ resched() \ 

Qo {\ 


If (unlikely (test_ thread flag (TIF_NEED RESCHED))) \ 
preempt_schedule(); \ 
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} while (0) 
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我 们 知道 该 函数 是 在 抢占 停 用 后 重新 启用 时 调用 的 , 此 时 检测 是 否 有 进程 打算 抢占 当前 执行 的 内 
核 代码 ， 是 一 个 比较 好 的 时 机 。 如 果 是 这 样 ， 则 应 尽快 完成 ， 而 无 需 等 待 下 一 次 对 调度 器 的 例 行 调用 。 
抢占 机 制 中 主要 的 函数 是 preempt_schedule。 设置 了 TIF_NEED_RESCHED 标 志 ， 并 不 能 保证 一 定 
可 以 抢占 内 核 ， 内 核 0 0 D 正 处 于 临界 区 中 ， 不 能 被 干扰 。 可 以 通过 preempt_reschedule 检 查 : 


kernel/sched.c 
asmlinkage void __sched preempt_ schedule (void) 


{ 












































































































































struct thread_ info *ti = current_ thread_ info(); 

/* 

* 如 果 preempt_count 非 零 ， 或 中 断 停 用 ， 

* 我 们 不 想 要 抢占 当前 进程 ， 返 回 即 可 。 

*/ 

if (unlikely (ti->preempt_count irgqs_disabled())) 
return; 


















































如 果 抢占 计数 器 大 于 0， 那 么 抢占 仍然 是 停 用 的 ， 因 此 内 核 不 能 被 中 断 ， 该 函数 立即 结束 。 如 果 
在 某 些 重要 的 点 上 内 核 停 用 了 硬件 中 断 ， 以 保证 一 次 性 完成 相关 的 处 理 ， 那 么 抢占 也 是 不 可 能 的 。 
irqs_disabled 会 检测 是 否 停 用 了 中 断 ， 如 果 已 经 停 用 ， 则 内 核 不 能 被 抢占 。 

如 果 可 以 抢占 ， 则 需要 执行 下 列 步 又: 


kernel/sched.c 
do { 
































































































































add_preempt_count (PREEMPT_ ACTIVE); 


Schedule (); 





sub_preempt_count (PREEMPT_ ACTIVE); 























/* 
* 再 次 检查 ， 以 免 在 schedule 和 当前 点 之 间 错 过 了 抢占 的 时 机 。 
大 
/ 
} while (unlikely (test_ thread flag (TIF_NEED RESCHED))); 























在 调用 调度 器 之 前 ， 抢 占 计数 器 的 值 设 置 为 PREEMPT_AcTIVE。 这 设置 了 抢占 计数 器 中 的 一 个 标 
志 位 ， 使 之 有 一 个 很 大 的 值 ， 这 样 就 不 受 普通 的 抢占 计数 器 加 1 操作 的 影响 了 ， 如 图 2-30 所 示 。 它 向 
schedule 函 数 表 明 ， 调 度 不 是 以 普通 方式 引发 的 ， 而 是 由 于 内 核 抢 占 。 在 内 核 重 调度 之 后 ， 代 码 流 程 
到 当前 进程 。 此 时 标志 位 已 经 再 次 移 除 ， 这 可 能 是 在 一 段 时 间 之 后 ， 此 间 的 这 段 时 间 供 抢先 的 进程 
执行 。 
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[| 抢占 计数 器 | 
7 
PREEMPT_ACTIVE 
图 2-30 ”进程 的 抢占 计数 器 
此 前 我 忽略 了 该 标志 与 schedule 的 关系 ， 因 此 必须 在 这 里 讨论 。 我 们 知道 ， 如 果 进 程 目前 不 处 


于 可 运行 状态 ， 则 调度 器 会 用 deactivate_task 停 止 其 活动 。 实 际 上 ， 如 果 调 度 是 由 抢占 机 制 发 起 的 
(查看 抢占 计数 器 中 是 否 设 置 了 PREEMPT_ACTIVE)， 则 会 跳 过 该 操作 : 

kernel/sched.c 

asmlinkage void __sched schedule(void) { 














































































































if (prev->state && ! (preempt count() & PREEMPT ACTIVE)) { 
if (unlikely( (prev->state & TASK_ INTERRUPTIBLE) && 
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unlikely(signal pending(prev)))) { 
prev->state = TASK_RUNNING; 
} else { 
deactivate_task(rq, prev, 1); 


} 


一 


} 

这 确保 了 尽 可 能 快速 地 选择 下 一 个 进程 ， 而 无 需 停止 当前 进程 的 活动 。 如 果 一 个 高 优先 级 进程 在 
等 待 调度 ， 则 调度 器 类 将 会 选择 该 进程 ， 使 其 运行 。 

该 方法 只 是 触发 内 核 抢占 的 一 种 方法 。 另 一 种 激活 抢占 的 可 能 方法 是 在 处 理 了 一 个 硬件 中 断 请 求 
之 后 。 如 果 处 理 器 在 处 理 中 断 请 求 后 返回 核心 态 〈 返 回 用 “状态 则 没有 影响 ) ， 特 定 于 体系 结构 的 汇 
例 程 会 检查 抢占 计数 器 值 是 否 为 0， 即 是 否 允许 抢占 ， 以 及 是 否 设 置 了 重 调度 标志 ， 类 似 于 
preempt_schedule 的 处 理 。 如 果 两 个 条 件 都 满足 , 则 调用 调度 器 , 这 一 WE schequle 
irq， 表 明 抢 占 请 求 发 自 中 断 上 下 文 。 该 函数 和 preempt_schedule 之 间 的 本 质 区 别 是 ，preempt_ 
schedule_irq 调 用 时 停 用 了 中 断 ， 防 止 中 断 造 成 递归 调用 。 

根据 本 节 讲 述 的 方法 可 知 , 启用 了 抢占 特性 的 内 核能 够 比 普通 内 核 更 快速 地 用 紧急 进程 奉 代 当前 
进程 。 

2. 低 延 迟 

当然 ， 即 使 没有 局 用 内 核 抢占 ， 内 核 也 很 关注 提供 良好 的 延迟 时 间 。 例 如 ， 这 对 于 网 络 服务 器 是 
很 重要 的 。 尽 管 此 类 环境 不 需要 内 核 抢 占 引 入 的 开销 , 但 内 核 仍 然 应 该 以 合理 的 速度 响应 重要 的 事件 。 
例如 ， 如 果 一 网 络 请 求 到 达 ， 需 要 守护 进程 处 理 ， 那 么 该 请 求 不 应 该 被 执行 繁重 IO 操作 的 数据 库 过 度 
延迟 。 我 已 经 讨论 了 内 核 提供 的 一 些 用 于 缓解 该 问题 的 措施 : CFS 和 内 核 抢占 中 的 调度 延迟 。 第 5 章 中 
将 讨论 的 实时 互 斥 量 也 有 助 于 解决 该 问题 ， 但 还 有 一 个 与 调度 有 关 的 操作 能 够 对 此 有 所 帮助 。 
基本 上 ， 内 核 中 耗 时 长 的 操作 不 应 该 完全 5 据 整 个 系统 。 相 反 ， 它 们 应 该 不 时 地 检测 是 否 有 另 一 
个 进程 变 为 可 运行 ， 并 在 必要 的 情况 下 调用 调度 器 选择 相应 的 进程 运行 。 该 机 制 不 依赖 于 内 核 抢占 ， 
即使 内 核 连 编 时 未 指定 支持 抢占 ， 也 能 够 降低 延迟 。 

发 起 有 条 件 重 调度 的 函数 是 cond_resched。 其 实现 如 下 : 


kernel/sched.c 
int __sched congd resched (void) 


{ 
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if (need resched() && !(preempt count() & PREEMPT ACTIVE)) 
__Ccongd resched(); 
return 1; 

} 

return 0; 


} 

need_resched 检 查 是 否 设置 了 TIF_NEED_RESCHED 标 志 , 代码 另外 还 保证 内 核 当 前 没有 被 抢占 ®， 
因此 允许 重 调度 。 只 要 两 个 条 件 满足 ， 那 么 __cong_resched 会 处 理 必要 的 细节 并 调用 调度 器 。 

如 何 使 用 conag_- resched? 举例 来 说 ， 考 虑 内 核 读 取 与 给 定 内 存 映射 关联 的 内 存 页 的 情况 。 这 可 
以 通过 无 限 循环 完成 ， 直 公所 有 需要 的 数据 读 取 完毕 : 
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中 为 外 ， 该 函数 还 确认 系统 完全 处 于 正常 运行 状态 ， 例 如 系统 尚未 启动 完成 就 不 属于 正常 运行 状态 。 由 于 这 是 不 习 
的 边 角 情 况 ， 我 从 代码 中 省 略 了 对 应 的 检查 。 








ay 


























100 020 0000000 





/* 读 入 数据 */ 
if (exit_ condition) 
continue; 


如 果 需 要 大 量 的 读 取 操作 ， 可 能 耗 时 会 很 长 。 由 于 进程 运行 在 内 核 空 间 中 ， 调 度 器 无 法 象 在 用 户 
空间 那样 撤销 其 CPU， 假 定 也 没有 启用 内 核 抢 占 。 通 过 在 每 个 循环 迭代 中 调用 conq_reschedq， 即 可 
改进 此 种 情况 。 

FO 

cond_ resched(); 

/* 读 入 数据 */ 

if (exit_ condition) 
continue; 


内 核 代码 已 经 仔细 核查 过 ， 以 找 出 长 时 间 运 行 的 函数 ， 并 在 适当 之 处 插入 对 cong_rescheqd 的 调 
用 。 即 使 没有 显 式 内 核 抢占 ， 这 也 能 够 保证 较 高 的 响应 速度 。 

遵循 长 期 以 来 的 UNIX 内 核 传 统 , Linux 的 进程 状态 也 文 持 可 中 断 的 和 不 可 中 断 的 睡眠 。 但 在 2.6.25 
的 开发 周期 中 ， 又 添加 了 另 一 个 状态 ，TASK_KILLABLE。" 处 于 此 状态 进程 正在 睡 卢 ， 不 响应 非 致 命 
信和 号， 但 可 以 被 致命 信号 杀 死 ， 这 刚好 与 TASK_UNINTERRUPTIBLE 相 反 。 在 撰写 本 书 时 ， 内 核 中 适用 
于 TASK_KILLABLE 睡 有 眠 之 处 ， 都 还 没有 修改 。 

在 内 核 2.6.25 和 2.6.26 开 发 期 间 ， 调 度 器 的 清理 相对 而 言 是 比较 多 的 。 在 这 期 间 增加 的 一 个 新 特 
性 是 实时 组 调度 。 这 意味 着 ， 通 过 本 章 介绍 的 组 调度 框架 ， 现 在 也 可 以 处 理 实 时 进程 了 。 

另外 ， 调 度 器 相关 的 文档 移 到 了 一 个 专用 目录 Documentation/scheduler/ 下 ， 旧 的 O(D) 调 度 器 
的 相关 文档 都 已 经 过 时 ， 因 而 删除 了 。 有 关 实 时 组 调度 的 文档 可 以 参考 Documentation/schequler/ 
sched-rt-group.txt。 


2.9 ”小结 


Linux 是 一 个 多 用 户 、 多 任务 操作 系统 ， 因 而 必须 管理 来 自 多 个 用 户 的 多 个 进程 。 在 本 章 中 ， 读 
者 已 经 了 解 到 进程 是 Linux 的 一 个 非常 重要 和 基本 的 抽象 。 用 于 表示 进程 的 数据 结构 与 内 核 中 几乎 每 
个 子 系统 都 有 关联 。 
读者 已 经 看 到 Linux 如 何 实现 继承 自 UNIX 传 统 的 fork/exec 模 型 ， 这 种 模型 下 创建 的 新 进程 与 父 
进程 形成 层次 关系 ，Linux 还 使 用 命名 空间 和 clone 系 统 调用 对 传统 的 UNIX 模 型 进行 了 扩展 。 这 两 种 
模型 中 ， 进 程 如 何 感知 到 系统 ， 以 及 哪些 资源 在 父子 进程 之 间 共 享 ， 都 可 以 微调 。 本 来 无 关 的 进程 之 
间 进 行 通信 需要 采用 显 式 的 方法 ， 并 将 在 第 5 章 讨 论 。 

男 外 ， 读 者 已 经 看 到 ， 如 何 通 过 调度 器 在 进程 之 间 分 配 可 用 的 计算 资源 。Linux 文 持 可 插入 的 调 
度 模块 , 这 些 用 于 实现 完全 公平 调度 和 POSIX 软 实时 调度 等 策略 。 调度 器 会 判断 何 时 在 进程 之 间 切 换 ， 
而 上 下 文 切换 则 由 特定 于 体系 结构 的 例 程 实现 。 

最 后 ， 我 讨论 了 如 何 增强 调度 器 来 适应 具有 多 CPU 的 系统 ， 以 及 内 核 抢 占 和 低 延 迟 特性 如 何 使 
Linux 更 好 地 处 理 有 时 间 限 制 的 情形 。 




























































































































































































































































































































































































































































































































































































































































































Q@ 实际 上 TASK_KILLABLE 不 是 一 个 全 新 的 进程 状态 ,而 是 TASK_UNINTERRUPTIBLE 的 扩展 。 但 其 效果 等 价 于 一 个 全 新 
的 进程 状态 。 
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配置 选项 可 以 改变 该 比例 。 但 只 有 对 非常 特殊 的 配置 不 
只 需 假定 比例 为 3 : 1， 其 他 比例 以 后 再 讨论 。 
可 用 的 物理 内 存 将 映射 至 
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存 管理 是 内 核 最 复杂 同时 也 最 习 
作 《〈 所 需 执 行 的 任务 决定 了 二 者 必须 紧密 合作 ) 。 第 1 章 简略 概述 了 内 核实 现 内 存 管理 
的 各 种 技术 和 概念 。 本 章 将 详细 地 从 技术 方 国 
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内 存 管理 的 实现 涵盖 了 许多 领域 : 














口 内 存 中 的 物 至 
口 分 配 大 块 内 存 的 伙 介 

















内 存 页 的 管理 ; 





























口 分 配 较 小 块 
口 分 配 非 连续 











就 我 们 所 知 ， 





户 进程 ， 顶 部 则 专用 于 内 核 。 虽 然 〈 在 
拟 地 址 空间 的 内 核 部 分 总 是 保持 不 变 。 在 IA-32 系 统 上 ， 地 址 空间 在 用 户 进 程 和 内 核 之 间 划 分 的 
用 于 用 户 空间 而 1 GiB 将 用 于 内 核 。 通 过 修改 相关 的 
1 应 用 程序 ， 这 种 修改 才 会 带 来 好 处 。 











比例 为 3 : 1 。 


























呈 要 


给 出 4GiB 虚 拟 


系统 ; 


NN 存 的 slab、slub 和 slob 分 配器 ; 
J 存 块 的 vmalloc 机 制 ; 
口 进程 的 地 址 空间 。 

Linux 内 核 一 般 将 处 怕 

















EE 器 的 虚拟 








讲解 具体 的 实现 。 






































个 用 户 进程 之 间 的 ) 上 下 文 切换 其 

















也 址 空间 ，3 GiB 将 



























































地 址 之 间 的 人 
， 因 为 在 采用 
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I 内核 的 地 址 空间 
可 用 物理 











该 方案 时 ， 在 内 核 区 域 中 的 内 存 分 配 总 是 落 入 到 物 








FP。 访问 内 存 时 ， 如 果 所 用 的 虚拟 地 二 
内 存 的 长 度 ， 那 么 该 虚拟 地 址 会 0 口 关联 到 物理 

















的 一 部 分 。 其 特点 在 于 非常 需要 处 理 器 和 内 核 之 间 






































四 

















所 用 








包 址 空间 划分 为 两 个 部 分 。 底 部 比较 大 的 部 分 用 于 
有 间 会 改变 下 








部 分 ， 但 





























目前 ， 我 





止 与 内 核 区 域 的 起 











页 帧 。 这 是 可 行 











里 内 存 中 。 不 过 ， 




















也 址 空间 的 内 核 音 
空间 中 的 数量 要 多 ， 


了 分 必然 小 了 


那么 内 核 必 须 借 助 于 高 端 内 存 (highmem ) 方法 来 管 到 



































统 上 ， 
过 高 端 内 存 寻 址 。 











4GiB032000000000000002 =4GiB000D 


可 以 直接 管 

















DO 
Dp 
D000 


age address extensionl D D DODDOD 


U Pentium PROUDUUDOUOOUUDOPAEUUOOUOOU0D 
UUOOO0OO0O0O000D0 








还 有 一 个 问题 。 

















CPU 理论 地 址 空间 的 最 大 长 度 。 如 





果 物 理 























里 的 物理 内 存 数量 不 超过 896 MiB 。 超 过 该 值 〈 




















内 存 比 可 
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0U64GiBUUOO0O0O00000000000000000000000000 





以 映射 到 内 核 地 
“多 余 的 > 内存。 在 IA-32 
到 最 大 4 GiB 为 止 ) 的 内 存 只 能 
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第 3 章 


内 存 管 理 














[十 
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表 的 项 ， 以 减少 


对 普通 内 存 域 的 占用 。 


由 于 内 存 超过 4 GiB 的 IA-32 系 统 比较 罕见 ， 这 种 情况 下 实际 上 一 般 会 使 用 64 位 体系 结构 


AMD64 来 代替 IA-32， 提 供 一 个 简洁 得 多 的 解决 方案 ， 


在 此 介绍 了 。 


在 64 位 计算 机 上 ， 

















1 于 可 用 的 地 址 空间 非常 巨大 ， 基 




















于 地 址 字 的 比特 位 数 〈 
有 人 可 能 据 此 认为 64 


了 。 但 技术 的 发 

















列 如 48 或 52)， 也 是 如 此 。32 位 系统 超出 4 GiB 地 址 空间 
位 系统 地 址 空间 的 限制 被 突破 似乎 也 只 是 时 间 问 题 ， 但 理 
展 是 我 们 无 法 预测 的 …… 


的 限 4 
































此 不 需要 高 端 内 存 模式 。 即 使 
前 也 才 办 
论 上 的 16 EiB 


因此 第 二 种 高 端 内 存 模式 我 就 不 打算 











物理 寻 址 受 限 
上 刚 几 年 ， 


也 能 撑 些 














只 有 内 核 自 身 使 用 高 端 内 存 页 时 ， 才 会 有 问题 。 在 内 核 使 用 高 端 内 存 页 之 前 ， 必 须 使 
用 下 文 讨论 的 kmap 和 kunmap 函 数 将 其 映射 到 内 核 虚 拟 地 址 空间 中 ,对 普通 内 存 页 这 是 不 必 
要 的 。 但 对 用 户 空间 进程 来 说 ， 是 高 端 内 存 页 还 是 普通 内 存 页 完全 没有 任何 差别 。 因 为 用 
户 空 间 进 程 总 是 通过 页 表 访 问 内 存 ， 决 不 会 直接 访问 。 




































































































































































有 两 种 类 型 计算 机 ， 分 别 以 不 同 的 方法 管理 物理 内 存 。 
(1) UMA 计 算 机 (一 致 内 存 访 问 ，uniform memory access) 将 可 用 内 存 以 连续 方式 组 织 起 来 (可 
能 有 小 的 缺口 )。SMP 系 统 中 的 每 个 处 理 器 访问 各 个 内 存 区 都 是 同样 快 。 
(2) NUMA 计 算 机 ( 非 一 致 内 存 访问 ，non-uniform memory access) 总 是 多 处 理 器 计算 机 。 系 统 的 
各 个 CPU 都 有 本 地 内 存 ， 可 文 持 特别 快速 的 访问 。 各 个 处 理 器 之 间 通 过 总 线 连接 起 来 ， 以 支持 对 其 他 
CPU 的 本 地 内 存 的 访问 ， 当 然 比 访问 本 地 内 存 慢 些 。 
此 类 系统 的 实例 包括 基于 Alpha 的 WildFire 服 务 器 和 来 自 IBM 的 NUMA-Q 计 算 机 。 
图 3-1 说 明了 两 种 方法 之 间 的 差别 。 
内 存 J 在 J 存 内 存 
加 四 | 国 
UMA LL NUMA 
El 


的 ， 
单 。 


DJ 


[SCON' 


为 更 多 是 试验 性 

































































CPU0 | 








种 类 型 
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J 有 比较 大 的 洞 
实际 上 内 核 会 

















计算 机 








CPU 1 | CPU3 | CPU0 | CPU 1 | 


图 3-1 UMA 和 NUMA 系 统 
的 混合 也 是 可 能 的 ， 其 中 使 用 不 连续 的 内 存 。 
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即 在 UMA 系统 
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内 存 不 是 连续 
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在 这 里 应 用 NUMA 体 系 结构 的 原理 
区 分 3 种 配置 选项 : FLATMEM、DISCONTIGMEM 和 

















SPARSEMEM 。 
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且 人 不 上 


是 内 核 的 默认 值 。 











kk 备 内 存 热 插 拔 
在 以 后 几 太 
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相同 ,但 从 开发 者 的 角度 看 来 ， 对 应 代码 的 质 
不 那么 稳定 ， 但 有 一 些 性 能 优化 。 我 们 认为 DISCONT 
之 类 的 新 特性 。 

我 们 的 讨论 主要 限于 FLATM 


所 不 同 。S 

















工 GMI 


























sxM。 在 大 多 数 配置 中 都 使 朋 





















































于 所 有 内 存 模型 实际 上 都 使 用 同样 的 数据 结构 ， 因 





出 














o 





真正 的 NUMA 会 设置 配置 选项 CONFIG ， 
于 平坦 内 存 模型 在 NUMA 计 算 机 上 没有 意义 ， 只 有 不 连续 内 存 模 














通常 有 所 帮助 ， 可 以 使 内 核 的 





内 存 访 问 更 简 
SPARSEMEM 利 
PARSE 











EM 被 认 


EM 相关 代码 更 稳定 一 些 ， 


该 内 存 组 织 类 型 ， 通 常 它 
不 讨论 其 他 选项 也 没 多 大 

















WUMA， 相 关 的 内 存 管 理 代 码 与 上 述 
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种 变 体 有 所 不 同 。 
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4 和 稀 琉 内 存 模 型 是 可 


[用 的 。 但 要 注 
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意 ， 通 过 配置 选项 NUMA_EMU， 可 以 用 平坦 内 存 模 型 的 AMD64 系 统 来 感受 NUMA 系 统 的 复杂 性 ， 实 际 

上 是 将 内 存 划 分 为 假 的 NUMA 内 存 域 。 在 没有 真正 的 NUMA 计 算 机 可 用 于 开发 时 ， 该 选项 是 有 用 的 ， 

于 某 种 原因 ， NUMA 计 算 机 过 于 昂贵 。 
本 书 内 容 集中 在 UMA 系统 ， 不 考虑 CoNFIG_NUMA。 这 并 不 意味 着 NUMA 相 关 的 数据 结构 可 以 完 

全 忽略 。 由 于 UMA 系 统 可 以 在 地 址 空间 包含 比较 大 的 洞 时 选择 配置 选项 cONFIG_DISCONTIGMEM， 这 

种 情况 下 在 不 采用 NUMA 技 术 的 系统 上 也 会 有 多 个 内 存 结 点 。 

图 3-2 综 述 了 与 内 存 布 局 有 



































































































































YY 平坦 内 存 模型 ‘ 
















不 连 





续 内 存 模型 








De UMA 
VAN 没有 洞 的 地 址 空间 
图 3-2 ”概述 在 UMA 和 NUMA 计 算 机 上 可 能 的 内 存 配 置 ， 平坦 模型 、 稀 政 模 型、 不 连续 模型 


请 注意 ， 在 下 文 的 讨论 中 ， 我 们 会 经 常 遇 到 术语 0D DOD (allocation order)。 它 表示 内 存 区 中 页 的 
数目 取 以 2 为 底 的 对 数 。 阶 0 的 分 配 由 一 个 页 面 组 成 ， 阶 1 的 分 配 包括 2!:=2 个 页 ， 阶 2 的 分 配 包括 2=4 个 
页 ， 依 次 类 推 。 


3.2 (N)UMA 模型 中 的 内 存 组 织 


Linux 支 持 的 各 种 不 同体 系 结构 在 内 存 管 理 方 面 差别 很 大 。 由 于 内 核 的 明智 设计 ， 以 及 系 些 情况 
下 搬入 的 兼容 层 ， 这 些 差 别 被 很 好 地 隐藏 起 来 了 《一般 性 的 代码 通常 无 需 注 意 这 些 )。 按 照 第 1 章 讨论 
过 的 ， 一 个 主要 的 问题 是 页 表 中 不 同 数 目的 间接 层 。 男 一 个 关键 是 NUMA 和 UMA 系 统 的 划分 。 

内 核对 一 致 和 非 一 致 内 存 访 问 系统 使 用 相同 的 数据 结构 ， 因 此 针对 各 种 不 同形 式 的 内 存 布局 ， 各 
个 算法 几乎 没有 什么 差别 。 在 UMA 系 统 上 ， 只 使 用 一 个 NUMA 结 点 来 管理 整个 系统 内 在 。 而 内 存 管 
理 的 其 他 部 分 则 相信 它们 是 在 处 理 一 个 伪 NUMA 系 统 。 


3.2.1 概述 


年 讲 解 内 核 中 用 于 组 织 内 存 的 数据 结构 之 前 ， 考 虑 到 术语 并 不 总 是 容易 理解 ， 所 以 我 们 需要 先 定 
义 几 个 概念 。 我 们 首先 考虑 NUMA 系 统 。 这 样 ， 在 UMA 系 统 上 再 介绍 这 些 概 念 就 非常 容易 了 。 
图 3-3 给 出 了 下 述 内 存 划 分 的 图 示 (该 情形 多 少 简 化 了 一 些 ， 在 我 们 详细 讲解 数据 结构 时 ， 读 者 
可 以 看 到 这 一 点 )。 
首先 ， 内 存 划 分 为 0 口 。 每 个 结 点 关联 到 系统 中 的 一 个 处 理 器 ， 在 内 核 中 表示 为 pg_qata_t 的 实 
例 〔 稍 后 定义 该 数据 结构 )。 
各 个 结 点 又 划分 为 0 DD 口 ， 是 内 存 的 进一步 细 分 。 例 如 ， 对 可 用 于 (ISA 设 备 的 ) DMA 操 作 的 内 
存 区 是 有 限制 的 。 只 有 前 16 MiB 适 用 , 还 有 一 个 高 端 内 存 区 域 无 法 直接 映射 。 在 二 者 之 间 是 通用 的 “ 普 
通 ” 内 存 区 。 因 此 一 个 结 点 最 多 由 3 个 内 存 域 组 成 。 内 核 引 入 了 下 列 常量 来 区 分 它们 。 
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D000 





Bo2data t pg_qdata_t 


ZONELIST 





co m 三 口 NN 

















内 核 引 入 了 下 列 常 量 来 枚 举 系统 中 的 所 有 内 存 域 ; 


<mmzone.h> 
enum zone type { 


ZONE_DMA， 
endif 


endif 











endif 





ifdef CONFIG ZONE_DMA 


ifdef CONFIG ZONE DMA32 
ZONE_DMA32, 





ZONE_NORMAL, 
ifdef CONFIG HIGHMEM 
ZONE_HIGHMEM, 








ZONE_MOVABLE, 
MAX_NR_ZONES 


] 7 


口 ZONE_DMA 标 记 适 合 DMA 的 内 存 域 。 该 区 域 的 长 度 依赖 于 处 到 
般 的 限制 是 16 MiB， 这 是 由 古老 的 ISA 设 备 强加 的 边界 。 但 


的 影响 。 





口 ZONE_DMA32 标 记 了 使 用 32 位 地 址 字 可 寻 址 、 适 合 DMA 的 
两 种 DMA 内 存 域 才 有 差别 。 在 32 位 计算 机 J 


AMD64 系 统 上 ， 





口 ZONE_NORMAL 标 记 了 可 直接 映射 到 内 核 段 的 普通 内 存 域 ,这 是 在 所 有 体系 结构 上 保证 都 会 存在 
的 唯一 内 存 域 , 但 无 法 保证 该 地 址 范围 对 应 了 实际 的 物理 




















内 存 ， 那 么 所 有 














二 
图 





图 3-3 “NUMA 系统 中 的 内 存 划分 


Bo_data t 


ZONELIST 


struct page 


























该 内 存 域 的 长 度 可 能 从 0 到 4 GiB。 





























器 类 型 。 在 IA-32 计 算 机 上 ， 一 
! 更 现代 的 计算 机 也 可 能 受 这 一 限制 




















内 存 域 。 显 然 ， 只 有 在 64 位 系统 上 ， 
上 ， 本 内 存 域 是 空 的 ， 即 长 度 为 0 MiB。 在 Alpha 和 


















































内 存 都 属于 zoNE_DMA32 范 围 ， 而 ZONI 





























口 ZONE_HIGHMEM 标 











Fh 记 了 超出 内 核 段 的 物理 内 存 。 














内 存 。 例 如 , 如 果 AMD64 系 统 有 2 GiB 


A 


E_NORMAL 则 为 空 。 








OO 








加 加 加 
DDOO0D000U00U0U04GBU0U00030000 








D0OUpya320000 











此 外 内 核定 义 了 一 个 伪 内 存 域 zONE_MoOVABLE, 在 防止 物 ] 



































我 们 会 在 3.5.2 节 更 仔细 地 讲解 该 机 制 。 














里 内 存 人 碎片 的 机 制 中 需要 使 用 该 内 存 域 。 
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MAX_NR_ZONES 充 当 结 束 标记 ， 在 内 核 想 要 迭代 系统 中 的 所 有 内 存 域 时 ， 


各 个 内 存 域 都 关联 了 一 个 数组 ， 用 来 组 织 
帧 ， 都 分 配 了 一 个 s 


每 个 页 
































出 于 性 能 考虑 ， 在 为 进 





























备 








列表 





属于 该 内 存 
truct page 实 例 以 及 所 需 的 管理 数据 。 
各 个 内 存 结 点 保存 在 一 个 单 链表 中 ， 供 内 核 遍 历 。 

程 分 配 内 存 时 ， 内 核 总 是 试图 
行 。 但 这 并 不 总 是 可 行 的 ， 例 如 ， 该 结 点 的 内 存 可 能 已 经 月 
(借助 于 struct zonelist) 。 该 列表 包含 了 其 他 纪 


























或 的 物 到 






































前 结 点 分 配 内 存 。 列 表 项 的 位 置 越 靠 后 ， 就 越 不 适合 分 配 。 






































在 UMA 系 统 上 是 何 种 情 


了 已 于 . 





多 呢 ? 这 里 只 有 











其 他 的 都 不 变 。 
3.2.2 ”数据 结构 


我 已 经 解释 了 用 于 内 存 
1. 结 点 管理 





田 




















融 





























pg_data_t 是 


<mmzone.h> 
typedef struct pglist data { 


个 结 点 。 图 3-3 中 灰色 





月 慰 


用 于 表示 结 点 的 基本 元 素 ， 定 义 如 下 : 


struct zone node_ zones [MAX_ NR_ ZONES]; 
struct zonelist node zonelists[MAX ZONELISTS]; 


int nr_zones; 
struct page *node_ mem map; 
struct bootmem data *bdata; 


unsigned long 
unsigned long 
unsigned long 


int node_id; 


node_start_pfn; 
node_present_pages; 
node_spanned pages; 


/* 物理 内 存 页 的 
/* 物理 内 存 页 的 


总 数 */ 
el 
总 


struct pglist data *pgdat next; 
wait_ queue head t kswapd wait; 


struct task_ struct *kswapd; 
int kswapd max_ order; 
} pg_data 七 ; 



























































内存 页 内核 














Da 
AAA 





在 当前 运行 的 CPU 相关 联 的 NUMA 结 点 上 进 
有 尽 。 对 此 类 情况 ，0 0 结 点 都 提供 了 一 个 
;点 《和 相关 的 内 存 域 ) ， 可 用 于 代替 当 





上 的 内 存 结 点 





里 的 各 种 数据 结构 之 间 的 关系 ， 现 在 我 们 分 别 讲解 各 个 数据 结 


长 度 ， 包 含 洞 在 内 */ 





用 到 该 常量 。 


P 称 之 为 口 ) 。 对 



































构 。 





















































































































































口 node_zones 是 一 个 数组 ， 包 含 了 结 点 中 各 内 存 域 的 数据 结构 。 
口 node_zonelists 指 定 了 备用 结 点 及 其 内 存 域 的 列表 ， 以 便 在 当前 结 点 没有 可 用 空间 时 ， 在 备 
结 点 分 配 内 存 。 

口 结 点 中 不 同 内 存 域 的 数目 保存 在 nr_zones。 

口 node_mem_map 是 指向 page 实 例 数 组 的 指针 ， 用 于 描述 结 点 的 所 有 物理 内 存 页 。 它 包含 了 结 点 
中 所 有 内 存 域 的 页 。 

口 在 系统 启动 期 间 ， 内 存 管 理子 系统 初始 化 之 前 ， 内 核 也 需要 使 用 内 存 〈 另 外 ， 还 必须 保留 前 
分 内 存 用 于 初始 化 内 存 管理 子 系统 )。 为 解决 这 个 问题 ， 内 核 使 用 了 3.4.3 节 讲解 的 自 举 内 存 分 
配器 (boot memory allocator)。baqaata 指 向 自 举 内 存 分 配器 数据 结构 的 实例 。 

口 noqe_start_pfn 是 该 NUMA 结 点 第 一 个 页 帧 的 逻辑 编号 。 系 统 中 口 口 结 点 的 页 帧 是 依次 编号 
的 ， 每 个 页 帧 的 号 码 都 是 全 局 唯一 的 (不 只 是 结 点 内 唯一 )。 
node_start_pfn 在 UMA 系 统 中 总 是 0, 因为 其 中 只 有 一 个 结 点 , 因此 其 第 一 个 页 帧 编号 总 是 0。 














结 点 中 页 





node_present_pages 指 定 了 











贞 的 数 











， 而 node_spanned_pages 则 











给 出 了 该 结 点 以 
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页 帧 为 单位 计算 的 长 度 。 二 者 的 值 不 一 定 相 同 ， 因 为 结 点 中 可 能 有 一 些 空洞 ， 并 不 对 应 真正 


的 页 帧 





18 章 会 


o 


口 node_id 是 全 











局 结 点 ID。 系 统 中 的 NUMA 结 点 都 从 0 开始 编号 。 
口 pgdat_next 连 接 到 下 一 个 内 存 结 点 ， 系 统 中 所 有 结 点 都 通过 单 链表 连接 起 来 ， 其 末尾 通过 空 
指针 标记 。 
口 kswapd_wait 是 交换 守护 进程 (swap daemon) 的 等 待 队列 ， 在 将 页 帧 换 出 结 点 时 会 用 到 (第 
详细 讨论 该 过 程 )。 


































































































kswapd 指 向 负责 该 结 点 的 交换 守护 进程 的 task_struct。kswapd_ 


























max_order 用 于 页 交换 子 系统 的 实现 ， 用 来 定义 需要 释放 的 区 域 的 长 度 (我 们 当前 不 感 兴趣 )。 
































图 3-3 给 出 了 结 点 及 其 包含 的 内 存 域 之 间 的 关联 ， 以 及 备用 列表 ， 这 些 是 通过 结 点 数据 结构 起 始 
处 的 几 个 数组 建立 的 。 
加 

















内 存 域 ， 也 是 如 此 。 如 果 不 足 3 个 ， 


en0U0000 




















结 点 的 内 存 域 保存 在 node_zones [MAX_NR_ZONES] 。 该 数组 总 是 有 3 个 项 ， 即 使 结 点 没有 那么 多 





则 其 余 的 数组 项 用 0 填充 。 




















如 果 系 统 中 结 点 多 于 一 个 ， 内 核 会 维护 一 个 位 图 ， 用 以 提供 各 个 结 点 的 状态 信息 。 状 态 是 用 位 掩 


码 指定 的 ， 可 使 用 下 列 值 : 


<nodemask.h> 














enum node_states { 
N_POSSIBLE, 
N_ONLINE, 
N_NORMAL MEMORY, 

#ifdef CONFIG HIGHMEM 
N_HIGH_ MEMORY, 


#else 


N_HIGH_ MEMO 


#endif 











NLCPU, 
NR_NODE_STATES 


二 








RY = N_NORMAL_MEMORY， 


















































两 个 辅助 函数 用 来 设置 或 



































/* 结 点 在 某 个 时 候 可 能 变 为 联机 */ 
/* 结 点 是 联机 的 */ 
/* 结 点 有 普通 内 存 域 */ 


/* 结 点 有 普通 或 高 端 内 存 域 */ 





/* 结 点 有 一 个 或 多 个 CPU */ 














状态 N_PossIBLE、N_ONLINE 和 N_cPU 用 于 CPU 和 内 存 的 热 插 拔 ， 在 本 书 中 不 考虑 这 些 特 性 。 对 
内 存 管理 有 必要 的 标志 是 N_HIGH 
N_HIGH_MEMORY， 仅 当 经 
























































MEMORY 和 N_NORMAL_， MEMORY。 如 果 结 点 有 普通 或 高 端 内 存 则 使 用 





点 没有 高 端 内 存 才 设置 N_NORMAL_ MEMORY。 























<nodemask.h> 
void nodqe_set_state(int node, enum node_states state) 
void node clear_state(int node, enum node_states state) 


此 外 , 宏 for_each_node_state(_、node，_ state) 用 来 欠 代 处 于 特定 状态 的 所 有 结 点 ,而 for_ 
each_online_node (noqe) 则 迭代 所 有 活动 结 点 。 

如 果 内 核 编译 为 只 文 持 单个 结 点 《即使 用 平坦 内 存 模型 ) ， 则 没有 结 点 位 图 ， 上 述 操作 该 位 图 的 
函数 则 变 为 空 操作 。 


2. 内 存 域 





除 位 域 或 特定 结 点 中 的 一 个 比特 位 : 









































内 核 使 用 zone 结构 来 描述 内 存 域 。 其 定义 如 下 : 
<mmzone.h> 
struct zone { 
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/* 通 常 由 页 分 配器 访问 的 字段 */ 


unsigned long pages_min, pages_low, pages_high; 














unsigned long lowmem reserve[MAX NR ZONES]; 
struct per_cpu pageset pageset[NR CPUS]; 


/* 

* 不 同 长 度 的 空闲 区 域 

yh 

spinlock 七 looks 

struct free_area free_ area [MAX ORDER]; 


ZONE_PADDING(_padl_ ) 


























/* 通常 由 页 面 收 回 扫 描 程 序 访 问 的 字段 */ 

spinlock 七 lru LocGky 

struct list_head active_ list; 

struct list_head inactive_ list; 

unsigned long nr_scan active; 

unsigned long nr_scan inactive; 

unsigned long pages_scanned; /* 上 一 次 回收 以 来 扫描 过 的 页 */ 
unsigned long flags; /* 内 存 域 标志 ， 见 下 文 */ 

/* 内 存 域 统计 量 */ 

atormic_ long 七 vm_stat[NR_ VM ZONE_STAT_ ITEMS]; 











int prev_priority; 


ZONE_PADDING(_pad2_) 












































/* 很 少 使 用 或 大 多 数 情 况 下 只 读 的 字段 */ 
wait_ queue head t * wait_ table; 
unsigned long wait_table hash nr_entries; 
unsigned long wait_table bits; 
/* 支持 不 连续 内 存 模型 的 字段 。 */ 
struct pglist data *zZzone_pgdat; 
unsigned long zone_start_pfn; 
unsigned long spanned_pages; /* 总 长 度 ， 包 含 空洞 */ 
unsigned long present_pages; /* 内 存 数量 (除去 空洞 ) */ 
/* 
* 很 少 使 用 的 字段 : 
6 
char *name; 
} _ cacheline maxaligned in_ smp; 














该 结构 比较 特殊 的 方面 是 它 由 ZONE_PaApDING 分 隔 为 几 个 部 分 。 这 是 因为 对 zone 结构 的 访问 非常 
频繁 。 在 多 处 理 器 系统 上 ， 通 常会 有 不 同 的 CPU 试图 同时 访问 结构 成 员 。 因 此 使 用 锁 〈 见 第 5 章 ) 防 
止 它们 彼此 干扰 ， 避 免 错 误 和 不 一 致 。 由 于 内 核对 该 结构 的 访问 非常 频繁 ， 因 此 会 经 常 性 地 获取 该 结 
构 的 两 个 自 旋 锁 zone->lock 和 zone->lru_lock。” 
如 果 数 据 保存 在 CPU 高 速 缓存 中 ， 那 么 会 处 理 得 更 快速 。 高 速 缓存 分 为 行 ， 每 一 行 负责 不 同 的 内 
存 区 。 内 核 使 用 ZONE_PADDING 宏 生成 “填充 ”字段 添加 到 结构 中 ， 以 确保 每 个 自 旋 锁 都 处 于 自身 的 
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[Ea 


此 这 些 锁 称 为 0 口 〈hotspot)。 在 第 17 章 中 讨论 了 内 核 使 用 的 一 些 技巧 ， 可 用 于 减轻 对 这 些 热点 的 压力 。 
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绥 存 行 中 。 还 使 
齐 方式 。 

















然 会 日 

















书 了 编 


























译 器 关键 字 __cacheline_maxaligneaq_in_smp， 用 以 实现 最 优 的 高 速 缓存 对 






















































































































































































































































































































































































































































































该 结构 的 最 后 两 个 部 分 也 通过 填充 字段 彼此 分 隅 开 来 。 两 者 都 不 包含 锁 ， 主 要 目的 是 将 数据 保持 

在 一 个 缓存 行 中 ， 便 于 快速 访问 ， 从 而 无 需 从 内 存 加 载 数据 〈 与 CPU 高 速 缓存 相 比 ， 内 存 比 较 慢 ) 。 
于 填充 造成 结构 长 度 的 增加 是 可 以 忽略 的 ， 特 别 是 在 内 核 内 存 中 zone 结构 的 实例 相对 很 少 。 

该 结构 各 个 成 员 的 语义 是 什么 呢 ? 由 于 内 存 管理 是 内 核 中 一 个 复杂 而 牵涉 颇 广 的 部 分 , 因此 在 这 

里 将 该 结构 所 有 成 员 的 确切 语义 都 讲解 清楚 是 不 太 可 能 的 ,本章 和 后 续 章 节 相 当 一 部 分 都 会 专注 于 讲 

述 相关 的 数据 结构 和 机 制 。 此 处 只 能 对 即将 讨论 的 问题 给 予 概述 ， 读 者 姑且 浅 尝 辑 止 。 尽 管 如 此 ， 仍 

8 现 大 量 的 向 前 引用 。 

口 pages_min、pages_high、pages_low 是 页 换 出 时 使 用 的 “水 印 ”。 如 果 内 存 不 足 ， 内 核 可 
以 将 页 写 到 人 硬盘。 这 3 个 成 员 会 影响 交换 守护 进程 的 行为 。 

时 如 果 衬 闲 页 多 于 pages_high， 则 内 存 域 的 状态 是 理想 的 。 

田 如 果 空 闲 页 的 数目 低 于 pages_low， 则 内 核 开 始 将 页 换 出 到 硬盘 。 

里 如 果 衬 闲 页 的 数目 低 于 pages_min， 那 么 页 回收 工作 的 压力 就 比较 大 ， 因 为 内 存 域 中 急需 空 
闲 页 。 第 18 章 会 讨论 内 核 用 于 缓解 此 情形 的 各 种 方法 。 

这 些 水 印 的 重要 性 主要 会 在 第 18 章 讨论 ， 但 在 3.5.5 节 就 可 以 初步 看 到 它们 的 作用 了 。 

口 lowmem_reserve 数 组 分 别 为 各 种 内 存 域 指定 了 若干 页 ， 用 于 一 些 无 论 如 何 都 不 能 失败 的 关键 
性 内 存 分 配 。 各 个 内 存 域 的 份额 根据 重要 性 确定 。 用 于 计算 各 个 内 存 域 份额 的 算法 在 3.2.2 节 
讨论 。 

口 pageset 是 一 个 数组 ， 用 于 实现 每 个 CPU 的 热 / 冷 页 帧 列表 。 内 核 使 用 这 些 列表 来 保存 可 用 于 
满足 实现 的 “新 鲜 ” 页 。 但 冷 热 页 帧 对 应 的 高 速 缓存 状态 不 同 : 有 些 页 帧 也 很 可 能 仍然 在 高 
速 绥 存 中 ， 因 此 可 以 快速 访问 ， 故 称 之 为 热 的 ， 未 缓存 的 页 帧 与 此 相对 ， 故 称 之 为 冷 的 。 下 
一 节 会 讨论 用 于 实现 该 行为 特性 的 struct per_cpu_pageset 数 据 结 构 。 

口 free_area 是 同名 数据 结构 的 数组 ,用 于 实现 伙伴 系统 。 每 个 数组 元 素 都 表示 某 种 固定 长 度 的 
一 些 连续 内 存 区 。 对 于 包含 在 每 个 区 域 中 的 空闲 内 存 页 的 管理 ，free_area 是 一 个 起 点 。 

此 处 使 用 的 数据 结构 自身 就 很 值得 讨论 一 番 ，3.5.5 节 深 入 论述 了 伙伴 系统 的 实现 细节 。 
口 第 二 部 分 涉及 的 结构 成 员 ， 用 来 根据 活动 情况 对 内 存 域 中 使 用 的 页 进行 编 如 果 页 访问 频 











繁 ， 则 内 核 认为 它 是 0 的 ; 
的 。 如 果 可 能 的 话 ， 频 繁 使 


由 


























注 


了 








I 





具体 涉及 的 结构 成 员 如 下 : 


而 不 活动 页 则 显然 相反 。 


的 页 应 该 保持 不 动 ， 而 多 余 














在 需要 换 出 页 时 ， 























这 种 区 别 是 很 重要 























的 不 活动 页 则 可 以 换 出 而 没有 什么 











四 active_1list 是 活动 页 的 集合 ， 而 inactive_1ist 则 不 活动 页 的 集合 (page 实例 )。 


时 nz_scan_active 和 nr_scan_inactive 指 定 在 回 
和 pages_scanned 指 定 了 上 次 换 出 一 页 以 来 ， 有 多 少 页 未 能 成 功 扫 
和 flags 描 述 内 存 域 的 当前 状态 。 人 允许 











<mmzone.h> 

typedef enum { 
ZONE_ALL UNRECLAIMABLE, 
ZONE_RECLAIM LOCKED, 
ZONE_OOM_LOCKED, 

} zone_flags_t; 









































使 用 下 列 标志 : 


收 内 存 时 需要 扫描 











的 活动 和 不 活动 页 的 数 
描 。 








/* 所 有 的 页 都 已 经 “ 钉 ” 住 */ 


/* 防止 并 发 回 





收 */ 





/* 内 存 域 即 可 被 回收 */ 
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也 有 可 能 这 些 标志 均 未 设置 。 这 是 内 存 域 的 正常 状态 。zONE_ALL_UNRECLAIMABLE 状 态 出 现 
在 内 核 试 图 重用 该 内 存 域 的 一 些 页 时 (页 面 回收 ， 参 见 第 18 章 )， 但 因为 所 有 的 页 都 被 钉 住 
而 无 法 回收 。 例 如， 用 户 空 间 应 用 程序 可 以 使 用 mlock 系 统 调用 通知 内 核 页 不 能 从 物理 内 存 
移出 ， 比 如 换 出 到 磁盘 上 。 这 样 的 页 称 之 为 钉 住 的 。 如 果 一 个 内 存 域 中 的 所 有 页 都 被 钉 住 
那么 该 内 存 域 是 无 法 回收 的 ， 即 设置 该 标志 。 为 不 浪费 时 间 ， 交 换 守 护 进程 在 寻找 可 供 
收 的 页 时 ， 只 会 简要 地 扫描 一 下 此 类 内 存 域 。” 
在 SMP 系 统 上 ,多 个 CPU 可 能 试图 并 发 地 回收 一 个 内 存 域 。ZONE_RECLAIM_LOCKED 标 志 可 防 
止 这 种 情况 : 如 果 一 个 CPU 在 回收 某 个 内 存 域 ， 则 设置 该 标志 。 这 防止 了 其 他 CPU 的 尝试 。 
ZONE_OOM_LOCKED 专 用 于 某 种 不 走运 的 情况 : 如 果 进 程 消耗 了 大 量 的 内 存 ， 致 使 必要 的 操 
作 都 无 法 完成 ， 那 么 内 核 会 试图 杀 死 消耗 内 存 最 多 的 进程 ， 以 获得 更 多 的 空闲 页 。 该 标志 
可 以 防止 多 个 CPU 同时 进行 这 种 操作 。 

内 核 提 供 了 3 个 辅助 函数 用 于 测试 和 设置 内 存 域 的 标志 : 


<mmzone.h> 

void zone_set_flag(struct zone *zone，Zzone_flags_t flag) 

int zone test_and set_flag(struct zone *zone, zone flags_t flag) 
void zone_clear_flag(struct zone *zone, zone_flags _t flag) 
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zone_set_flag 和 zone_clear_flag 分 别 用 于 设置 和 清除 某 一 标志 。zone_test_andq_set_ 
flag 首 先 测试 是 否 设置 了 给 定 标志 ， 如 果 没 有 设置 ， 则 设置 该 标志 。 标 志 的 原状 态 返 回 给 调 
用 者 。 

田 vm_stat 维 护 了 大 量 有 关 该 内 存 域 的 统计 信息 。 由 于 其 中 维护 的 大 部 分 信息 目前 没有 多 大 意 
义 ， 对 该 结构 的 详细 讨论 则 延迟 到 17.7.1 节 。 现 在 ， 只 要 知道 内 核 中 很 多 地 方 都 会 更 新 其 中 
的 信息 即 可 。 辅 助 函数 zone_page_state 用 来 读 取 vm_stat 中 的 信息 : 


<vmstat.h> 
static inline unsigned long zone page_ statel(struct zone *zone, 
enum zone_stat_item item) 


例如 ， 可 以 将 item 参 数 设 置 为 NR_ACTIVE 或 NR_INACTIVE， 来 查询 存储 在 上 文 讨论 的 
active_1list 和 inactive_1ist 中 的 活动 和 不 活动 页 的 数目 ,而 设置 为 NR_FREE_PAGES 则 可 
以 获得 内 存 域 中 空闲 页 的 数目 。 
prev_priority 存 储 了 上 一 次 扫描 操作 扫描 该 内 存 域 的 优先 级 ， 扫 描 操 作 是 由 try_to_free_ 
pages 进 行 的 ， 直 至 释放 足够 的 页 帧 (参见 3.5.5 节 和 第 18 章 )。 读 者 在 第 18 章 会 看 到 ， 扫 描 
会 根据 该 值 判断 是 否 换 出 映射 的 页 。 
wait_table、wait_table _bits 和 wait_table_hash_nr_entries 实 现 了 一 个 等 等 队列 ， 
可 供 等 待 某 一 页 变 为 可 用 的 进程 使 用 。 该 机 制 的 细节 将 在 第 14 章 给 出 ， 直 观 的 概念 是 很 好 
理解 的 : 进程 排 成 一 个 队列 ， 等 待 某 些 条 件 。 在 条 件 变 为 真 时 ， 内 核 会 通知 进程 恢复 工作 。 
内 存 域 和 父 结 点 之 间 的 关联 由 zone_pgdat 建 立 ，zone_pgdat 指 向 对 应 的 pglist_gdata 实 例 。 
zone_start_pfn 是 内 存 域 第 一 个 页 帧 的 索引 。 
剩余 的 3 个 字段 很 少 使 用 ， 因 此 置 于 数据 结构 末尾 。 

name 是 一 个 字符 串 , 保存 该 内 存 域 的 惯用 名 称 。 目前 有 3 个 选项 可 用 : Normal、DMA 和 HighMem。 
spanneq_pages 指 定 内 存 域 中 页 的 总 数 ， 但 并 非 所 有 都 是 可 用 的 。 前 文 提 到 过 ， 内 存 域 中 

















































































































































































































































































































































































































































































































QD 但 扫描 是 无 法 完全 省 去 的 ， 因 为 该 内 存 域 经 过 若干 时 间 后 ， 在 将 来 可 能 再 次 包含 可 回收 的 页 。 倘 若 如 此 ， 则 消除 
该 标志 ， 而 kswapd 守 护 进 程 会 将 该 内 存 域 与 其 他 内 存 域 同等 对 待 。 
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可 能 有 一 些小 的 空洞 。 另 一 个 计数 器 (present_pages) 则 给 出 了 实际 上 可 用 的 页 数目 。 

该 计数 器 的 值 通常 与 spanned_pages 相 同 。 
3. 内 存 域 水 印 的 计算 
在 计算 各 种 水 印 之 前 ,内核 首先 确定 需要 为 关键 性 分 配 保留 的 内 存 空间 的 最 小 值 。 该 值 随 可 用 内 
存 的 大 小 而 非 线 性 增长 ， 并 保存 在 全 局 变量 min_free_kbytes 中 。 图 3-4 概 述 了 这 种 非 线性 比例 关系 ， 
其 中 主 图 的 横 轴 采用 了 对 数 坐 标 ， 插 图 的 横 轴 采用 的 是 普通 坐标 ， 揪 图 放大 了 总 内 存 容量 在 0 一 4 GiB 
之 间 的 变化 曲线 。 表 3-1 给 出 了 一 些 典 型 值 ， 主 要 适用 于 配备 了 适量 内 存 的 桌面 系统 ,用 来 给 读者 提供 
一 点 感性 认识 。 一 个 不 变 的 约束 是 ， 不 能 少 于 128 KiB ， 也 不 能 多 于 64 MiB。 但 要 注意 ， 只 有 内 存 数 
景 0D 口 比较 大 的 时 候 ， 才 能 达到 上 界 。” 用 户 层 可 通过 文件 /proc/sys/vm/min_free_kbytes 来 读 取 
和 修改 该 设置 。 
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图 3-4 ”内 存 域 水 印 和 为 关键 性 分 配 保留 的 内 存 空间 的 最 小 值 ， 与 计算 机 主 内 存 大 小 之 间 的 
关系 (pages_min 即 按 页 计算 的 min_free_kbytes) 






































数据 结构 中 水 印 值 的 填充 由 init_per_zone_pages_min 处 理 ， 该 函数 由 内 核 在 启动 期 间 调 用 
无 需 显 式 调用 。”init_per_zone_pages_min 的 代码 流程 图 ， 如 图 3-5 所 示 。 
setup_per_zone pages_min 设 置 struct zone 的 pages_min、pages_low 和 pages_high 成 员 。 

































































在 计算 出 高 端 内 存 域 之 外 页 面 的 总 数 之 后 (保存 在 lowmem_pages)， 内 核 迭 代 系 统 中 的 所 有 内 存 域 
执行 下 列 计算 : 





























G 实际 上 ， 在 只 有 一 个 NUMA 结 点 的 计算 机 上 安装 如 此 数量 的 内 存 是 不 太 可 能 的 ， 因 此 上 界 是 很 难 达 到 的 。 
@) 该 函数 不 只 在 这 里 调用 ， 每 次 通过 proc 文 件 系 统 修改 某 个 控制 参数 时 也 会 调用 该 函数 。 
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mm/page_alloc.c 


void 


{ 


setup_per_zone pages_ min (void) 





unsigned long pages min = min free kbytes >> (PAGE _ SHIFT -10); 
unsigned long lowmem pages = 0; 

struct zone *zone; 

unsigned long flags; 


for_each zone(zone) { 
u64 tmp; 


tmp = (u64)pages_ min * zone->present pages; 
do_div(tmp,lowmem pages); 
If (is_ highmem(zone)) { 

int min pages; 


min pages = zone->present pages / 1024; 
if (min pages < SWAP_ CLUSTER MAX) 

min pages = SWAP_ CLUSTER MAX; 
if (min pages > 128) 

min pages = 128; 
Zone->pages_min = min pages; 

} else { 

Zone->pages_min = tmp; 


} 


Zone->pages_low = zone->pages_min + (tmp >> 2); 
zone->pages_high = zone->pages_ min + (tmp >> 1); 


表 3-1 主 内 存 大 小 与 可 用 于 关键 性 分 配 的 内 存 空 间 最 小 值 之 间 的 关系 
主 内 存 大 小 保留 内 存 大 小 





高 端 内 存 域 的 下 界 SWAP_CLUSTER_MAX， 对 第 18 章 讨论 的 整个 页 面 


16 MiB 512 KiB 
32 MiB 724 KiB 
64 MiB 1024 KiB 
128 MiB 1448 KiB 
256 MiB 2048 KiB 
512 MiB 2896 KiB 
1024 MiB 4096 KiB 
2048 MiB 5792 KiB 
4096 MiB 8192 KiB 
8192 MiB 11584 KiB 
16384 MiB 16384 KiB 


init_per_zone pages_ min 


Setup_per_zone_pages_min 





setup_per_zone_lowmem reserve 





入 











3-5 init_per_zone_pages_min 的 代码 流程 图 


收 子 系统 来 说 ， 














四 
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该 子 系统 的 
线 图 ,给 对 


的 数值 。 
图 3-4 的 
域 不 习 
域 的 结果 。 






































lowmem_reserve 的 计算 
对 每 个 结 点 的 各 个 内 存 域 分 别 计算 预 留 内 存 最 小 值 


sysct1_1owmem_reserve_ratio[zone]l。 除 数 的 默认 设置 对 低 端 内 存 域 是 236， 对 高 端 


代码 经 常 对 页 进行 分 组 























[ 式 批 处 型 
了 针对 各 种 不 同 的 主 内 存 大 小 ,计算 而 得 
了 么 被 关注 了 内存 较 大 的 大 多 数 计算 机 都 使 用 了 64 位 CPU)， 

















setup_per_zone_lowmem reserve 完 成 。 内 核 迭 代 系 统 

















4. 冷 热 页 


struct zone 的 pageset 成 员 用 卫 





























FF 实现 冷 热 分 配器 (hot-n-cold allocator)。 内 核 说 页 是 





着 页 








已 经 加 载 到 CPU 高 速 缓存 ， 与 在 内 存 

















FP 的 页 相 比 ， 其 数 














速 缓存 中 。 在 多 处 至 


器 系统 上 每 个 CPU 都 有 











个 或 多 个 高 速 缓存 ， 


操作 ， SWAP_CLUSTER 


的 内 


， 具 体 的 算法 是 将 内 存 域 


能 够 更 快 坟 


Ei 


义 了 分 组 的 大 小 。 
存 域 水 印 值 。 由 于 近来 高 端 内 存 
因此 我 在 图 中 内 给 出 了 普通 内 存 





























Ed 














的 所 有 结 点 ， 
PF 页 帧 的 总 数 除 以 


存 域 是 32。 





























D0, 车 
也 访问 。 相 反 , 口 口 则 不 在 高 
是 必须 是 独立 的 。 























各 个 CPU 的 管 
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加 本 加 
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GPUUDE 加 四 加 四 加 暂 攻 下 王 下 三 大王 而 三 大 加 三 加 天 加 加 加 
国有 
UUCPUUUUUUOUUOU0OO0O0ODODOU COO 


中 ODOVOD 
UUO0O00000NUMA 














pagese 


<mmzone.h> 
struct zone { 








是 一 个 数组 ， 其 容量 与 系统 能 够 容纳 的 CPU 数目 的 最 大 值 和 


struct per_cpu pageset pageset [NR_CPUS] :; 


}; 


NR_CPUS 是 一 个 可 以 在 编译 时 间 配 里 
译 的 内 核 中 ， 其 值 可 能 在 2 和 32 (在 64 位 系统 上 是 64) 之 间 。 








日 同 。 





























的 宏和 常数。 在 单 处 至 











喜 


系统 上 其 值 总 是 1， 针 对 SMP 系 统 编 








国有 








OO 





0D CPUD OUOUDO 





数组 元 素 的 类 型 为 per_cpu_pageset， 定 义 如 下 : 


<mmzone.h> 


struct per_cpu_ pageset { 





















































struct per_cpu_pages pcp[2]; /* 索引 0 对 应 热 页 ， 索引 1 对 应 冷 页 */ 
} cacheline aligned_ in smp; 
该 结构 由 一 个 带 有 两 个 数组 项 的 数组 构成 ， 第 一 项 管理 热 页 ， 第 二 项 管理 ; 
有 用 的 数据 保存 在 per_cpu_pages 中 。” 




















<mmzone.h> 


struct per_cpu pages { 
int count; 
int high; 
imte Batel 
struct list_ head list; 


}3 





@ 内 核 版 本 2.6.25 在 本 书 撰写 昌 
列表 头 部 ， 而 冷 





[仍然 在 开发 
尾部 。 通 过 测 





日 
9 




















页 置 于 列表 


此 引入 了 该 修改 。 


/* 列表 中 页 数 */ 








/* 页 数 
/* 添加 /删除 多 页 块 的 时 
/* 页 的 链表 */ 








该 版 本 会 将 分 别管 理 冷 页 


量 发 现 ， 与 一 个 列表 相 比 ， 两 个 独立 的 列表 不 会 带 来 实质 性 的 好 处 ， 


上 限 水 印 ， 在 需要 的 情况 下 清空 列表 */ 





[ 候 ， 块 的 大 小 */ 


并 为 一 个 。 热 页 放置 在 
因 





和 热 页 的 两 个 列表 合 
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count 记 录 了 与 该 列表 相关 的 页 的 数目 ，high 是 一 个 水 印 。 如 果 count 的 值 超 出 了 high， 则 表明 
列表 中 的 页 太 多 了 。 对 容量 过 低 的 状态 没有 显 式 使 用 水 印 : 如 果 列 表 中 没有 成 员 ， 则 重新 填充 。 
list 是 一 个 双 链 表 ， 保 存 了 当前 CPU 的 冷 页 或 热 页 ， 可 使 用 内 核 的 标准 方法 处 理 。 
如 有 可 能 ，CPU 的 高 速 缓存 不 是 用 单个 页 来 填充 的 ， 而 是 用 多 个 页 组 成 的 块 。batch 是 每 次 添加 
页 数 的 一 个 参考 值 。 
图 3-6 说 明了 在 双 处 理 器 系统 上 per-CPU 绥 存 的 数据 结构 是 如 何 填充 的 。 




























































































count = 36 
high = 96 batch = 16 


count = 16 
high = 32 batch = 16 


count = 36 
high = 96 batch = 16 


CPU0 


CPU 1 


high = 96 batch = 16 

















图 3-6“ 双 处 理 器 系统 上 的 per-CPU 缓 存 

水 印 的 计算 以 及 高 速 缓存 数据 结构 的 初始 化 将 在 3.4.2 节 更 详细 地 讨论 。 

5. 页 帧 

吕 口 代表 系统 内 存 的 最 小 单位 ， 对 内 存 中 的 每 个 页 都 会 创建 struct page 的 一 个 实例 。 内 核 程 序 
员 需 要 注意 保持 该 结构 尽 可 能 小 ， 因 为 即使 在 中 等 程度 的 内 存 配置 下， 系统 的 内 存 同样 会 分 解 为 上 口 
的 页 。 例 如 ，IA-32 系 统 的 标准 页 长 度 为 4 KiB， 在 主 内 存 大 小 为 384 MiB 时 ， 大 约 共 有 100 000 页 。 就 
当今 的 标准 而 言 ， 这 个 容量 算 不 上 很 大 ， 但 页 的 数目 己 经 非常 可 观 。 

这 也 是 为 什么 内 核 尽力 保持 struct page 尽 可 能 小 的 原因 。 在 典型 系统 中 ， 由 于 页 的 数目 巨大 ， 
因此 对 page 结 构 的 小 改动 ， 也 可 能 导致 保存 所 有 page 实 例 所 需 的 物理 内 存 暴涨 。 

页 的 广泛 使 用 ， 增 加 了 保持 结构 长 度 的 难度 : 内 存 管理 的 许多 部 分 都 使 用 页 ， 用 于 各 种 不 同 的 用 
途 。 内 核 的 一 个 部 分 可 能 完全 依赖 于 struct page 提 供 的 特定 信息 ， 而 该 信息 对 内 核 的 男 一 部 分 可 能 
完全 无 用 ， 该 部 分 依赖 于 struct page 提 供 的 其 他 信息 ， 而 这 部 分 信息 对 内 核 的 其 他 部 分 也 可 能 是 完 
全 无 用 的 ， 等 等 。 
C 语 言 的 联合 很 适合 于 该 问题 ， 尽 管 它 未 能 增加 struct page 的 清晰 程度 。 考 虑 一 个 例子 : 一 个 
物理 内 存 页 能 够 通过 多 个 地 方 的 不 同 页 表 映 射 到 虚拟 地 址 空间 ， 内 核 想 要 跟踪 有 多 少 地 方 映射 了 该 
页 。 为 此 ，struct page 中 有 一 个 计数 器 用 于 计算 映射 的 数目 。 如 果 一 页 用 于 slub 分 配器 (将 整 页 细 
分 为 更 小 部 分 的 一 种 方法 ， 请 参见 3.6.1 节 )， 那 么 可 以 确保 只 有 内 核 会 使 用 该 页 ， 而 不 会 有 其 他 地 方 
使 用 ， 因 此 映射 计数 信息 就 是 多 余 的 。 因 此 内 核 可 以 重新 解释 该 字段 ， 用 来 表示 该 页 被 细 分 为 多 少 个 
小 的 内 存 对 象 使 用 。 在 数据 结构 定义 中 ， 这 种 双重 解释 如 下 所 示 ; 


<mm_types.h> 
struct page { 

























































































































































































































































































my 























































































































union { 





















































atomic t _mapcount; /* 内 存 管 理子 系统 中 映射 的 页 表 项 计数 ， 
* 用 于 表示 页 是 否 已 经 映射 ,还 用 于 限制 逆向 映射 搜索 。 
* 
/ 
unsigned int inuse; /* 用 于 sLUB 分 配器 : 对 象 的 数目 */ 
3 
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即 不 受 关 








要 注意 atomic_t 和 unsigned int 是 两 个 不 同 的 数据 类 型 ,外 

















F 发 访问 的 有 影响， 而 第 三 种 类 型 则 是 
每 种 体系 结构 上 整数 也 是 这 么 多 比特 位 。 有 人 可 





struct page { 


} 


这 是 很 0 口 的 风格 ， 是 内 核 
而 这 应 该 反映 在 数据 类 型 中 。 


atomic_t counter; 

















而 最 








和 inuse 则 对 相应 的 成 员 提 供 了 清晰 简明 的 描述 














© 0 DD 


结构 定义 如 下 : 


<mm.h> 
struct page { 


#if defined (WANT PAGE VIRTUAL) 


unsigned long flags; 


atomic_t 
union { 


Count;y 


atomic_t _mapcount; /* 


unsigned int inuse; 


stiEuGt-f 


unsigned long private; 


E 要 地 , 这 种 < 简 人 








能 企图 像 下 面 ; 




















一 个 类 型 允许 以 原子 方式 修改 其 值 ， 
型 的 整数 。atomic_t 是 32 个 比特 位 ，? 而 在 Linux 支 持 的 
这 样 “简化 ”该 定义 : 


发 者 完全 不 能 接受 的 。slub 代 码 在 访问 对 象 计数 器 时 无 需 原子 性 
”会 影响 两 个 子 系统 中 代码 的 可 读 性 。mapcount 
， 而 countez 的 含义 则 过 于 广泛 。 








/* 原子 标志 ， 有 些 情况 下 会 
/* 使 用 计数 ， 见 下 文 。 */ 

















E 步 更 新 








IL 











tT 








A 

















* 用 于 表示 页 是 否 
*/ 























j 存 管理 子 系统 中 映射 的 页 表 项 计数 ， 
已 经 映射 ， 还 








于 限制 逆向 映射 搜索 。 



































/* 用 于 SLUB 分 配器 : 对 象 的 数目 */ 


/* 由 映射 和 取 有 ， 不 透明 数据 : 
* 如 果 设置 了 PagePrivate， 通 常用 于 buffer . 


, 














heads; 














* 如 果 设 置 了 PageSwapCache， 则 用 于 swp entry t; 


* 如 果 设 置 了 PG_buddy， 则 用 于 表示 伙伴 


WA 


struct address space *mapping; /* 


}; 


struct kmem cache *slab; 
struct page *first page; 


pgoff 七 index; 
void *freelist; 


struct list head lru; 


Void virtuals; 





中 在 内 核 2.6.32 
结构 的 通 


























代码 都 只 








前 ， 这 是 不 正确 的 。Sparc 体 系 结构 对 原子 操作 下 


能 遵守 该 设置 。 幸 运 的 是 ， 现 在 通过 


六 相 冰 六 靳 











如 果 最 低 


address 

















系统 中 的 阶 。 














位 为 0， 则 指向 inoqe 
space， 或 为 NULL。 





如 果 页 映 
而 且 该 指 
参见 下 文 


/* 用 于 SLUB 分 配器 : 指向 




















/* 用 于 复合 页 的 








/* 在 映射 内 的 偏 移 量 */ 
/* SLUB: 


/* 换 出 页 列表 ， 例 如 由 zone->lru_ 


4 
/* 内 核 虚 拟 地 址 


























freelist req. 


《如 果 没 有 映射 贝 





尾 页 ， 指 


slab 











射 为 匿名 内 存 ， 最 低位 置 位 ， 
针 指 向 anon_vma 对 象 : 
的 PAGE_MAPPING ANON。 





slab 的 指针 */ 
癌 首 页 */ 




















lock */ 





lock 保 护 的 active list! 


为 NULL， 即 高 端 内 存 ) */ 











的 数据 类 型 上 只 能 提供 24 





个 比特 位 ， 因 此 








于 所 有 体系 














改进 特定 于 Sparc 的 代码 ， 已 经 解决 了 该 问题 。 
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#endif /* WANT PAGE VIRTUAL */ 
3 
slab、freelist 和 ijnuse 成 员 用 于 slub 分 配器 。 我 们 不 需要 关注 这 些 成 员 的 具体 布局 ， 如 果 内 




















核 编译 没有 启用 slub 分 配器 支持 ， 则 不 会 使 用 这 些 成 员 。 为 简明 起 见 ， 我 在 下 文 的 讨论 中 会 略 去 这 些 
成 员 。 

该 结构 的 格式 是 体系 结构 无 关 的 , 不 依赖 于 使 用 的 CPU 类 型, 每 个 页 帧 都 
论 相 关内 核子 系统 时 准确 地 解释 。 























1 该 结构 描述 。 除 了 slub 


A 
Ss 


























































































































相关 成 员 之 外 ，page 结 构 也 包含 了 若干 其 他 成 员 ， 只 能 在 讨 这 需 
要 引用 后 续 章 节 ， 我 仍然 会 概述 该 结构 的 内 容 。 
口 flags 存 储 了 体系 结构 无 关 的 标志 ， 用 于 描述 页 的 属性 。 我 将 在 下 文 讨论 不 同 的 标志 选项 。 
口 _count 是 一 个 使 用 计数 ， 表 示 内 核 中 引用 该 页 的 次 数 。 在 其 值 到 达 0 时 ， 内 核 就 知道 page 实 例 
当前 不 使 用 ， 因 此 可 以 删除 。 如 果 其 值 大 于 0， 该 实例 决 不 会 从 内 存 删 除 。 如 果 读 者 不 熟悉 引 
用 计数 器 ， 可 以 在 附录 C 查 阅 更 详细 的 资料 。 
口 mapcount 表 示 在 页 表 中 有 和 多少 项 指向 该 页 。 














口 1zu 是 一 个 表 头 ， 用 于 在 各 种 链表 上 维护 该 页 ， 以 便 将 页 按 不 同类 别 分 组 ， 最 重要 的 类 别 是 活 
动 和 不 活动 页 。 第 18 章 中 的 讨论 会 特别 关注 这 些 链 表 。 

口 内 核 可 以 将 多 个 毗连 的 页 合并 为 较 大 的 0 口 口 (compound page)。 分 组 中 的 第 一 个 页 称 作品 口 
(head page )， 而 所 有 其 余 各 页 叫做 口 口 (tail page)。 所 有 尾 页 对 应 的 page 实 例 中 ， 都 将 
first_page 设 置 为 指向 首页 。 

口 mapping 指 定 了 页 帧 所 在 的 地 址 
常 一 般 的 概念 ， 例 如 ， 可 以 用 在 向 内 存 读 取 文件 时 。 地 址 空间 
装载 数据 的 内 存 区 关联 起 来 。 通 过 一 个 小 技巧 ，“mapping 不 仅 能 够 保存 一 个 指针 ， 而 且 
包含 一 些 额外 的 信息 ， 用 于 判断 页 是 否 属于 未 关联 到 地 址 空间 的 某 个 匿名 内 存 区 。 
mapping 置 为 1， 则 该 指针 并 0 指向 address_space 的 实例 ， 而 是 指 问 男 一 个 数据 结 
Canon_vma)， 该 结构 对 实现 匿名 页 的 逆向 映射 很 重要 ， 该 结构 将 在 4.11.2 节 讨论 。 对 该 指针 

双重 使 用 是 可 能 的 ， 因 为 aaaqress_space 实 例 总 是 对 齐 到 sizeof (long)。 因 此 在 Linux 支 持 的 

所 有 计算 机 上 ， 指 向 该 实例 的 指针 最 低位 总 是 0。 

该 指针 如 果 指 向 address_space 实 例 ， 则 可 以 直接 使 

内 核 可 使 用 下 列 操作 恢复 来 恢复 指针 : 


amnom_Vma = (mapping -PAGE MAPPING ANON) 








HI 中 













































































空间 。index 是 页 帧 在 映射 内 部 的 偏 移 量 。 地 址 空间 是 一 个 非 
用 于 将 文件 的 内 容 ( 数 据 ) 与 






























































































































































] 。 如 果 使 





了 技巧 将 最 低位 设置 为 1， 
































(struct anon vma *) 





































































































口 private 是 一 个 指向 “私有 ”数据 的 指针 ， 虚 拟 内 存 管理 会 忽略 该 数据 。 根 据 页 的 用 途 ， 可 以 
用 不 同 的 方式 使 用 该 指针 。 大 多 数 情 况 下 它 用 于 将 页 与 数据 缓冲 区 关联 起 来 ， 在 后 续 章节 中 
业 述 。 

口 virtual 用 于 高 端 内 存 区 域 中 的 页 ， 换 言 之 ， 即 无 法 直接 映射 到 内 核 内 存 中 的 页 。virtual 用 
于 存储 该 页 的 0 口 地 址 。 
按照 预 处 理 器 语句 #if defined (WANT_PAGE_VIRTUAL)， 只 有 定义 了 对 应 的 宏 ，virtual 才 能 
































成 为 struct page 的 一 部 分 。 当 前 具有 几 个 体系 结构 是 这 样 , 即 摩托 罗拉 m68k、FRV 和 Extensa。 








所 有 其 他 体系 结 





内 存 页 帧 的 散 丈 











Q 该 技巧 虽 近乎 于 肆 无 





| 表 。3.5.8 节 会 更 











详细 地 看 








忌 悦 ， 但 在 内 核 使 


























构 都 采用 了 一 种 不 同 的 方案 来 寻 址 虚拟 内 存 页 。 其 核心 是 用 来 查找 所 有 高 端 











最 频繁 的 结构 (之 一 ) 中 节省 了 空间 。 


122 


U30 0000 





标志 独立 于 使 用 的 体系 结构 ， 因 
文 可 知 )。 
各 个 标志 是 page-flags .hj 


的 计算 机 上 比较 慢 ， 因 
en0U00000000 





后 











上 只 


能 选择 这 种 直接 的 方法 。 











页 的 不 同属 性 通过 一 系列 页 标志 









































田 























的 宏 定 义 的 ， 此 外 还 生成 了 一 


询 。 这 样 做 时 ， 内 核 遵守 了 一 种 通用 的 命名 方案 。 


特 位 : 

















的 


若干 语 句 组成， 人 


























列 如 ，PG_locked 常 数 定义 了 标志 中 














口 PageLocked 查 询 比 特 位 是 否 置 位 ; 








口 SetPageLocked 设 置 PG 














locked 位 ， 不 考虑 先前 


的 状态 ; 









































口 TestSetPageLocked 设 
口 ClearPageLocked 清 除 上 
口 
对 其 他 的 页 标志 ， 同 样 有 一 


























比特 位 ， 而 
特 位 ， 不 考虑 先前 的 状态 ; 
TestClearPageLocked 清 除 上 


组 


返回 原 值 ; 








返 


加 





原 值 。 


上 特 位， 











全 > 


太 





























] 








用 于 指定 页 锁定 与 否 的 比特 位 置 。 下 列 宏 可 以 用 












































使 用 了 特殊 








的 处 到 





各 








下 








合 则 会 导致 范 态 条 件 。 第 5 音 
有 哪些 页 标志 可 用 
口 PG_locked 指 定 


了 内 存 管 理 出 现 党 态 条 件 ， 




































































了 页 是 否 锁定 。 锥 





述 了 竞 态 条 件 是 如 何 出 现 的 ， 





? 以 下 列 出 了 最 重要 的 标志 (其 含义 在 以 








以 及 如 


于 标志 的 设置 、 

































































例如 ， 








牛 错 误 











口 如 果 在 涉及 该 页 的 VO 操作 
口 


期 间 发 4 


PG_referenced 和 PG_active 探 制 


LHI， 



































































































































些 )。 

























































































时 ， 该 信息 是 很 重要 的 。 这 两 个 标志 的 交互 将 在 第 18 章 解释 。 

口 PG_uptodqate 表 示 页 的 数据 已 经 从 块 设备 读 取 ， 其 间 没 有 出 错 。 

口 如 果 与 硬盘 上 的 数据 相 比 ， 页 的 内 容 已 经 改变 ， 则 置 位 Pe_qirty。 出 于 性 能 考虑 ， 页 并 不 在 
每 次 改变 后 立即 回 写 。 因 此 内 核 使 用 该 标志 注 明 页 已 经 改变 ， 可 以 在 稍 后 刷 出 。 
设置 了 该 标志 的 页 称 为 0 口 (通常 ， 该 意味 着 内 存 中 的 数据 没有 与 外 存储 器 介质 如 人 硬盘 上 的 
数据 同步 )。 

口 PG_1lru 有 助 于 实现 页 面 回收 和 切换 。 内 核 使 用 两 个 最 近 最 少 使 用 (leastrecently used，lru) 链 
表 " 来 区 别 活动 和 不 活动 页 。 如 果 页 在 其 中 一 个 链表 中 , 则 设置 该 比特 位 。 还 有 一 个 PG_active 
标志 ， 如 果 页 在 活动 页 链表 中 ， 则 设置 该 标志 。 第 18 章 详细 讨论 了 这 一 重要 机 制 。 

口 PG_highmem 表 示 页 在 高 端 内 存 中 ， 无 法 持久 映射 到 内 核 内 存 中 。 

该 字段 











将 页 细 分 为 0 DDUD 
将 私有 数据 附加 到 页 上 。 
























































GD 频繁 使 





的 项 






































口 如 果 页 的 内 容 处 于 向 块 设备 




































































口 如 果 page 结 构 的 private 成 员 非 空 ， 则 必须 设置 Ps_private 位 。 用 于 IO 的 页 ， 可 使 月 
口 “更 多 信息 请 参见 第 16 章 )， 但 内 核 的 其 他 部 分 也 有 各 种 不 同 的 方法 ， 














3 动 排 到 链表 最 靠 前 的 位 置 ， 而 不 活动 项 总 是 向 链表 末 





尾 方向 移动 。 











回 写 的 过 程 中 ， 则 需要 设置 PG_writeback 位 。 
口 如 果 页 是 3.6 节 讨论 的 slab 分 配器 的 一 部 分 ， 则 设置 PG_slab 位 。 
口 如 果 页 处 于 交换 缓存 ， 则 设置 PG_swapcache 位 。 在 这 种 情况 下 ，private 包 


含 一 个 





类 





述 ， 存 储 为 struct page 的 flags 成 员 中 的 各 个 比特 位 。 这 些 
而 无 法 提供 特定 于 CPU 或 计算 机 的 信息 《该 信息 保存 在 页 表 中 ， 见 下 


删除 、 查 


来 操作 该 比 


来 操作 对 应 的 比特 位 。 这 些 宏 的 实现 是 原子 的 。 尽管 其 中 一 些 
命令 ,确保 其 行为 如 同 单一 的 语句 。 即 这 些 语句 是 无 法 中 断 
可 防止 。 

后 儿 章 里 会 变 得 清楚 
[ 果 该 比特 位 置 位 ， 内 核 的 其 他 部 分 不 允许 访问 该 页 。 这 防止 
在 从 硬盘 读 取 数 据 到 页 帧 时 。 
则 PG_error 置 位 。 


了 系统 使 用 该 页 的 活路 程度。 在 页 交换 子 系统 选择 换 出 页 


型 尖 


[= 
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swap_entry t 的 项 〈 更 多 信息 请 参见 第 18 章 )。 
口 在 可 用 内 存 的 数量 变 少时 ， 内 核 试图 周期 性 地 口 口 ， 即 剔除 不 活动 、 未 用 的 页 。 第 18 章 讨 
论 了 相关 细节 。 在 内 核 决 定 回收 某 个 特定 的 页 之 后 ， 需 要 设置 PG_reclaim 标 志 通 知 。 
口 如 果 页 空闲 上 且 包 含 在 伙伴 系统 的 列表 中 ,， 则 设置 PG_buady 人 位， 伙伴 系统 是 页 分 配 机 制 的 核心 。 
口 PG_compound 表 示 该 页 属于 一 个 更 大 的 复合 页 ， 复 合 页 由 多 个 毗连 的 普通 页 组 成 。 
内 核定 义 了 一 些 标准 宏 ， 用 于 检查 页 是 否 设 置 了 某 个 特定 的 比特 位 ， 或 者 操作 某 个 比特 位 。 这 些 
宏 的 名 称 有 一 定 的 模式 ， 如 下 所 述 。 
口 PageXXX (page) 会 检查 页 是 
Active 检 查 PG_active 位 ， 
口 SetPageXXxx 在 某 个 比特 位 没有 设置 的 情况 下 ， 设 置 该 比特 位 ， 并 返回 原 值 。 
口 ClearPageXxX 无 条 件 地 清除 某 个 特定 的 比特 位 。 
口 TestClearPageXXX 清 除 某 个 设置 的 比特 位 ， 并 返回 原 值 。 
请 注意 ， 这 些 操作 的 实现 是 原子 的 。 第 5 章 更 详细 地 讨论 了 原子 的 含义 。 
很 多 情况 下 ， 需 要 等 待 页 的 状态 改变 ， 然 后 才能 恢复 工作 。 内 核 提 供 了 两 个 辅助 函数 ， 对 此 很 有 




















































































































否 设置 了 PG_Xxx 位 。 例 如 ，PageDirty 检 查 PG_dirty 位 ， 而 Page- 









































































































































<pagemap.h> 
void wait_on page_locked(struct page *page); 
void wait_ on page writeback (struct page *page) 


假定 内 核 的 一 部 分 在 等 待 一 个 被 锁定 的 页 面 , 直至 页 面 解锁 。wait_on_page_lockea 提 供 了 该 功 
能 。 该 函数 的 技术 实现 将 在 第 14 章 讨论 ， 现 在 只 要 知道 ， 在 页 面 锁定 的 情况 下 调用 该 函数 ， 内 核 将 进 
入 睡眠 ， 就 足够 了 。 在 页 解锁 之 后 ， 睡 眠 进程 被 自动 唤醒 并 继续 工作 。 

wait_on_page writeback 的 工作 方式 类 似 ， 该 函数 会 等 待 到 与 页 面相 关 的 所 有 待 决 回 写 操作 结 
束 ， 将 页 面包 含 的 数据 同步 到 块 设备 〈 例 如 ， 硬 盘 ) 为 止 。 


3.3 页 表 
层次 化 的 页 表 用 于 文 持 对 大 地 址 空间 的 快速 、 高 效 的 管理 。 第 1 章 讨论 了 该 方法 背后 的 原理 ， 以 









































































































































































































































































































































































































































及 与 线性 寻 址 相 比 该 方法 的 好 处 。 我 们 在 这 里 将 仔细 考察 具体 的 技术 实现 。 

UUUO0OO0OO0O00000000000000000000000000000000 

UUOOU000000000000000000000000000000D0000 

UUOO0OU00000000000000000mD00000000000000000 

UUUO0O0OU0000000000000000000000000000000000 

UUO0OU000000000000000000000m0000000000000 

UUOUOOO0O0O0000000000000000000 

内 核 内 存 管 理 总 是 假定 使 用 四 级 页 表 ， 而 不 管 底 层 处理 器 是 否 如 此 。 这 方面 最 好 的 例子 是 ， 该 假 









































定 对 IA-32 系 统 是 不 正确 的 。 默 认 情况 下 ， 该 体系 结构 只 使 用 两 级 分 页 系统 〈 在 不 使 用 PAE 扩 展 的 情况 
下 )。 因 此 ， 第 三 和 第 四 级 页 表 必须 由 特定 于 体系 结构 的 代码 模拟 。 

页 表 管 理 分 为 两 个 部 分 ， 第 一 部 分 依赖 于 体系 结构 ， 第 二 部 分 是 体系 结构 无 关 的 。 有 趣 的 是 ， 所 
有 数据 结构 和 操作 数据 结构 的 几乎 所 有 函数 都 是 定义 在 特定 于 体系 结构 的 文件 中 。 由 于 特定 于 不 同 
CPU 的 实现 有 一 些 比较 大 的 差别 《因为 使 用 了 各 种 不 同 的 CPU 概念 )， 为 简明 起 见 ， 我 不 打算 深入 到 
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+ 录 A 更 详细 









































在 以 后 儿 节 里 描述 的 数据 结构 和 函数 ,通常 基于 体系 结构 相关 的 文件 中 提供 的 接 

























































































的 细节 中 。 这 需要 广泛 了 解 各 种 处 理 器 的 相关 知识 ， 同 一 处 理 器 家 族 的 人 硬件 文档 通常 会 有 几 本 书 
地 描述 了 IA-32 体 系 结构 。 它 还 讨论 了 “至 少 是 比较 概括 的 ) Linux 支 持 的 其 他 重 
里 器 体系 结构 。 














。 定 义 可 以 在 





头 文 件 include/asm-arch/page.h 和 include/asm-arch/pgtable.h 中 找到 ， 下 文 简称 为 page .hn 和 
pgtable.h。 虽 然 AMD64 和 IA-32 已 经 统一 为 一 个 体系 结构 ， 但 在 处 理 页 表 方 面 仍然 有 很 大 差别 ， 
此 相关 的 定义 分 为 两 个 不 同 的 文件 : include/asm-x86/page_32.h 和 include/asm-x86/page_64. 





他 的 信息 ， 即 





类 似 地 有 pgtable_XX.h。 在 讨论 特定 于 体系 结构 的 问题 时 ， 我 会 明确 指 日 
使 相关 结构 的 定义 是 特定 于 体系 结构 的 ， 也 都 适用 于 所 有 的 体系 结构 。 





3.3.1 数据 结构 





在 C 语 言 中 ，void * 数 据 类 型 用 于 定义 可 















































































































































































































































































































































































































































因 





n, 


相关 的 体系 结构 。 所 有 其 


能 指向 内 存 中 任何 字 节 位 置 的 指针 。 该 类 型 所 需 的 比特 





位 数目 依 不 同体 系 结构 而 不 同 。 所 有 常见 的 处 理 器 (包括 Linux 支 持 的 所 有 处 理 器 ) 都 使 用 32 位 或 64 位 。 
内 核 源 代码 假定 voida * 和 unsigneq long 类 型 所 需 的 比特 位 数 相 同 ， 因 此 它们 之 间 可 以 进行 强制 
转换 而 不 损失 信息 。 该 假定 的 形式 表示 为 sizeof (void *) == sizeof (unsigned long)， 在 Linux 
支持 的 所 有 体系 结构 上 都 是 正确 的 。 
内 存 管理 更 喜欢 使 用 unsigned long 类 型 的 变量 , 而 不 是 voig 指 针 , 因为 前 者 更 易于 处 理 和 操作 。 
技术 上 ， 它 们 都 是 有 效 的 。 
1. 内 存 地 址 的 分 解 
根据 四 级 页 表 结构 的 需要 , 虚拟 内 存 地 址 分 为 5 部 分 (4 个 表 项 用 于 选择 页 , 1 个 索引 表示 页 内 位 置 )。 
各 个 体系 结构 不 仅 地 址 字 长 度 不 同 ， 而 且 地 址 字 拆 分 的 方式 也 不 同 。 因 此 内 核定 义 了 宏 ， 用 于 将 
地 址 分 解 为 各 个 分 量 。 
图 3-7 说 明了 如 何 用 比特 位 移 来 定义 地 址 字 各 分 量 的 位 置 。BITS_PER_LONG 定 义 用 于 unsigned 
long 变 量 的 比特 位 数目 ， 因 而 也 适用 于 指向 虚拟 地 址 空间 的 通用 指针 。 
| BITS_PER_LONG 六 
DO 
PAGE_SHIFT 
PMD_SHIFT 
| 4 PUD SELEE | 
| 4 PGDIR_SHIFT » | 
图 3-7 分 解 虚拟 内 存 地 址 
每 个 指针 末端 的 几 个 比特 位 ， 用 于 指定 所 选 页 帧 内 部 的 位 置 。 比 特 位 的 具体 数目 由 PAGE_SHIFT 


指定 。 


PMD_SHIFT 指 定 了 页 内 偏 移 量 0 最 后 一 级 页 表 项 所 需 比 特 位 的 D 口 。 该 值 减 去 PAGI 
最 后 一 级 页 表 项 索引 所 需 比 特 位 的 数目 。 更 重要 的 是 下 述 事 实 ; 该 值 表 明了 一 个 



























































部 分 地 址 空间 的 大 小 ， 即 2”*“" 字 节 。 








PUD_SHIFT 由 PMI 
PUD_SHIFT 加 上 || 





























Ph 间 层 页 


D_SHIFT 加 上 中 间 层 页 表 索 引 所 需 的 比特 位 长 度 ， 而 PcDIR_SHIFT 则 
上 层 页 表 索 引 所 需 的 比特 位 长 度 。 对 全 局 页 目录 中 的 一 项 所 能 寻 址 的 部 分 地 址 空间 长 











E_SHIFT, 可 得 
项 管理 


的 
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度 计算 以 2 为 底 的 对 数 ， 即 为 PGDIR_SHIFT。 
在 各 级 页 目录 /页 表 中 所 能 存储 的 指针 数目 ， 也 可 以 通过 宏 定义 确定 。PTRS_PER_PGD 指 定 了 全 局 
页 目录 中 项 的 数目 ， PTRS_PER_PMD 对 应 于 中 间 页 目录 , PTRS_PER_PUD 对 应 于 上 层 页 目录 中 项 的 数目 ， 


PTRS_PER_PTE 则 是 页 表 中 项 的 数目 


oOooogogogogond was sa weg Fras BR B00 ODO 
OO 人 gggoooog 人 googgog 人 ooogoggggogogoggoo 
OOOO 人 gogog 人 dooogwogoggooggogoogong 人 nrogog 人 oooggogogoonn 
DD0UUUUU icluaqe/asm-generic/pgtable-nopudq.hUDUDODOOODOOODOOO000 
DD0UUUUUD includge/asm-generic/pgtable-nopmd.h[| D000U00UUUUO 
加 加 加 加 加 由 四 思 加 加 到 


?比特 位 长 的 地 址 字 可 寻 址 的 地 址 区 域 长 度 为 2 字 节 。 内 核定 义 了 额外 的 宏 变 量 保存 计算 得 到 的 
值 ， 以 避免 多 次 重复 计算 。 相 关 的 宏 定义 如 下 : 


define PAGE_SIZB (1U] 












































































































































<< PAGE_SHIFT) 














define PUD_SIZE (1UL << PUD_SHIFT) 
define PMD_SIZE (1UL << PMD_SHIFT) 
define PGDIR_SIZE (1UL << PGDIR_SHIFT) 








秆 2 在 二 进 制 中 很 容易 通过 从 位 置 0 左 移 n 位 计算 而 得 到 。 内 核 在 许多 地 方 使 用 了 这 种 技巧 。 不 熟 
悉 位 运算 的 读者 可 以 参考 附录 C 的 解释 。 


include/asm-x86/pgtable_64.h 
define PGDIR_ SHIFT 39 
define PTRS_PER_PGD 512 

















define PUD_SHIFT 30 
define PTRS_PER_PUD 512 





define PMD_SHIET 21 
define PTRS_PER_PMD 512 


PTRS_PER_XXX 指 定 了 给 定 目 录 项 能 够 代表 多 少 指针 〈 即 ， 多 少 个 不 同 的 值 )。 由 于 AMD64 对 每 
个 页 表 索 引 使 用 了 9 个 比特 位 ， 因 此 每 个 页 表 可 容纳 2*=512 个 指针 。 
内 核 也 需要 一 种 方法 从 给 定 地 址 中 提取 各 个 分 量 。 内 核 使 用 如 下 定义 的 位 掩 码 来 完成 该 工作 。 













































































#define PAGE MASK (~ (PAGE_SIZE-1)) 
#define PUD_ MASK (~ (PUD_SIZE-1)) 
#define PMD MASK (~ (PMD_SIZE-1)) 
#define PGDIR MASK (~ (PGDIR_SIZE-1)) 





将 给 定 地 址 与 对 应 掩 码 按 位 与 即 可 。 

2. 页 表 的 格式 

上 述 定义 已 经 确立 了 页 表 项 的 数目 , 但 没有 定义 其 结构 。 内 核 提供 了 4 个 数据 结构 (定义 在 page.h 

中 ) 来 表示 页 表 项 的 结构 。 
口 pgd_t 用 于 全 局 页 目录 项 。 

口 pudq_t 用 于 上 层 页 目录 项 。 

口 pma_t 用 于 中 间 页 目录 项 。 

口 bte_t 用 于 直接 页 表 项 。 

用 于 分 析 页 表 项 的 标准 函数 在 表 3-2 列 出 。 根 据 不 同 的 体系 结构 ， 一 些 函 数 可 能 实现 头 
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些 则 实现 为 内 联 函数 。 在 下 文中 我 对 二 者 不 作 区 分 。 
表 3-2 用 于 分 析 页 表 项 的 函数 
函 数 描述 


pgd_val 将 pte_t 等 类 型 的 变量 转换 为 unsigned 1ong 整 数 
pud_val 





pmd_val 

pte_val 

pgprot_val 

—pgd pgd_val 等 函数 的 逆 ， 将 unsigned long 整 数 转换 为 pgdq_t 等 类 型 的 变 
— pud 

— pmd 

— pte 

— pgprot 

pgd_index 从 内 存 指针 和 页 表 项 获得 下 一 级 页 表 的 地 址 


pud_index 





邱 





pmd_index 

pte_index 

pgd_present 检查 对 应 项 的 _PRESENT 位 是 否 设置 。 如 果 该 项 对 应 的 页 表 或 页 在 内 存 中 ， 则 会 置 位 
Pud_Present 














pmd_present 
pte_present 
pgd_none 对 xxx_present 函 数 的 值 逻 辑 取 反 。 如 果 返 回 crue， 则 检查 的 页 口 口 内 存 


pud_none 





DU 





pmd_none 
pte_none 
pgd_clear 删除 传递 的 页 表 项 。 通 常 是 将 其 设置 为 堆 
pud_clear 





pmd_clear 
pte_clear 
pgd_bad 检查 中 间 层 页 表 、 上 层 页 表 、 全 局 页 表 的 项 是 否 无 效 。 如 果 函 数 从 外 部 接收 输入 参数 ， 则 无 
pud_bad 法 假定 参数 是 有 效 的 。 为 保证 安全 性 ， 可 以 调用 这 些 函 数 进行 检查 

pmd_bad 


pnd_page 返回 保存 页 数据 的 page 结 构 或 中 间 页 目录 的 项 
pud_page 
pte_page 
offset 函 数 如 何 工作 ? 以 pmg_offset 为 例 。 它 需要 全 局 页 目录 项 (src_pgqd) 和 一 个 内 存 地 址 
作为 参数 。 它 从 茶 个 中 间 页 目录 返回 一 项 。 
src_pmd = pmd_ offset(src pgd, address); 
PAGE_ALIGN 是 男 一 个 每 种 体系 结构 都 必须 定义 的 标准 宏 (通常 在 page.h 中 )。 它 需要 一 个 地 址 作 
为 参数 ， 并 将 该 地 址 “ 舍 入 ”到 下 一 页 的 起 始 处 。 如 果 页 大 小 是 4 096， 该 宏 总 是 返回 其 倍数 。 
PAGE_ALIGN (6000)=8192 = 2x 4 096, PAGE_ALIGN (0x84590860)=0x84591000 = 542 097 x 4 096。 为 
用 好 处 理 器 的 高 速 缓存 资源 ， 将 地 址 对 齐 到 页 边界 是 很 重要 的 。 
尽管 使 用 了 C 结 构 来 表示 页 表 项 ， 但 大 多 数 页 表 项 都 只 有 一 个 成 员 ， 通常 是 unsigned long 类 型 ， 
以 AMD64 体 系 结构 为 例 : ” 





















































































































































































































































(D IA-32 的 定义 类 似 。 但 只 有 pte_t 和 pga_t 是 有 实际 作用 的 ， 二 者 都 定义 为 unsigned long。 我 使 用 了 AMD64 的 代 
码 作为 例子 ， 因 为 它 更 加 规范 。 
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include/asm-x86_64/page.h 

typedef struct { unsigned long pte; } pte 七 ; 
typedef struct { unsigned long pmd; } pma t; 
typedef struct { unsigned long pud; } pud t; 
typedef struct { unsigned long pgd; } pgqd 七 


使 用 struct 而 不 是 基本 类 型 ， 以 确保 页 表 项 的 内 容 只 能 由 相关 的 辅助 函数 处 理 ， 而 决 不 能 直接 
访问 。 表 项 也 可 以 由 儿 个 基本 类 型 变量 构成 。 在 这 种 情况 下 ， 内 核 就 必须 使 用 struct 了 。” 


加 同和 
加 加 同和 
国人 Ee 
加 

ODOAOOUVOUVOUVOUVUVOUUVOUO 


3. 特定 于 PTE 的 信息 
最 后 一 级 页 表 中 的 项 不 仅 包含 了 指向 页 的 内 存 位 置 的 指针 , 还 在 上 述 的 多 余 比特 位 包含 了 与 页 有 
关 的 附加 信息 。 尽 管 这 些 数 据 是 特定 于 CPU 的 ， 它 们 至 少 提 供 了 有 关 页 访问 控制 的 一 些 信息 。 下 列 位 
在 Linux 内 核 支持 的 大 多 数 CPU 中 都 可 以 找到 。 
口 _ PAGE PRESENT 指 定 了 虚拟 内 存 页 是 否 存在 于 内 存 中 。 页 不 见得 总 是 在 内 存 中 ， 第 1 章 提 到 
过 ， 页 可 能 换 出 到 交换 区 。 
如 果 页 不 在 内 存 中 ， 那 么 页 表 项 的 结构 通常 会 有 所 不 同 ， 因 为 不 需要 描述 页 在 内 存 中 的 位 置 。 
相反 ， 需 要 信息 来 标识 并 找到 换 出 的 页 。 
口 CPU 每 次 访问 页 时 ， 会 自动 设置 _PAGE_ACCESSED。 内 核 会 定期 检查 该 比特 位 ， 以 确认 页 使 用 
的 活跃 程度 (不 经 常 使 用 的 页 ， 比 较 适合 于 换 出 )。 在 读 或 写 访问 之 后 会 设置 该 比特 位 。 
口 _PAGE_DIRTY 表 示 该 页 是 否 是 “ 脏 的 ”， 即 页 的 内 容 是 否 已 经 修改 过 。 
口 _PAGE_FILE 的 数值 与 _PAGE_DIRTY 相 同 ， 但 用 于 不 同 的 上 下 文 ， 即 页 口 口 内 存 中 的 时 候 。 显 
然 ， 不 存在 的 页 不 可 能 是 脏 的 ， 因 此 可 以 重新 解释 该 比特 位 。 如 果 没 有 设置 ， 则 该 项 指向 一 
个 换 出 页 的 位 置 (参见 第 18 章 )。 如 果 该 项 属于 非 线 性 文件 映射 ， 则 需要 设置 _PAGE_FILE,， 
将 在 4.7.3 节 讨论 。 
口 如 果 设 置 了 _PacE_UsER， 则 允许 用 户 空间 代码 访问 该 页 。 和 否则 只 有 内 核 才 能 访问 《或 CPU 处 
于 系统 状态 的 时 候 )。 
口 _PAGE_READ、_PAGE_WRITE 和 _PAGE_EXECUTE 指 定 了 普通 的 用 户 进 程 是 否 允 许 读 取 、 写 入 、 
执行 该 页 中 的 机 器 代码 。 
内 核 内 存 中 的 页 必须 防止 用 户 进程 写 入 。 
但 即使 属于 用 户 进程 的 页 ， 也 无 法 保证 可 以 写 入 ， 这 可 能 是 有 意 如 此 ， 也 可 能 是 无 意 偶 合 。 例 
如 ， 其 中 可 能 包含 了 不 能 修改 的 可 执行 代码 。 
对 于 访问 权限 粒度 不 那么 细 的 体系 结构 而 言 ， 如 果 没 有 进一步 的 准则 可 区 分 读 写 访问 权限 ， 则 
会 定义 _PAGE_RW 常 数 ， 用 于 同时 允许 或 禁止 读 写 访问 。 


























































































































































































































































































































































































































































































































































































































































































































@ 例如 ， 在 IA-32 处 理 器 使 用 PAE 模 式 时 ， 将 pte_t 定 义 为 typedef struct { unsigned long pte_low, pte_high;}。 
32 个 比特 位 显然 不 够 寻 址 全 部 的 内 存 ， 因 为 该 模式 可 以 管理 多 于 4 GiB 的 内 存 。 换 句 话说 ,可 用 的 内 存 数量 可 以 大 
于 处 理 器 的 地 址 空间 。 但 由 于 指针 仍然 只 有 32 个 比特 位 宽 ， 必 须 为 用 户 空 间 应 用 程序 选择 扩大 的 内 存 空间 的 一 个 
适当 子 集 ， 使 每 个 进程 仍然 只 能 看 到 4 GiB 地 址 空间 。 
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U30 0000 





每 种 体系 结构 都 必须 提供 两 个 东西 ， 使 得 内 存 管 理子 系统 外 
保存 额外 的 比特 位 的 _ pgprot 数 据 类 型 ， 以 及 
符号 可 用 于 选择 适当 的 比特 位 


一 些 给 定 特性 的 硬件 支持 ， 
口 pte_present 检 查 页 表 项 指向 的 页 是 否 存 在 于 内 存 


口 [A-32 和 AMD64 提 供 了 _PAGE 
用 了 可 寻 址 64 GiB 内 存 的 页 面 
护 位 。 例 如 ， 它 可 以 防 J 








上 执行 栈 页 上 的 











BIT _NX， 
也 址 扩展 























上 执行 代码 ， 导 致 程 
程 会 拒绝 执行 恶意 代码 。 
可 以 实现 同样 的 效果 ， 某 












































内 核 还 定义 了 各 种 函数 











经 换 出 。 
Dp te_dirty 检 查 


:证 于 
伞 。 上 局 





与 页 









































序 的 安全 漏洞 。 























当然 ， 如 果 体 系 结构 本 身 对 内 




















因此 并 非 所 有 的 处 至 





些 处 理 





















































NX 位 无 法 防止 缓冲 器 溢出 ， 








存 页 提供 


于 将 页 标记 为 0D 口 口 口 口 《在 IA-32 系 统 上 ， 只 
(page address extension，PAE) 功 能 时 ， 才 能 使 用 该 
尺码 。 否 则 ， 恶 意 代码 可 能 通过 缓冲 区 洪 出 手 
但 可 以 抑制 其 效果 ， 

了 良好 的 访问 授权 设置 ， 也 


























器 就 是 这 样 ( 令 人 遗憾 的 是 ， 这 些 处 理 
E 够 修改 pte_t] 
医改 这 些 比 特 位 的 pte_modify 


于 查询 和 设置 内 存 页 与 体系 结构 相关 的 状态 。 

















器 都 定义 了 











要 注意 ， 只 有 在 pte_present 确 认 了 该 页 

pte_write 检 查 内 核 是 否 可 以 写 入 到 页 。 

口 pte_file 用 于 非 线 性 映射 ， 通过 操作 页 表 提 
; 


地 讨论 该 机 制 ) 。 该 函数 检查 页 表 项 是 否 属 











项 相关 的 页 是 否 是 脏 的 ， 即 其 内 容 在 .4 
] 的 情况 下 ， 才 能 调用 该 














Pid 








FP。 例如, 该 函数 可 以 用 





于 这 样 的 一 个 映射 。 


























某 些 处 


器 不 怎么 常见 ) 。 
页 中 额 儿 
函数 。 上 述 的 预 处 理 








段 在 栈 




















的 比特 位 ， 即 




















器 




















里 器 可 能 缺少 对 





所 有 这 些 函 数 。 














于 检测 


有 旺 不 
页 是 否 已 


上 次 内 核 检 查 之 后 是 否 已 经 修改 
函数 。 








供 了 文件 内 容 的 一 种 不 同 视图 《在 4.7.3 节 会 更 详 





加 加 
OOO 





Peeneesenennaesuse 和 oad 





UOsee 1s 加 OOUOD 





加 






































要 定义 该 函数 。 在 这 种 情况 下 ， 该 函数 总 是 返回 0。 

















于 内 核 的 通用 代码 对 pte_file 的 依赖 ， 在 茶 个 体系 结构 并 不 支持 非 线性 叫 








射 的 情况 下 也 需 





表 3-3 综 述 了 所 有 用 于 操作 PTE 项 的 函数 。 
表 3-3 ”用 于 处 理 内 存 页 的 体系 结构 相关 状态 的 函数 
函 数 描 述 
pte_present 页 在 内 存 中 吗 
Pte_read 从 用 户 空间 可 以 读 取 该 页 吗 
pte_write 可 以 写 入 到 该 页 吗 
pte_exec 该 页 中 的 数据 可 以 作为 二 进 制 代码 执行 吗 
pte_dirty 页 是 脏 的 吗 ? 其 内 容 是 否 修 改过 
pte_file 该 页 表 项 属于 非 线 性 映射 吗 
pte_young 访问 位 (通常 是 PAGE_ACCESS) 设置 了 吗 
pte_rdprotect 清除 该 页 的 读 权限 
pte_wrprotect 清除 该 页 的 写 权 限 
pte_exprotect 清除 执行 该 页 中 二 进 制 数据 的 权限 
pte_mkread 设置 读 权 限 
pte_mkwrite 设置 写 权 限 
pte_mkexec 允许 执行 页 的 内 容 
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函 数 


描 述 





pte_ mkdirty 
pte_mkclean 
pte_mkyoung 
pte_mkold 


这 些 函 数 经 常 3 个 1 组 ， 分 别 用 





将 页 标记 为 脏 

“清除 ”页 ， 通 常 是 指 清除 _PaGE_DTRTY 位 

设置 访问 位 ， 在 大 多 数 体系 结构 上 是 _PAGE_ACCESSED 
清除 访问 位 














于 设置 、 删 除 、 碍 询 某 个 特定 的 属性 〈“ 例 如， 页 的 写 权 限 ) 。 内 核 





























据 可 以 作为 机 器 代码 执行 ， 如 同 执 


























自 定 页 面 数 据 的 访问 可 以 按 3 种 不 同 的 方式 控制 ， 即 读 、 写 和 执行 权限 (执行 权限 表示 页 的 二 进 制 数 























行程 序 一 样 ) ， 


广 


日 该 假定 对 某 些 CPU 来 说 是 有 点 太 乐 观 了 。IA-32 

















处 理 器 只 支持 两 种 控制 方式 ， 分 别 允 许 读 和 写 。 在 这 种 情况 下 ， 体 系 结构 相关 的 代码 会 试图 尽力 模仿 


所 需 的 语义 。 
3.3.2 ”页 表 项 的 创建 和 操作 

















表 3-4 列 出 了 用 于 创建 新 页 表 项 的 所 有 函数 。 
表 3-4 ”用 于 创建 新 页 表 项 的 函数 











函 数 


描 述 





mk_pte 


pte_page 
pgqd_alloc 
pud_alloc 
pmd_alloc 
pte_alloc 
pggd_free 
pugd_free 
pmgd_free 
pte_free 
set_pgd 
set_pud 
set_pmd 
set_pte 


所 有 体系 结构 都 必须 实现 表 中 
3.4 初始 化 内 存 管理 
































适 于 Linux 内 核 的 内 存 模型 。 例 如 ， 


在 内 存 管理 的 上 下 文中 , 口 口 口 (initialization) 可 以 有 多 种 含义 。 在 许多 CPU 上 ， 必 须 显 式 设置 





Es 


创建 一 个 页 表 项 。 必 须 将 page 实 例 和 所 需 的 页 访问 权限 作为 参数 传递 
获得 页 表 项 描述 的 页 对 应 的 page 实 例 地 址 
分 配 并 初始 化 可 容纳 一 个 完整 页 表 的 内 存 (不 只 是 一 个 表 项 ) 





释放 页 表 占 据 的 内 存 


设置 页 表 中 茶 项 的 值 




















的 函数 ， 以 便 内 存 管理 代码 创建 和 销毁 页 表 。 



































在 IA-32 系 统 上 需要 切换 到 0 口中 口 ， 然 后 内 核 才能 检测 可 用 内 存 






















































































模块 ， 然 后 又 丢弃 挤 。 
































和 寄存 器 。 在 初始 化 过 程 中 ， 还 必须 建立 内 存 管理 的 数据 结构 ， 以 及 其 他 很 多 事务 。 因 为 内 核 在 内 存 
管理 完全 初始 化 之 前 就 需要 使 用 内 存 ， 在 系统 启动 过 程 期 间 ， 使 用 了 一 个 额外 的 简化 形式 的 内 存 管理 


凡 为 内 存 管 理 初始 化 中 特定 于 CPU 的 部 分 使 用 了 底层 体系 结构 许多 次 要 、 微 妙 的 细节 ， 这 些 与 内 

































































核 的 结构 没什么 关系 ， 最 多 不 过 是 




















[ 编 语言 程序 设计 的 最 佳 实践 而 已 ， 因 此 我 们 在 本 节 中 只 是 从 一 个 
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第 3 章 内 存 管 


理 





比较 高 的 层次 来 考虑 初始 化 相关 的 了 
































[ 作 。 关 键 是 pg_gdata_t 数 据 结 构 


的 初始 化 (及 其 下 级 的 结构 ), 我 













































































此 在 特定 于 体系 结 












































确认 系统 中 内 存 的 总 数量 ,及 


构 的 设置 步 双 
的 初始 化 (3.4.2 节 以 IA-32 系 统 为 
已 经 对 各 种 系统 内 存 模式 生成 了 一 个 bgdata_t 


在 3.2.2 节 介绍 过 ， 其 内 容 已 经 是 与 机 器 无 关 的 了 。 
我 们 会 忽略 前 述 的 特定 于 处 理 器 的 操作 ， 这 些 操作 的 主要 意图 在 于 
其 在 各 个 结 点 和 内 存 域 之 间 的 分 配 情况 。 
3.4.1 建立 数据 结构 
对 相关 数据 结构 的 初始 化 是 从 全 局 启动 例 程 start_kernel 中 开始 的 ， 该 例 程 在 加 载 内 核 并 激活 
各 个 子 系统 之 后 执行 。 由 于 内 存 管理 是 内 核 一 个 非常 重要 的 部 分 ， 医 
中 检测 内 存 并 确定 系统 中 内 存 的 分 配 情况 后 ， 会 立即 执行 内 存 管理 
例 ， 简 要 描述 了 初始 化 中 系统 相关 部 分 的 实现 )。 此 时 ， 
实例 ， 用 于 保存 诸如 结 


了 特定 于 体系 结构 的 
实例 。 












































ODI 


1. 先决 条 件 




















EE_DATA 宏 ， 












































































































































点 中 内 存 数 量 以 及 内 存在 各 个 内 存 域 之 间 分 配 情况 的 信息 。 所 有 平台 上 都 实现 
j 于 通过 结 点 编号 ， 来 查询 与 


个 NUMA 结 点 相关 的 pgdata_t 

















































































































于 大 部 分 系统 都 具有 一 个 内 存 结 点 ， 下 文 只 考察 此 类 系统 。 具 体 是 什么 样 的 情况 呢 ? 为 确保 内 

存 管理 代码 是 可 移植 的 〈 因 此 它 可 以 同样 用 于 UMA 和 NUMA 系 统 )， 内 核 在 mm/page_alloc.c 中 定义 
了 一 个 pg_dqata 上 实例 〈 称 作 contig_ page_dqata) 管理 所 有 的 系统 内 存 。 根 据 该 文件 的 路 径 名 可 以 
看 出 ， 这 不 是 特定 于 CPU 的 实现 。 实 际 上 ， 大 多 数 体系 结构 都 采用 了 该 方案 。NODE_DaTA 的 实现 现在 
更 简单 了 。 

<mmzone.h> 

#define NODE_DATA(nid) (&contig_ page_data) 

尽管 该 宏 有 一 个 形式 参数 用 于 选择 NUMA 结 点 ， 但 在 UMA 系 统 中 只 有 一 个 伪 结 点 ， 因 此 总 是 返 
可 同样 的 数据 。 

内 核 也 可 以 依赖 于 下 述 事实 : 体系 结构 相关 的 初始 化 代码 将 numnogdes 变 量 设置 为 系统 中 结 点 的 
数目 。 在 UMA 系 统 上 因为 只 有 一 个 (形式 上 的 ) 结 点 ， 因 此 该 数量 是 1。 

在 编译 时 间 ， 预 处 理 器 语句 会 为 特定 的 配置 选择 正确 的 定义 。 




















2. 系统 启动 
图 3-8 给 出 了 start 


























kernel 的 代码 流程 












































图 。 其 中 只 包括 与 内 存 管 














图 3-8 ”从 内 存 管理 
我 们 首先 概述 相关 函数 的 任务 ， 然 后 在 以 下 各 节 


start_kernel 


setup_arch | 
Setup_per_cpu areas | 
build all zonelists | 


来 看 内 核 初始 化 

































视 


























里 相关 的 系统 初始 化 函数 。 





Ph 仔细 考察 这 些 函 数 。 
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文 引入 的 宏和 抽象 机 制 实 现 ， 而 不 用 考虑 具体 的 NUMA 或 UMA 系 统 。 因为 执行 的 函数 实际 上 有 两 种 





口 setup_arch 是 一 个 特定 于 体系 结构 的 设置 函数 ， 其 中 一 项 任务 是 负责 初始 化 自 举 分 配器 。 

口 在 SMP 系 统 上 , setup_per_cpu_areas 初 始 化 源 代 码 中 (使 用 per_cpu 宏 ) 定 义 的 静态 per-cpu 
变量 , 这 种 变量 对 系统 中 的 每 个 CPU 都 有 一 个 独立 的 副本 。 此 类 变量 保存 在 内 核 二 进 制 映像 的 
一 个 独立 的 段 中 。setup_per_cpu_areas 的 目的 是 为 系统 的 各 个 CPU 分 别 创建 一 份 这 些 数据 
的 副本 。 

在 非 SMP 系 统 上 该 函数 是 一 个 空 操作 。 

口 puilg_all zonelists 建 立 结 点 和 内 存 域 的 数据 结构 〈 见 下 文 )。 

口 mem_init 是 另 一 个 特定 于 体系 结构 的 函数 ， 用 于 停 用 bootmem 分 配器 并 迁移 到 实际 的 内 存 管 

里 函数 ， 稍 后 讨论 。 

口 kmem_cache_init 初 始 化 内 核 内 部 用 于 小 块 内 存 区 的 分 配器 。 

口 setup_per_cpu_pageset 从 上 文 提 到 的 struct zone, 为 pageset 数 组 的 第 一 个 数组 元 素 分 配 
内 存 。 分 配 第 一 个 数组 元 素 ， 换 句 话说 ， 就 是 意味 着 为 第 一 个 系统 处 理 嚣 分配。 系统 的 所 有 
内 存 域 都 会 考虑 进来 。 

该 函数 还 负责 设置 冷 热 分 配器 的 限制 ， 并 将 在 3.5.3 节 详细 地 讨论 。 
请 注意 , 在 SMP 系 统 上 对 应 于 其 他 CPU 的 pageset 数 组 成 员 , 将 会 在 相应 的 CPU 激 活 时 初始 化 。 

3. 结 点 和 内 存 域 初始 化 

builgd_all_zonelists 建 立 管 理 结 点 及 其 内 存 域 所 需 的 数据 结构 。 有 趣 的 是 , 该 函数 可 以 通过 上 




































































Tn 





















































































































































形式 ， 所 以 这 样 做 是 可 能 的 : 一 种 用 于 NUMA 系 统 ， 而 另 一 种 用 于 UMA 系 统 。 












































由 于 内 核 经 常 使 用 这 种 小 技巧 ， 我 会 对 此 作 人 简要 讨论 。 假 定 需要 根据 编译 时 配置 ， 以 不 同方 式 执 


















































行 某 一 任务 。 一 种 可 能 的 方法 是 ， 使 用 两 个 不 同 的 函数 ， 每 次 调用 时 ， 根 据 某 些 预 处 理 器 条 件 来 选择 

















正 





站 的 一 个 : 











格 。 


void do_something() { 


ifdef CONFIG WORK_HARD 

do_work_ fast(); 
else 

do_work at your_ leisure(); 
endif 


a 
于 这 需要 在 每 次 调用 相应 的 函数 时 都 使 用 预 处 理 器 , 内 核 开 发 者 认为 这 种 方法 代表 了 粳 糕 的 风 
更 优雅 的 一 个 方案 是 根据 选择 的 不 同 配置 ， 来 定义 函数 自身 : 

ifdef CONFIG WORK_HARD 


void do _ work() { 
/* 开始 ， 快 点 ! */ 

































































i 


#else 





} 
#endif 


请 注意 ， 两 个 实现 采用 了 同样 的 名 字 ， 因 为 它们 决 不 会 同时 使 用 。 现 在 ， 调 


























LDL 


E 确 的 函数 并 不 比 


























本 


调 月 


普通 函数 更 复杂 : 








void do_something() { 





do_work(); /* 根据 配置 ， 决 定 是 否 努 力 工作 /* 


} 

显而易见 ， 这 种 形式 的 可 读 性 要 好 得 多 ， 内 核 开 发 者 总 是 更 喜欢 这 种 形式 。 实 际 上 ， 第 一 种 风格 
的 补丁 即使 能 进入 主线 内 核 (mainline kernel)， 也 是 非常 困难 的 。 

我 们 回 到 建立 内 存 域 列 表 的 工作 。 pui1g_al1l_zonelists 中 我 们 当前 感 兴趣 的 那 部 分 (对 于 页 分 
配器 的 页 组 可 移动 性 扩展 ， 实 际 上 还 有 另外 一 些 工 作 ， 我 会 在 下 文 单独 讨论 ) 将 所 有 工作 都 委托 给 
”buildq_all_zonelists， 后 者 又 对 系统 中 的 各 个 NUMA 结 点 分 别 调用 builq_zonelists。 


mm/page_alloc.c 
static int buildq all zonelists(void *dummy) 


{ 
























































int nid; 
for_each_ online node(nid) { 
pg_data t *pgdat = NODE_DATA (nid); 


build zonelists (pgdat); 


J} 
return 0; 


} 

for_each_online_nogde 遍 历 了 系统 中 所 有 的 活动 结 点 。 由 于 UMA 系 统 只 有 一 个 结 点 ，buil9_ 
zonelists 只 调用 了 一 次 ， 就 对 所 有 的 内 存 创 建 了 内 存 域 列 表 。NUMA 系 统 调用 该 函数 的 次 数 等 同 于 
结 点 的 数目 。 每 次 调用 对 一 个 不 同 结 点 生成 内 存 域 数据 。 
build_zonelists 需 要 一 个 指向 pgdata 上 实例 的 指针 作为 参数 ， 其 中 包含 了 结 点 内 存 配置 的 所 
有 现存 信息 ， 而 新 建 的 数据 结构 也 会 放置 在 其 中 。 

在 UMA 系 统 上 ，NODE_DATA 返 回 contig_page_data 的 地 址 。 

该 函数 的 任务 是 , 在 当前 处 理 的 结 点 和 系统 中 其 他 结 点 的 内 存 域 之 间 建 立 一 种 等 级 次 序 。 接 下 来 ， 
依据 这 种 次 序 分 配 内 存 。 如 果 在 期 望 的 结 点 内 存 域 中 ， 没 有 空间 内 存 ， 那 么 这 种 次 序 就 很 重要 。 

我 们 考虑 一 个 例子 ， 其 中 内 核 想 要 分 配 高 端 内 存 。 它 首先 企图 在 当前 结 点 的 高 端 内 存 域 找 到 一 个 
大 小 适当 的 空 困 段 。 如 果 失 败 ， 则 查看 该 结 点 的 普通 内 存 域 。 如 果 还 失败 ， 则 试图 在 该 结 点 的 DMA 
内 存 域 执行 分 配 。 如 果 在 3 个 本 地 内 存 域 都 无 法 找到 空闲 内 存 ， 则 查看 其 他 结 点 。 在 这 种 情况 下 ， 备 
选 结 点 应 该 尽 可 能 靠近 主 结 点 ， 以 最 小 化 由 于 访问 非 本 地 内 存 引 起 的 性 能 损失 。 

内 核定 义 了 内 存 的 一 个 层次 结构 ， 首 先 试图 分 配 “ 廉 价 的 ”内 存 。 如 果 和 失败 ， 则 根据 访问 速度 和 
容量 ， 逐 渐 尝 试 分配 “ 更 昂贵 的 ”内 存 。 

高 端 内 存 是 最 廉价 的 ， 因 为 内 核 没 有 任何 部 份 依赖 于 从 该 内 存 域 分 配 的 内 存 。 如 果 高 端 内 存 域 用 
尽 ， 对 内 核 没 有 任何 副作用 ， 这 也 是 优先 分 配 高 端 内 存 的 原因 。 

普通 内 存 域 的 情况 有 所 不 同 。 许 多 内 核 数 据 结构 必须 保存 在 该 内 存 域 , 而 不 能 放置 到 高 端 内 存 域 。 
对 此 如 果 普 通 内 存 完全 用 尽 ， 那 么 内 核 会 面临 紧急 情况 。 所 以 只 要 高 端 内 存 域 的 内 存 没 有 用 尽 ， 都 不 
会 从 普通 内 存 域 分 配 内 存 。 

最 昂贵 的 是 DMA 内 存 域 ， 因 为 它 用 于 外 设 和 系统 之 间 的 数据 传输 。 因 此 从 该 内 存 域 分 配 内 存 是 
最 后 一 招 。 

内 核 还 针对 当前 内 存 结 点 的 备 选 结 点 ， 定义 了 一 个 等 级 次 序 。 这 有 助 于 在 当前 结 点 所 有 内 存 域 的 
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内 存 都 用 尽 时 ， 确 定 一 个 备 选 结 点 。 
内 核 使 用 pg_qata_t 中 的 zonelist 数 组 ， 来 表示 所 描述 的 层次 结构 。 


<mmzone.h> 
typedef struct pglist data { 




















struct zonelist node zonelists[MAX ZONELISTS]; 
} pg9_data t; 


#define MAX ZONES_PER ZONELIST (MAX NUMNODES * MAX_NR_ ZONES) 
struct zonelist { 








struct zone *zones[MAX ZONES_PER_ ZONELIST + 1]; // NULL 分 隔 
}3 


node_zonelists 数 组 对 每 种 可 能 的 内 存 域 类 型 ， 都 配置 了 一 个 独立 的 数组 项 。 数 组 项 包含 了 类 
型 为 zonelist 的 一 个 备用 列表 ， 其 结构 在 下 面 讨论 。 
于 该 备用 列表 必须 包括 所 有 结 点 的 所 有 内 存 域 ， 因 此 由 MAX_NUMNODES * MAX_NZ_ZONES 项 组 
成 ， 外 加 一 个 用 于 标记 列表 结束 的 空 指针 。 
建立 备用 层次 结构 的 任务 委托 给 build_zonelists, 该 函数 为 每 个 NUMA 结 点 都 创建 了 相应 的 数 
据 结构 。 它 需要 指向 相关 的 pg_data tt 实例 的 指针 作为 参数 。 在 我 详细 讨论 代码 之 前 ， 先 回想 一 下 上 
文 提 到 的 一 个 问题 。 我 们 已 经 将 讨论 的 范围 限制 到 UMA 系 统 ， 为 什么 必须 考虑 多 个 NUMA 结 点 呢 ? 
实际 上 ， 如 果 设 置 了 coONFIG_NUMA， 内 核 会 使 用 不 同 的 实现 替换 下 列 代码 。 但 也 有 可 能 某 个 体系 结构 
在 UMA 系 统 上 选择 不 连续 或 稀 朴 内 存 选 项 。 在 地 址 空间 包含 较 大 空洞 的 情况 下 , 这 样 做 可 能 是 有 好 处 
的 。 这 样 的 洞 造成 的 内 存 “ 块 ”， 最 好 通过 NUMA 提 供 的 数据 结构 来 处 理 。 这 也 是 为 什么 此 处 需要 处 
理 NUMA 结 点 的 原因 。 

一 个 大 的 外 部 循环 首先 迭代 所 有 的 结 点 内 存 域 。 每 个 循环 在 zonelist 数 组 中 找到 第 1 个 zonelist， 
对 第 i 个 内 存 域 计算 备用 列表 。 


mm/page_alloc.c 
static void _ init build zonelists(pg_data t *pgdat) 
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{ 
int node, local node; 
enum zone_type i,j; 
local node = pgdat->node_id; 
for (i = 0; i < MAX NR ZONES; i++) { 
struct zonelist *zonelist; 
zonelist = pgdat->node zonelists + i; 
j = build zonelists_ node(pgdat, zonelist, 0, i); 
} 





node_zonelists 的 数组 元 素 通 过 指针 操作 寻 址 , 这 在 C 语 言 中 是 完全 合法 的 惯例 。 实际 工 作 则 委 
托 给 builq_zonelist_node。 在 调用 时 ， 它 首先 生成 本 地 结 点 内 分 配 内 存 时 的 备用 次 序 。 


mm/page_alloc.c 
static int _ init build zonelists node(pg data t *pgdat, struct zonelist *zonelist, 
int nr_zones, enum zone_ type zone_ type) 









































struct Zone *zone; 








zone pgdat->node_zones + zone_type; 
if (populated zone(zone)) { 
zonelist->zones [nr_zones++] 


zone; 
} 


2ONe tyDe==3} 


} while (zone type >= 0); 
return nr_zones; 


} 

备用 列表 的 各 项 是 借助 于 zone_type 参 数 排序 的 ， 该 参数 指定 了 最 优 
的 初始 值 是 外 层 循环 的 控制 变量 i。 我 们 知道 其 值 可 能 是 ZONE_HIGHMEM、 
或 ZONE_DMA32 之 一 。nr_zones 表 示 从 备用 列表 中 的 哪个 位 置 开始 填充 新 项 。 
因此 调用 者 传递 了 0。 

内 核 在 buildq_zonelists 中 按 分 配 代价 从 昂贵 到 低廉 的 次 序 ， 友 代 
buildq_zonelists_nodqe 中 ， 则 按照 分 配 代价 从 低廉 到 昂贵 的 次 序 ， 碗 
域 的 内 存 域 。 在 bui19_zonelists_nogde 的 每 一 步 中 ， 都 对 所 选 的 内 存 域 调 
即 确 认 内 存 域 中 确实 有 页 存在 。 倘 若 如 此 ， 则 将 指向 
1 到 zonelist->zones 中 的 当前 位 置 。 后 备 列表 的 当前 位 置 保存 在 nr_zones。 
在 每 一 步 结 束 时 ， 都 将 内 存 : 
始 的 内 存 域 是 ZONE_HIGHMEM， 减 1 后 下 一 个 内 存 域 类 型 是 ZONI 
考虑 一 个 系统 ， 有 内 存 域 ZoONE_HIGHMEM、 ZONE_NORMAL 、ZO 
zonelists_node 时 ， 实 际 上 会 执行 


0 ZONE_HIGHMEM; 
zonelist->zones[1 ZONE_NORMAL; 
zonelist->zones[2 ZONE_DMA; 


图 3-9 以 某 个 系统 的 结 点 2 为 例 说 明了 这 一 点 ， 图 中 示范 了 一 个 备 
过 程 。 系 统 中 总 共有 4 个 结 点 (numnodes = 4)。 
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图 3-9 充 备 ) 
一 作 疆 占 a 


的 分 配 目标 是 融 端 内 存 ， 接 下 来 是 第 二 个 结 点 的 普通 
其 他 结 点 的 内 存 域 按照 次 序 加 入 到 备 月 














一 步 之 后 ， 列 表 
内 核 接 下 来 必须 


























确立 次 序 ， 以 便 将 系统 中 














mm/page_alloc.c 
static void _ init builgd zonelists(pg_data t *pgdat) 
{ 


和 DMA 内 存 域 。 


日 列表 。 


{ 


e++) 


可 





LC 


前 内 





如 ， 


选择 哪个 内 存 域 ， 该 参数 
_NORMAL、 


由 于 列表 中 尚 没有 项 ， 


DMA 


Ph 所 有 的 内 存 域 。 而 在 
民 了 分 配 代价 


存 
认 
针 


如 


去 行 buila_ 


PP 不断 填 充 的 


for (node = local node + 1; node < MAX_NUMNODES; nod 

j = build zonelists_node (NODE_DATA (node), zonelist, j, i); 
j 
for (node = 0; node < local node; node++) { 
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j = build zonelists _ node (NODE DATA (node), zonelist, j, i); 
} 


zonelist->zones[j] = NULL; 


} 
} 


第 一 个 循环 依次 迭代 口 当前 结 点 编号 的 所 有 结 点 。 在 我 们 的 例子 中 ， 有 4 个 结 点 编号 副本 为 0、 
1、2、3， 此 时 只 剩 下 结 点 3。 新 的 项 通过 builg_zonelists_node 被 加 到 备用 列表 。 此 时 j 的 作用 就 体 
现 出 来 了 。 在 本 地 结 点 的 备用 目标 找到 之 后 ， 该 变量 的 值 是 3。 该 值 用 作 新 项 的 起 始 位 置 。 如 果 结 点 3 
也 由 3 个 内 存 域 组 成 ， 备 用 列表 在 第 二 个 循环 之 后 的 情况 如 图 3-9 的 第 二 步 所 示 。 
第 二 个 for 循 环 接 下 来 对 所 有 编号 口 口 当前 结 点 的 结 点 生成 备用 列表 项 。 在 我 们 的 例子 中 ， 这 些 
结 点 的 编号 为 0 和 1。 如 果 这 些 结 点 也 有 3 个 内 存 域 ， 则 循环 完毕 之 后 备用 列表 的 情况 如 图 3-9 下 半 部 分 
所 示 。 

备用 列表 中 项 的 数目 一 般 无 法 准确 知道 ， 因 为 系统 中 不 同 结 点 的 内 存 域 配 置 可 能 并 不 相同 。 因 此 
列表 的 最 后 一 项 赋值 为 空 指针 ， 显 式 标 记 列表 结束 。 

对 总 数 M 个 结 点 中 的 结 点 天 来 说 ， 内 核 生 成 备用 列表 时 ， 选 择 备用 结 点 的 顺序 总 是 : m、mt+t1、 
m+2、…、N-1、0、1、…、m-1。 这 确保 了 不 过 度 使 用 任何 结 点 。 例 如 ， 对 照 情况 是 : 使 用 一 个 独立 
于 m、 不 变 的 备用 列表 。 

图 3-10 给 出 了 有 4 个 结 点 的 系统 中 为 第 三 结 点 建立 的 备用 列表 。 


Win eT mT mT sm | | fd 
anf Cale eol ml ml ol ola] ml sl sr] mm fr 
pane [ELITE 


图 3-10 ”完成 的 备用 列表 
3.5.5 节 讨论 了 如 何 利用 此 处 生成 的 备用 列表 实现 伙伴 系统 。 
3.4.2 ”特定 于 体系 结构 的 设置 


在 IA-32 系 统 上 内 存 管 理 的 初始 化 在 某 些 方面 非常 微妙 ， 其 中 必须 克服 一 些 与 处 理 器 体系 结构 相 
关 的 历史 障碍 。 例 如 ， 将 处 理 器 从 普通 模式 切换 到 0 DUU 、 授 予 CPU 访问 32 位 地 址 空间 的 权限 ， 等 
等 ， 这 些 都 是 为 兼容 16 位 8086 处 理 器 带 来 的 遗产 。 类 似 地 ， 分 页 在 默认 情况 下 没有 启用 ， 必 须 手 动 
激活 ， 这 涉及 摆弄 处 理 器 的 cr0 寄 存 器 。 但 我 们 对 这 些微 妙 之 处 不 感 兴趣 ,读者 可 以 查看 相关 的 参考 
手册 。 
请 注意 ， 虽 然 我 们 的 注意 力 集中 于 IA-32 体 系 结构 ， 但 这 并 不 意味 着 我 们 在 下 文中 讨论 的 内 容 与 
内 核 支 持 的 所 有 其 他 体系 结构 完全 脱节 。 事 实 上 完全 相反 ， 即 使 许多 细节 是 特定 于 IA-32 体 系 结构 的 ， 
但 许多 其 他 体系 结构 的 工作 原理 是 类 似 的 。 我 们 只 是 必须 选择 一 个 特定 的 体系 结构 作为 例子 ， 而 由 于 
JIA-32 长 期 以 来 非常 普及 ， 而 且 也 是 Linux 最 初 支 持 的 体系 结构 ， 这 一 点 反映 在 内 核 的 综合 设计 中 。 尽 
管内 核 明确 趋向 于 64 位 平台 ， 但 是 许多 方面 其 根源 仍然 可 以 追溯 到 IA-32 体 系 结构 。 
我 们 选择 IA-32 体 系 结构 作为 例子 的 另 一 个 原因 是 实用 性 。 由 于 其 地 址 空间 只 有 4 GiB 大 ， 所 有 地 
址 都 可 以 用 比较 紧凑 的 十 六 进 制 数 描述 , 与 64 位 体系 结构 所 需 的 较 长 的 数值 相 比 , 更 容易 阅读 和 处 理 。 
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续 的 开发， 


























很 有 趣 的 一 点 是 ， 从 内 核 2.6.24 开 始 , IA-32 体 系 结构 不 再 作为 独立 的 体系 结构 存在 ! 它 与 AMD64 

















合并 为 一 个 新 的 、 统 一 的 x86 体 系 结构 。 虽 然 这 两 个 体系 结构 现在 都 迁移 到 一 个 特定 于 体系 
录 arch/x86 下 , 但 仍然 有 很 多 差别 。 因 此 许多 文件 现在 有 两 种 形式 : 用 于 IA-32 的 file_32.c 














































































































用 于 AMD64 的 file_64.c。 对 两 个 子 体系 结构 分 别 使 用 不 同文 件 的 情况 ， 只 是 目前 临时 的 困难 。 后 








会 保证 将 两 个 体系 结构 的 代码 合并 到 同一 文件 中 。 





























我 也 会 考 
多 ， 完 全 
位 体系 
打下 了 基 








于 统一 的 体系 结构 提升 了 AMD64 的 地 位 ， 使 之 成 为 内 核 文 持 的 最 重要 的 体系 结构 之 一 ， 因 此 




















虑 AMD64 和 IA-32 在 一 些 特 定 于 体系 结构 的 细节 上 的 差别 。 由 于 内 核 文 持 的 体系 结构 数量 较 
讨论 所 有 体系 结构 的 具体 细节 是 不 可 能 的 。 但 是 ， 通 过 在 下 文中 分 别 考 察 一 个 32 位 和 一 个 64 







































































结构 ， 读 者 可 以 体验 到 Linux 在 这 两 类 体系 结构 下 的 运作 方式 ， 并 为 理解 其 他 体系 结构 的 方法 














础 。 


1. 内 核 在 内 存 中 的 布局 
在 讨论 各 个 具体 的 内 存 初始 化 操作 之 前 ， 我 们 需要 弄 清楚 ， 在 启动 装载 程序 将 内 核 复 制 到 内 存 ， 


而 初始 化 
被 装载 到 







































































例 程 的 汇编 程序 部 分 也 已 经 执行 完毕 后 ， 此 时 内 存 中 的 具体 布局 。 我 专注 于 默认 情况 ， 内 核 
物理 内 存 中 的 一 个 固定 位 置 ， 该 位 置 在 编译 时 确定 。 


































































































如 果 启 用 了 故障 转 储 机 制 ， 那 么 也 可 以 配置 内 核 二 进 制 代码 在 物理 内 存 中 的 初始 位 置 。 此 外 ,一 
些 仍 入 式 系统 也 需要 这 种 能 力 。 配 置 选项 PHYSITCAL_START 用 于 确定 内 核 在 内 存 中 的 位 置 ， 会 受到 配 
置 选项 PHYSITCAL ALIGN 设置 的 物理 对 齐 方式 的 影响 。 




























































































此 外 , 内 核 可 以 连 编 为 0 口 口 口 二 进 制 程序 , 在 这 种 情况 下 完全 忽略 编译 时 给 定 的 物理 起 始 地 址 。 


局 动 装载 
段 ， 我 不 会 
图 3- 










































































程 于 可 以 判断 将 内 核 放置 到 可 处 。 这 两 个 选项 或 者 属于 边缘 化 的 情形 ， 或 者 仍然 处 于 试验 阶 
11 给 出 物理 内 存 最 低 几 兆 字 节 的 布局 ， 以 及 内 核 映 像 的 各 个 部 分 在 其 中 的 驻 留 情况 。 
0x0 J (KiB) Ss Sy 
> 
FO _text _etext _edata 











国 第 -个 页 由 内 核 代码 | ] 可 用 内 在 


























品 rom 内 核 数据 ”国有 用 于 初始 化 的 数据 


图 3-11 Linux 内 核 在 内 存 中 的 布局 











该 图 






































给 出 了 物理 内 存 的 前 几 兆 字 节 ， 上 县 体 的 长 度 依赖 于 内 核 二 进 制 文件 的 长 度 。 前 4 KiB 是 第 


























个 页 帧 ， 
核 加载 。 


卡 ROM) 。 不 
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一 般 会 忽略 ， 因 为 通常 保留 给 BIOS 使 用 。 接 下 来 的 640 KiB 原 则 上 是 可 用 的 ， 但 也 不 用 于 内 
其 原因 是 ， 该 区 域 之 后 紧邻 的 区 域 由 系统 保留 ， 用 于 映射 各 种 ROM (通常 是 系统 BIOS 和 显 
可 能 向 映射 ROM 的 区 域 写 入 数据 。 但 内 核 总 是 会 装载 到 一 个 连续 的 内 存 区 中 ， 如 果 要 



























































从 4 KB 处 作为 起 始 位 置 来 装载 内 核 映像 ， 则 要 求 内 核 必须 小 于 640 KiB。 
为 解决 这 些 问题 , IA-32 内 核 使 用 0x100000 作 为 起 始 地 址 。 这 对 应 于 内 存 中 第 二 兆 字 节 的 开始 处 。 















































从 此 处 








始 ， 有 足够 的 连续 内 存 区 ， 可 容纳 整个 内 核 。 
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内 核 占 据 的 内 存 分 为 几 个 段 ， 其 边界 保存 在 变量 中 。 
口 _text 和 _etext 是 代码 段 的 起 始 和 结束 地 址 ， 包 含 了 编译 后 的 内 核 代 码 。 
口 数据 段位 于 _etext 和 _edata 之 间 ， 保 存 了 大 部 分 内 核 变 量 。 
口 初始 化 数据 在 内 核 启动 过 程 结 束 后 不 再 需要 (例如 , 包含 初始 化 为 0 的 所 有 静态 全 局 变量 的 BSS 
段 ) 保 存在 最 后 一 段 ， 从 _edata 到 _engd。 在 内 核 初始 化 完成 后 ， 其 中 的 大 部 分 数据 都 可 以 从 
内 存 删 除 ， 给 应 用 程序 留 出 更 多 空间 。 这 一 段 内 存 区 划分 为 更 小 的 子 区 间 ， 以 控制 哪些 可 以 
删除 ， 哪 些 不 能 删除 ， 但 这 对 于 我 们 现在 的 讨论 没 多 大 意义 。 
DUUU0OU0O0U00000000000000 arch/x86/kernel/setup 32.cU U0 
DOO0O00000000000000000000000000000000U0000 
DO00000000000000000000000000000000000U0 
arch/arch/vmlinux.1d.s[| [| DDD IA-320 DO UU DUD arch/x86/vmLinux 32.1dq.S0U 
DOD00000000UUD00O 
准确 的 数值 依 内 核 配置 而 异 ， 因 为 每 种 配置 的 代码 段 和 数据 段 长 度 都 不 相同 ， 这 取决 于 启用 和 禁 
用 了 内 核 的 哪些 部 分 。 只 有 起 始 地 址 (_text) 总 是 相同 的 。 
每 次 编译 内 核 时 ， 都 生成 一 个 文件 System.map 并 保存 在 源 代码 目录 下 。 除 了 所 有 其 他 全局) 
变量 、 内 核定 义 的 函数 和 例 程 的 地 址 ， 该 文件 还 包括 图 3-11 给 出 的 常数 的 值 。 


wolfgang@meitner> cat System.map 










































































































































































































































































c0100000 A _text 
c0381lecd A _etext 
c04704e0 A _edata 


c04c3f44 A _end 





国有 
33 了 0 加 加 加 
ee 
Uo 


/proc/iomem 也 提供 了 有 关 物 理 内 存 划分 出 的 各 个 段 的 一 些 信息 。 


wolfgang@meitner> cat /proc/iomem 
00000000-0009e7ff : System RAM 
0009e800-0009ffff : reserved 
000a0000-000bffff : Video RAM area 
000c0000-000c7fff : Video ROM 
000f0000-000fffff : System ROM 
00100000-17ceffff : System RAM 
00100000-00381ecc : Kernel code 
00381lecd-004704df : Kernel data 
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内 核 映 像 从 第 一 兆 字 节 之 后 开始 C0x00100000)。 代 人 码 段 的 长 度 大 约 为 2.5 MiB, 数据 段 大 约 0.9 MiB。 
在 AMD64 系 统 上 也 可 以 获得 类 似 的 信息 。 这 里 内 核 在 第 一 个 页 帧 之 后 2 MiB 开 始 ， 物 理 内 存 映 射 
到 虚拟 地 址 空间 中 从 0xffffffff80000000 开 始 。System.map 中 相关 的 项 如 下 所 示 : 





















































1l138 030 0000 





wolfgang@meitner> cat System.map 
ffffffff80200000 A _text 


ffffffff8041fc6f A _etext 
ffffffff8056c060 A _edata 


ffffffff8077548c A _end 

在 运行 时 ， 也 可 以 从 /proc/iomem 获 得 内 核 的 相关 信息 : 

root@meitner # cat/proc/iomem 

00100000-cff7ffff : System RAM 
00200000-0041fc6e : Kernel code 


0041fc6f-0056c05f : Kernel data 
006b6000-0077548b : Kernel bss 


2. 初始 化 步骤 
在 内 核 已 经 载 入 内 存 、 而 初始 化 的 汇编 程序 部 分 已 经 执行 完毕 后 ， 内 核 必 须 执 行 哪些 特定 于 系统 














DL 


的 步骤 ?图 3-12 给 出 了 各 个 操作 的 代码 流程 图 。 


parse_early_param 



























setup_memory 


free area init nodes | 


图 3-12 IA-32 系 统 上 内 存 初始 化 的 代码 流程 
该 图 只 包括 与 内 存 管理 相关 的 那些 函数 调用 。 在 这 里 所 有 其 他 的 都 是 不 重要 的 ， 

start_kernel 内 部 调用 的 setup_arch， 如 3.4.1 节 所 述 。 

首先 调用 machine_specific_memory_setup， 创 建 一 个 列表 ， 包 括 系统 占据 的 内 存 区 和 空闲 内 

存 区 。 由 于 IA-32 家 族 的 各 个 子 体 系 结构 获得 该 信息 的 方式 稍 有 不 同 ，? 内核 提供 了 一 个 特定 于 机 器 的 

函数 ， 定 义 在 includqe/asm-x86/mach-type/setup.c 中 ，type 可 以 是 aefault、vovyagezr 或 visws。 

这 里 只 讨论 aefault 的 情况 。 
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此 省 去 。 回 想 
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py 





GD 不仅 有 “普通 的 ”IA-32 计 算 机 ， 而 且 还 有 SGI 和 NCR 出 产 的 一 些 定制 产品 ， 尽 管 大 部 分 是 标准 元 件 ， 但 在 某 些 地 
方 采 用 了 不 同 的 方法 ,包括 内 存 检测 。 由 于 这 些 计算 机 或 者 非常 古老 (NCR 的 Voyager), 或 者 并 未 广泛 应 用 (SGI 
的 Visual Workstation)， 我 不 打算 费心 讨论 相关 的 奇异 之 处 。 
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BIOS 提 供 的 映射 给 出 了 在 这 种 情况 下 使 用 的 各 个 内 存 区 。 


x 








UUUOOU0O0O0O0ONUMAUDOOUOOUOUOOUOUOOOO0ODOUROMU ACPI 
是 DUO 


在 系统 启动 时 ， 找 到 的 内 存 区 由 内 核 函 数 print_memory_map 显 示 。 


wolfgang@meitner> dmesg 

















x 





BIOS-provided physical RAM map: 
BIOS-e820: 0000000000000000 -000000000009e800 
BIOS-e820: 000000000009e800 -00000000000a0000 
BIOS-e820: 00000000000c0000 -00000000000cc000 
BIOS-e820: 00000000000d8000 -0000000000100000 (reserved) 
BIOS-e820: 0000000000100000 -0000000017cf0000 (usable) 


(usable) 
( 
( 
( 
( 
BIOS-e820: 0000000017cf0000 -0000000017cff000 (ACPI data) 
( 
( 
( 
( 
( 


reserved) 
reserved) 





BIOS-e820: 0000000017cff000 -0000000017d00000 (ACPI NVS) 
BIOS-e820: 0000000017d00000 -0000000017e80000 (usable) 

BIOS-e820: 0000000017e80000 -0000000018000000 (reserved) 
BIOS-e820: 00000000ff800000 -00000000ffc00000 (reserved) 
BIOS-e820: 00000000fff00000 -0000000100000000 (reserved) 








如 果 BIOS 没 有 提供 该 信息 〈 在 较 古 老 的 机 器 上 可 能 是 这 样 ) ， 内 核 自 身 会 生成 一 个 表 ， 将 0 一 640 
KiB 和 1 MiB 之 前 的 内 存 标记 为 可 用 。 
内 核 接 下 来 用 parse_cmd1line_early 分 析 命 令 行 , 主要 关注 类 似 mem=XXX[KkmM]、highmem=XXX 
[kKmM] 或 memmap=XXX[KkmM]""@XXX[KkmM] 之 类 的 参数 。 如 果 内 核 计 算 的 值 或 BIOS 提 供 的 值 不 正确 ， 
管理 员 可 以 修改 可 用 内 存 的 数量 或 手工 划 定 内 存 区 。 该 选项 只 适用 于 比较 古老 的 计算 机 。highmem= 
允许 修改 检测 到 的 高 端 内 存 域 长 度 值 。 它 可 用 于 内 存 配置 非常 大 的 计算 机 , 以 限制 可 用 的 内 存 的 数量 ， 
因为 超大 内 存 有 时 候 会 导致 性 能 下 降 。 

下 一 个 主要 步骤 在 setup_memory 中 执行 ， 该 函数 有 两 个 版 本 。 一 个 用 于 连续 内 存 系统 〈 在 arch/ 
x86/kernel/setup_32.c)， 另 一 个 用 于 不 连续 内 存 系统 (在 arch/x86/mm/discontig_ 32.c)。 尽 管 
实现 不 同 ， 但 二 者 的 效果 相同 。 

口 确定 (每 个 结 点 ) 可 用 的 物理 内 存 页 的 数目 。 

口 初始 化 bootmem 分 配器 (3.4.3 节 会 详细 讲解 该 分 配器 的 实现 )。 

口 接 下 来 分 配 各 种 内 存 区 ， 例 如 ， 运 行 第 一 个 用 户 空间 过 程 所 需 的 最 初 的 RAM 人 磁盘 。 

paging_init 初 始 化 内 核 页 表 并 启用 内 存 分 页 ， 因 为 IJA-32 计 算 机 上 默认 情况 下 分 页 是 禁用 的 。?” 
如 果 内 核 编 译 了 PAE 支 持 ， 而 且 处 理 器 也 支持 Execute Disable Protection， 则 启用 该 特性 。 令 人 遗憾 的 
是 ， 在 其 他 情况 下 该 特性 不 可 用 。 通 过 调用 pagetable_init， 该 函数 确保 了 直接 映射 到 内 核 地址 空 
间 的 物理 内 存 被 初始 化 。 低 端 内 存 中 的 所 有 页 帧 都 直接 映射 到 PAGE_oFFSET 之 上 的 虚拟 内 存 区 。 这 使 
得 内 核 无 需 处 理 页 表 ， 即 可 寻 址 相当 一 部 分 可 用 内 存 。 有 关 paging_init 的 更 多 细节 以 及 其 后 的 整个 
机 制 ， 将 在 下 文 讨论 。 

调用 zone_sizes_init 会 初始 化 系统 中 所 有 结 点 的 pgqdat_t 实 例 。 首 先 使 用 adqd_active_range， 
对 可 用 的 物理 内 存 建立 一 个 相对 简单 的 列表 。 体 系 结构 无 关 的 函数 free_area_init_nodes 接 下 来 使 
用 该 信息 建立 完备 的 内 核 数据 结构 。 由 于 这 是 一 个 非常 重要 的 步 又， 对 内 核 在 运行 时 管理 页 帧 的 方式 
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G@ 如 果 没 有 显 式 启用 分 页 ， 所 有 地 址 都 按照 线性 方式 解释 。 
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有 很 多 隐 含 的 约束 ， 因 此 在 3.5.3 节 会 更 详细 地 讨论 。 
请 注意 ， 在 AMD64 计 算 机 上 内 存 有 关 的 初始化 次 序 非常 类 似 ， 如 图 3-13 的 代码 流程 图 所 示 。 


e820_register_active_region 


paging_init 























free area_ init nodes 











图 3-13 AMD64 系 统 上 内 存 初始 化 的 代码 流程 图 


基本 的 内 存 设置 并 不 需要 任何 特定 于 计算 机 类 型 的 处 理 ， 总 是 
成 。 有 关 可 用 内 存 的 信息 由 BIOS 提 供 的 所 谓 E820 映 射 给 出 。 在 分 析 
e820_register_active_region 通 过 分 析 上 述 的 E820 映 射 得 到 相关 
用 内 存 的 一 个 简单 列表 。 
内 核 接 下 来 调用 init_memory_mapping 将 可 用 的 物理 内 存 直 接 映射 到 虚拟 地 址 空间 中 从 
PAGE_OFFSET 开 始 的 内 核 部 分 。contig_initmem init 人 负责 激活 bootmem 分 配器 。 
步骤 中 的 最 后 一 个 函数 paging_init， 实 际 上 取 名 不 当 。 它 并 不 初始 化 分 页 机 制 ， 只 是 处 理 一 些 
稀 玖 内 存 系统 的 设置 例 程 ,我们 对 此 不 感 兴趣 。 但 重要 的 是 该 函数 还 调用 了 free_area_init_noges，, 
在 IA-32 体 系 结构 的 情况 下 ， 后 者 负责 初始 化 内 核 管理 物理 页 帧 的 数据 结构 。 回 想 一 下 ， 可 知 这 是 一 
个 体系 结构 无 关 的 函数 ， 依 赖 于 前 面 a99_active_range 提 供 的 信息 。 针 对 free_area_init_nodes 
的 详细 讨论 可 参见 3.5.3 节 。 
3. 分 页 机 制 的 初始 化 
paging_init 负 责 建立 只 能 用 于 内 核 的 页 表 ， 用 户 空间 无 法 访问 。 这 对 管理 普通 应 用 程序 和 内 核 
方 问 内 存 的 方式 ， 有 深远 的 影响 。 因 此 在 仔细 考察 其 实现 之 前 ， 很 重要 的 一 点 是 解释 该 函数 的 目的 。 
第 1 章 提 到 , 在 IA-32 系 统 上 内 核 通 常 将 总 的 4GiB 可 用 虚拟 地 址 空间 按 3 :1 的 比例 划分 。 低 端 3 GiB 
于 用 户 状 态 应 用 程序 ， 而 高 端的 1GiB 则 专用 于 内 核 。 尽管 在 分 配 内 核 的 虚拟 地 址 空间 时 ， 当 前 系统 
上 下 文 是 不 相干 的 ， 但 每 个 进程 都 有 自身 特定 的 地 址 空间 。 
这 些 划分 主要 的 动机 如 下 所 示 。 
口 在 用 户 应 用 程序 的 执行 切换 到 核心 态 时 〈 这 总 是 会 发 生 ， 例 如 在 使 用 系统 调用 或 发 生 周 期 性 
的 时 钟 中 断 时 〉， 内 核 必须 装载 在 一 个 可 靠 的 环境 中 。 因 此 有 必要 将 地 址 空间 的 一 部 分 分 配 
给 内 核 专 用 。 
口 物理 内 存 页 则 映射 到 内 核 地 址 空间 的 起 始 处 ， 以 便 内 核 直 接 访 问 ， 而 无 需 复 杂 的 页 表 操 作 。 





























以 用 setup_memory_region 完 
期 启动 过 程 的 命令 行 选项 之 后 ， 
息 后 ， 调 用 aqq_active 创 建 可 
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四 
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如 果 所 有 物理 内 存 页 都 映射 到 用 户 空间 进程 能 访问 的 地 址 空间 中 , 如 果 在 系统 上 有 几 个 应 用 程序 
在 运行 ， 将 导致 严重 的 安全 问题 。 每 个 应 用 程序 都 能 够 读 取 和 修改 其 他 进程 在 物理 内 存 中 的 内 存 区 。 























































































































显然 必须 不 惜 任何 代价 防止 这 种 情况 出 现 。 
虽然 用 于 用 户 层 进程 的 虚拟 地 址 部 分 随 进程 切换 而 改变 ,但 是 内 核 部 分 总 是 相同 的 。 图 3-14 概 括 
了 这 种 情况 。 
物理 内 存 
GS 
1 2 Se 
, 5 























进程 切换 
图 3-14 ”IA-32 处 理 器 上 虚拟 和 物理 地 址 空间 之 间 的 








@ 地 址 空间 的 划分 
按 3 : 1 的 比例 划分 地 址 空间 ， 只 是 约略 反映 了 内 核 中 的 情况 ， 内 核 地 址 空间 自身 又 分 为 各 个 段 。 
图 3-15 对 此 给 出 了 图 示 。 


high memory we 

















VMALLOC_START VMALLOC_END 











接 映 射 的 所 有 物理 页 帧 











VMALLOC 
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0xC0000000 














下 、 8 MiB 
_PAGE_OFFSET > | | 十 


FIXADDR_START 


4 GiB 


图 3-15 ”IA-32 系 统 上 内 核 地 址 空间 的 划分 








该 图 给 出 了 用 来 管理 虚拟 地 址 空间 的 第 四 吉 字 节 的 页 表 项 的 结构 。 它 标 明了 虚拟 地 址 
空间 的 各 个 区 域 的 用 途 ， 这 与 物理 内 存 的 分 配 无 关 。 







































































地 址 空间 的 第 一 段 用 于 将 系统 的 所 有 物理 内 存 页 映射 到 内 核 的 虚拟 地 址 空间 中 。 由 于 内 核 地 址 空 
1 的 3 GiB， 每 个 虚拟 地 址 x 都 对 应 于 物理 地 址 x-0xC0000000， 


间 从 偏 移 量 0xc0000000 开 始 ， 即 经 常 提 至 
因此 这 是 一 个 简单 的 线性 平移 。 

按 图 3-1$ 所 示 ， 直 接 映射 区 域 从 0xc0 
讨论 。 第 1 章 提 到 过 ， 这 种 方案 有 一 问题 。 
物理 
下 的 内 存 ? 
这 里 有 个 坏 消息 。 如 果 物 










































































里 内 存 超 过 























G@ 还 可 以 完全 去 掉 划 分 机 制 ， 引 入 两 个 4 GiB 
况 下 ， 内 核 和 




















EE 内 存 。IA-32 系 统 ( 没 有 PAE) 最 大 的 内 存 配置 可 以 达到 4 











000000 到 high_memory 地 址 ，high_memory 准 确 的 数值 稍 后 
于 内 核 的 虚拟 地 址 空间 只 有 1 GiB， 最 多 只 能 映射 1 GiB 
GiB， 引 出 的 一 个 问题 是 ， 如 何 处 理 剩 


























































































































896 MiB， 则 内 核 无 法 直接 映射 全 部 物理 内 存 。" 该 值 其 至 比 















































地 址 空间 ， 一 个 用 于 内 核 ， 另 一 个 用 于 每 个 | 














] 户 空间 程序 。 但 在 这 种 情 

















户 状态 之 间 的 上 下 文 切换 代价 会 更 高 。 
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此 前 提 到 的 最 大 限制 1GiB 还 小 ， 因 为 内 核 必须 保留 地 址 空间 最 后 的 128 MiB 用 于 其 他 目的 ， 我 会 稍 后 
解释 。 将 这 128 MiB 加 上 直接 映射 的 896 MiB 内 存 ， 则 得 到 内 核 虚 拟 地 址 空间 的 总 数 为 1 024 MiB = 1 
GiB。 内 核 使 用 两 个 经 常 使 用 的 缩写 normal 和 highmem， 来 区 分 是 否 可 以 直接 映射 的 页 帧 。 
内 核 移植 的 每 个 体系 结构 都 必须 提供 两 个 宏 , 用 于 一 致 映射 的 内 核 虚 拟 内 存 部 分 ， 进 行 物 理 和 虚 
拟 地 址 之 间 的 转换 (最 终 这 是 一 个 平台 相关 的 任务 )。" 
口 _pa(vaddr) 返 回 与 虚拟 地 址 vaddr 相 关 的 物理 地 址 。 
口 _va (padgr) 则 计算 出 对 应 于 物理 地 址 paggdr 的 虚拟 地 址 。 

两 个 函数 都 用 void 指针 和 unsigned long 操 作 ， 因 为 这 两 个 数据 类 型 对 表示 内 存 地 址 是 同样 适 
的 。 




























































































































































































UU0O00000000000000000000000000000000000 
U'U0O00000U000000000000000000000000000000 
IA-32 将 页 帧 映射 到 从 PaGE_oFFSET 开 始 的 虚拟 地 址 空间 ， 相 应 地 ， 只 需 进 行 下 列 简单 变换 即 可 : 
include/asm-x86/page_32.h 


#define pa(lx) ((unsigned long) (x) -PAGE OFFSET) 
#define _ va(lx) ((void *) ((unsigned long) (x)+PAGE OFFSET)) 


内 核 地 址 空间 的 最 后 128 MiB 用 于 何 种 用 途 呢 ?如 图 3-15 所 示 ， 该 部 分 有 3 个 用 途 。 
(1) 虚拟 内 存 中 连续 、 但 物理 内 存 中 0 DD 的 内 存 区 ， 可 以 在 vmalloc 区 域 分 配 。 该 机 制 通常 用 于 
j 户 过 程 ， 内 核 自 身 会 试图 尽力 避免 非 连 续 的 物理 地 址 。 内 核 通 常会 成 功 ， 因 为 大 部 分 大 的 内 存 块 都 
在 启动 时 分 配给 内 核 ， 那 时 内 存 的 碎片 尚 不 严重 。 但 在 已 经 运行 了 很 长 时 间 的 系统 上 ， 在 内 核 需 要 物 
里 内 存 时 ， 就 可 能 出 现 可 用 空间 不 连续 的 情况 。 此 类 情况 ， 主 要 出 现在 动态 加 载 模块 时 。 
(2) 口 口 口 0 用 于 将 高 端 内 存 域 中 的 非 持久 页 映射 到 内 核 中 。3.5.8 节 将 仔细 讨论 该 主题 。 
G)0000 是 与 物理 地 址 空间 中 的 固定 页 关联 的 虚拟 地 址 空间 项 ， 但 具体 关联 的 页 帧 可 以 自由 
选择 。 它 与 通过 固定 公式 与 物理 内 存 关 联 的 直接 映射 页 相反 ， 虚 拟 固 定 映 射 地 址 与 物理 内 存 位 置 之 间 
的 关联 可 以 自行 定义 ， 关 联 建立 后 内 核 总 是 会 注意 到 的 。 
在 这 里 有 两 个 预 处 理 器 符号 很 重要 : _VMALLOC_RESERVE 设 置 了 vmalloc 区 域 的 长 度 ， 而 MaAxMEM 
则 表示 内 核 可 以 直接 寻 址 的 物理 内 存 的 最 大 可 能 数量 。 

内 核 中 ， 将 内 存 划分 为 各 个 区 域 是 通过 图 3-15 所 示 的 各 个 常数 空 制 的 。 根 据 内 核 和 系统 配置 ， 这 
些 常 数 可 能 有 不 同 的 值 。 直 接 映射 的 边界 由 high_memory 指 定 。 

arch/x86/kernel/setup_32.c 

static unsigned long __init setup memory (void) 


{ 
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#ifdef CONFIG HIGHMEM 
high memory = (void *) _ val(lhighstart pfn * PAGE SIZE -1) + 1; 





#else 
high memory = (void *) _ val(lmax low pfn * PAGE _ SIZE -1) + 1; 
#endif 

} 


max_low_pfn 指 定 了 物理 内 存 数量 小 于 896 MiB 的 系统 上 内 存 页 的 数目 。 该 值 的 上 界 受 限于 896 MiB 















































@ 内 核对 这 些 函 数 设置 了 两 个 不 变量 条 件 。x1<x2=>_va (了 L)<_va( 双 2) 必须 是 成 立 的 (对 任何 物理 地 址 x;)， 而 
_va( pa(x)) = x 必须 对 直接 映射 内 的 任何 地 址 x 成 立 。 
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可 容纳 的 最 大 页 数 ( 具 体 的 计算 在 findq_max_low_pfn 给 出 )。 如 果 启 用 了 高 端 内 存 支持 , 则 high_memory 
表示 两 个 内 存 区 之 间 的 边界 ， 总 是 896 MiB。 

如 果 VMALLOC_OFFSET 取 最 小 值 ， 那 么 在 直接 映射 的 所 有 内 存 页 和 用 于 非 连 续 分 配 的 区 域 之 间 ， 
会 出 现 一 个 缺口 。 


include/asm-x86/pgtable_32.h 
#define VMALLOC_OFFSET (8*1024*1024) 


这 个 缺口 可 用 作 和 针对 任何 内 核 故障 的 保护 措施 。 如 果 访 问 口 口 口 〈 即 无 意 地 访问 物理 上 不 存在 
的 内 存 区 ) ， 则 访问 失败 并 生成 一 个 异常 ， 报 告 该 错误 。 如 果 vmalloc 区 域 紧 接着 直接 映射 ， 那 么 访问 
将 成 功 而 不 会 注意 到 错误 。 在 稳定 运行 的 情况 下 ， 肯 定 不 需要 这 个 额外 的 保护 措施 ， 但 它 对 开发 尚未 
成 熟 的 新 内 核 特性 是 有 用 的 。 
VMALLOC_START 和 VMALLOC_END 定 义 了 vmalloc 区 域 的 开始 和 结束 , 该 区 域 用 于 物理 上 不 连续 的 内 
核 映 射 。 这 两 个 值 没 有 直接 定义 为 常数 ， 而 是 依赖 于 几 个 参数 。 


include/asm-x86/pgtable_32.h 
define VMALLOC_START (((unsigned long) high _ memory + \ 
2*VMALLOC_OFFSET-1) & ~(VMALLOC OFFSET-1)) 





















































































































































































































































ifdef CONFIG HIGHMEM 

define VMALLOC_ END (PKMAP_ BASE-2*PAGE SIZE) 
else 
define VMALLOC _ END (FIXADDR_ START-2*PAGE_ SIZE) 
endif 


vmalloc 区 域 的 起 始 地 址 ， 取 决 于 在 直接 映射 物理 内 存 时 ， 使 用 了 多 少 虚拟 地 址 空间 内 存 (因此 
也 依赖 于 上 文 的 high_memory 变 量 )。 内 核 还 考虑 到 下 述 事实 ， 即 两 个 区 域 之 间 有 人 至 少 为 vMALLOC 
OFFSET 的 一 个 缺口 ， 而 且 vmalloc 区 域 从 可 被 VMALLOC_OFFSET 整 除 的 地 址 开始 。 这 样 的 规则 导致 了 表 
3-5 给 出 的 偏 移 量 值 ， 该 表 针 对 128 MiB 到 135 MiB 之 间 的 内 存 配 置 计 算 的 偏 移 量 值 。 该 值 是 周期 性 的 ， 
从 136 MiB 开 始 是 一 个 新 的 循环 。 


表 3-5 ”不同 内 存 大 小 对 应 的 VMALLOC_OFFSET 值 







































































| 


























| 



















































































内 存 (MiB) 偏 移 量 (MiB) 
128 8 
129 15 
130 14 
131 13 
132 12 
133 11 
134 10 
135 9 














vmalloc 区 域 在 何 处 结束 取决 于 是 否 启用 了 高 端 内 存 支 持 。 如 果 没 有 局 用 ， 那 么 就 不 需要 持久 映 
射 区 域 ， 因 为 整个 物理 内 存 都 可 以 直接 映射 。 因此， 根据 不 同 的 配置 ， 该 区 域 结束 于 持久 内 核 映 射 或 
固定 映射 区 域 的 起 始 处 。 总 是 会 留 下 两 页 ， 作 为 vmalloc 区 域 与 这 两 个 区 域 之 间 的 保护 措施 。 
持久 内 核 映 射 区 域 的 起 始 和 结束 定义 如 下 : 


include/asm-x86/highmem.h 
define LAST PKMAP 1024 
define PKMAP_BASE ( (FIXADDR_ BOOT_ START -PAGE_ SIZE*(LAST PKMAP + 1)) & PMD MASK ) 








LE 
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PKMAP_BASE 定 义 了 其 起 始 地 址 《这 里 是 相对 于 固定 映射 区 域 进行 计算 的 ， 使 用 了 一 些 稍 后 讨论 
的 常数 ) 。LAST_PKMAP 定 义 了 容纳 该 映射 所 需 的 页 数 。 
最 后 一 个 内 存 段 由 国定 映射 占据 。 这 些 地 址 指向 物理 内 存 中 的 随机 位 置 。 相 对 于 内 核 空 间 起 始 处 
的 线性 映射 ， 在 该 映射 内 部 的 虚拟 地 址 和 物理 地 址 之 间 的 关联 不 是 预 设 的 ， 而 可 以 自由 定义 ， 但 定义 
后 不 能 改变 。 固 定 映射 区 域 会 一 直 延 伸 到 虚拟 地 址 空间 顶端 。 


include/asm-x86/fixmap_32.h 
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#define __FIXADDR_TOP Oxfffff000 

#define FIXADDR_TOP ((unsigned long)__FIXADDR_TOP) 

#define __FIXADDR_SIZE (__end of permanent_fixed addresses << PAGE_SHIFT) 
#define FIXADDR_START (FIXADDR_TOP -__FIXADDR_SIZE) 























固定 映射 地 址 的 优点 在 于 ,在 编译 时 对 此 类 地 址 的 处 理 类 似 于 常数 ， 内 核 一 启动 即 为 其 分 配 了 物 
时 地址 。 此 类 地 址 的 解 引用 比 普通 指针 要 快速 。 0 对 应 于 固定 映射 的 页 
表 项 不 会 从 TLB 刷 出 ， 因 此 在 访问 固定 映射 的 内 存 时 ， 通过 TLB 高 速 缓存 取得 对 应 的 物理 地 址 。 

对 每 个 固定 映射 地 址 都 会 创建 一 个 常数 ， a ee a 


include/asm-x86/fixmap_32.h 
enum fixed addresses { 
FIX_HOLE, 
FIX_VDSO, 
FIX_DBGP_BASE, 
FIX_EARLYCON_MEM_BASE, 
#ifdef CONFIG X86_LOCAL APIC 
FIX_APIC_BASE，/* 本 地 CPU APIC 信 息 ， 在 SMP 系 统 上 需要 */ 



































































































































#endif 


#ifdef CONFIG HIGHMEM 
FIX_KMAP_BEGIN，/* 保留 的 页 表 项 ， 用 于 临时 内 核 映 射 */ 
FIX_KMAP_END = FIX_ KMAP_BEGIN+ (KM_TYPE_NR*NR_CPUS)-1, 

#endif 














PIX WP TEST., 
engd_of_fixed_addresses 





二 
内 核 提 供 了 fix_to_virt 函 数 ， 用 于 计算 固定 


include/asm-x86/fixmap_32.h 
static always_inline unsigned long fix to virt(const unsigned int idx) 


{ 























== 


央 射 常数 的 虚拟 地 址 。 








二 (Ql > engd_of_fixed_addresses) 
this_fixmap_does_not exist(); 








BEtUrn ,fiw to virt( Edx): 


} 

编译 器 优化 机 制 会 完全 消除 主语 多， 因为 该 函数 定义 为 内 联 函 数 ， 而 且 其 参数 都 是 常数 。 这 样 的 
优化 是 有 必要 的 ， 否 则 固定 映射 地 址 实际 上 并 不 优 于 普通 指针 。 形 式 上 的 检查 确保 了 所 需 的 固定 映射 
地 址 在 有 效 区 域 中 。_ enaq_of fixedq_aqresses 是 fixeq_adqdqresses 的 最 后 一 个 成 员 ， 定 义 了 最 大 
的 可 能 数字 。 如 果 内 核 访问 的 是 无 效 地 址 ， 则 调用 伪 函 数 _this_fixmap_does_not_exist( 没 有害 

。 在 内 核 链接 时 ， 这 会 导致 错误 信息 ， 表 明 由 于 存在 未 定义 符号 而 无 法 生成 映像 文件 。 因 此 ， 此 
种 内 核 故 障 在 编译 时 即 可 检测 ， 而 不 会 在 运行 时 出 现 。 

在 引用 有 效 的 固定 映射 地 址 时 ，if 语 句 中 的 比较 总 是 会 通过 。 由 于 比较 的 两 个 操作 数 都 是 常数 ， 
该 条 件 判 断 语 句 实际 上 不 会 执行 ， 在 编译 优化 的 过 程 中 会 直接 消除 。 
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fix_to_virt 定 义 为 宏 。 由 于 fix_to_virt 是 内 联 函 数 ， 其 实现 代码 会 直接 复制 到 查询 固定 映 
射 地 址 的 代码 处 。 该 安定 义 如 下 : 

include/asm-x86/fixmap_32.h 

#define _ fix to_ virt (x) (FIXADDR_TOP -((x) << PAGE_SHIFT)) 


从 顶部 开始 《不 是 按照 常理 从 底部 开始 )， 内 核 回 退 z 页 ， 以 确定 第 "个 固定 映射 项 的 虚拟 地 址 。 
这 个 计算 同样 也 只 使 用 了 常数 ， 编 译 器 能 够 在 编译 时 计算 结果 。 根 据 上 文 提 到 的 内 存 划 分 ， 地 址 空间 
于 其 他 用 途 。 

固定 映射 虚拟 地 址 与 物理 内 存 页 之 间 的 关联 是 由 set_fixmap (fixmap，page_nr) 和 set_ 
fixmap_nocache 建 立 的 (未 讨论 后 者 的 实现 )。 这 两 个 函数 只 是 将 页 表 中 的 对 应 项 与 物理 内 存 中 的 一 
页 关联 起 来 。 不 同 于 set_fixmap，set_fixmap_nocache 在 必要 情况 下 ,会 停 用 所 涉及 页 帧 的 硬件 高 

请 注意 ， 其 他 一 些 体 系 结构 也 提供 了 固定 映射 ， 包括 AMD64。 

@ 备 选 划分 方式 

将 虚拟 地 址 空间 按 3 : 1 比例 划分 不 是 唯一 的 选项 。 由 于 所 有 边界 在 源 代 码 中 都 定义 为 常数 ， 因 此 
选择 一 种 不 同 的 划分 基本 上 没有 什么 工作 量 。 在 某 些 场合 可 能 最 好 将 地 址 空间 对 称 划 分 ，2 GiB 用 于 
用 户 地 址 空间 ，2 GiB 用 于 内 核 地 址 空间 。 那 么 PAGE_OFFSET 必 须 设置 为 0x80000000， 而 不 是 通常 
的 默认 值 0xc0000000。 如 果 系 统 执行 的 任务 需要 将 大 量 内 存 用 于 内 核 ， 而 儿 乎 没有 多 少 内 存 用 于 用 
户 进程 〈 这 样 的 任务 很 少见 ) ， 对 称 划分 可 能 比较 有 用 。 由 于 对 内 存 划 分 方式 的 任何 改变 都 需要 重新 
译 所 有 用 户 空间 应 用 程序 ， 内 核 的 编译 配置 没有 包含 修改 地 址 空间 划分 方式 的 语句 ， 尽 管 这 在 原则 
上 是 轻而易举 日 

本 质 上 , 手工 修改 内 核 源 代码 是 可 以 重新 配置 内 存 划 分 方式 的 , 但 内 核 也 提供 了 一 些 默 认 的 划分 
比例 。 相 应 的 _ PAGE_OFFSET 定 义 如 下 所 示 : 

include/asm-x86/page_32.h 

#define _ _ PAGE OFFSET ((unsigned long)CONFIG_ PAGE OFFSET) 

表 3-6 给 出 了 划分 虚拟 地 址 空间 的 所 有 可 能 选项 ， 以 及 各 个 选项 在 内 核 空 间 能 够 映射 的 物理 内 存 
的 最 大 数量 。 
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mm 




































































表 3-6 ”IA-32 虚 拟 地 址 空间 的 不 同 划分 比例 ， 以 及 一 致 映射 物理 内 存 的 最 大 数量 





比 例 CONFIG PAGE_ OFFSET MAXMEM (MiB) 
3:1 0xC0000000 896 
3:1 0xB0000000 1152 
232 0x80000000 1920 
2:2 0x78000000 2048 
1:3 0x40000000 2944 




















[cu 





按 3 : 1 之 外 的 比例 划分 地 址 空间 , 在 特定 的 应 用 场景 下 可 能 是 有 意义 的 。 比 如 对 主要 在 内 核 中 
行 代 码 的 计算 机 ， 例 如 网 络 路 由 器 。 但 在 通常 的 情况 下 ， 最 好 还 是 使 用 3 : 1 的 比例 。 

@ 划分 虚拟 地 址 空间 
在 IA-32 系 统 上 的 启动 过 程 中 ， 会 调用 paging_init 按 如 上 所 述 的 方式 划分 虚拟 地 址 空间 。 其 代 
码 流程 图 如 图 3-16 所 示 。 
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paging_init 























pagetable_init 























初始 化 固定 映射 


Permanent_kmaps_init | 

















flash all tl1b 


图 

















尺码 流程 图 





3-16 paging_init 的 


pagetapble_init 首 先 初 始 化 系统 的 页 
数据 )。 接 下 来 启 月 


人 友 ， 


在 所 有 现代 IA-32 系 统 上 可 用 的 下 




















外 直 


用 PSE、PGE 扩 展 


kernel _ physical mapping_init | 


以 swapper_pg_dqir 为 基础 〈 该 变量 此 前 用 了 














保存 临时 








这 些 )。 


口 对 超大 内 存 页 的 支持 。 这 些 特别 标记 的 页 ， 其 长 度 为 4 MiB， 而 不 是 普通 的 4 KiB。 该 选项 用 
的 内 核 页 。 增 加 页 大 小 ,意味 着 需要 的 页 表 项 变 少 , 这 对 地 址 转换 后 备 缓冲 器 CTLB) 








于 不 会 换 
的 影响 
口 如 有 可 











是 正面 的 ， 可 以 减少 其 中 来 自 内 核 的 缓存 项 。 

















展 (只 有 一 些 非常 古老 的 Pentium 实 现 不 支持 


LOBAL)， 这 也 是 _. 


























PAGE_ KERNEL 和 和 PAGE 











能， 内核 页 会 设置 男 一 个 属性 (__PAGE_GQ] 
KE 已 











位 的 原因 。 这 些 





| 




















变量 指定 内 核 自 身分 配 页 

















RNEI_，EXEC 变 量 中 PAGE_GLOBAL 比 特 位 已 经 】 
时 的 标志 集 ， 因 此 这 些 设置 会 自动 地 

在 上 下 文 切 换 期 间 ， 设 置 了 __PAGE_GI 
核 总 是 

















立 用 到 内 核 页 。 








> 



































LOBAL 位 的 页 ， 对 应 的 TLB 绥 存 项 不 从 TLB 刷 
上 现 于 虚拟 地 址 空间 中 同样 的 位 置 , 这 提高 了 系统 性 能 。 由 于 


时 


1 出 。 由 于 












































这 种 效果 也 是 很 受 欢 迎 的 。 
借助 于 kernel_physical_mapping_init， 将 物理 
射 到 虚拟 地 址 空间 中 从 PAGE_OFFS] 
设置 为 正确 的 值 。 
接 下 来 建立 回 
在 




















内 存 页 (或 前 896 
始 的 位 置 。 内 核 接 下 来 扫描 各 个 页 





























ET 

































































定 映 射 项 和 持久 内 核 映 射 对 应 的 内 存 区 。 同 村 




















是 用 适当 的 值 
jpagetable_init 完 成 页 表 初 始 化 之 后 ， 则 将 cr3 寄 存 器 设置 为 和 


-必须 使 内 核 数据 尽快 可 月 








MiB， 正 如 前 文 的 讨论 ) 映 
目录 的 所 有 相关 项 ， 将 指针 








填充 页 表 。 


全 局 页 











上 问 目录 (swapper 








pg_dqir) 的 指针 。 此 时 必须 激活 新 的 页 表 。 在 IA-32 计 算 机 上 cr3 寄 存 器 





赋值 刚好 有 这 检 




















的 效 














于 TLB 缓 存 项 仍然 包含 了 启动 时 分 丁 
t1b 可 完成 所 需 的 工作 。 与 上 下 文 切换 期 





忆 的 一 些 内 存 地 址 数据 ， 此 
间 相 反 ， 设 置 了 _PAGI 





all 











E_GLOBA] 


LH 


| 也 必 须 刷 LE 
[位 的 页 也 要 刷 





o £1 


采 














| 
Lio 




















Ea 








kmap_init 初 始 化 全 局 变量 kmap_p E 从 高 端 内 存 域 将 页 映射 到 内 





Le。 看 

















核 地 址 空间 时 , 会 使 





用 该 变 
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量 存 入 相应 内 存 区 的 页 表 项 。 此 外 ， 用 于 高 端 内 存 内 核 映 射 的 第 一 个 固定 映射 内 存 区 的 地 址 保存 在 全 
局 变量 kmem_vstart 中 。 

@ 冷 执 缓存 的 初始 化 

我 在 3.2.2 节 已 经 提 到 过 per-CPU 或 冷 热 ) 缓存 。 这 里 我 们 来 处 理 相 关 数 据 结构 的 初始 化 ， 以 及 
于 控制 缓存 填充 行为 的 “水 印 ” 的 计算 。 

zone_pcp_init 负 责 初 始 化 该 缓存 。 该 函数 由 free_area_init_nodes 调 用 ， 后 者 在 IA-32 和 
AMD64 启 动 期 间 都 会 调用 。 


mm/page_alloc.c 
static qdqevinit void zone pcp_init(struct zone *zone) 


{ 


































































































Tint Os 
unsigned long batch = zone_ batchsize(zone); 





for (ep = 0 Cpw < NR CPUS cpu++}) { 
setup_pageset (zone_pcp (zone,cpu), batch); 
} 
if (zone->present_ pages) 
printk (KERN_DEBUG " %s Zone: %lu pages, LIFO batch:%Slu\n", 
Zone->name， zone->present_ pages, batch); 


} 
































在 用 zone_batchsize 算 出 批量 大 小 (用 于 计算 最 小 和 最 大 填充 水 平 的 基础 》 后 ， 代 码 将 遍历 系 
统 中 的 所 有 CPU, 同时 调用 setup_pageset 填 充 每 个 per_cpu_pageset 实 例 的 常量 。 在 调用 该 函数 时 ， 
使 用 了 zone_pcp 宏 来 选择 与 当前 CPU 相 关 的 内 存 域 的 pageset 实 例 。 

我 们 来 更 仔细 地 看 一 下 水 印 的 计算 过 程 
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mm/page_alloc.c 
static int _ devinit zone _ batchsize(struct zone *zone) 


{ 
int bateh; 


batch = zone->present_pages / 1024; 
if (batch * PAGE_SIZE > 512 * 1024) 


bateh = (512 * 1024) / PAGE SIZE;} 
batch /= 4; 
if (bateh < 1) 

batenrs .Ly 
bateh (1 zz (tle(bDateh + bateti/2)=1)) =1» 





return batch; 


} 


上 述 代码 计算 得 到 的 batch, 大 约 相当 于 内 存 域 中 页 数 的 0.25%o。 移 位 操作 确保 计算 结果 具有 2”-1 
的 形式 ， 根 据 经 验 ， 该 值 在 大 多 数 系 统 负载 下 都 能 最 小 化 绥 存 混 车 效应 。f1ls 是 一 个 特定 于 计算 机 的 
操作 ， 用 于 算出 一 个 值 中 置 位 的 最 低 比特 位 。 要 注意 ,这 种 校正 会 使 结果 值 偏 离 内 存 域 中 页 数 的 0.25%o。 
batch = 22 时 偏差 最 大 。 由 于 22+11-1=32，fls 会 算出 比特 位 5 是 最 低 置 位 比特 位 ， 而 (1<<5) 一 1 = 
31。 通 常情 况 下 偏差 都 比 这 小 ， 实 际 上 是 可 以 忽略 的 。 
内 存 域 中 的 内 存 数 量 超出 512 MiB 时 ， 批 量 大 小 并 不 增长 。 对 于 页 面 大 小 为 4096 KiB 的 系统 ， 如 
果 页 数 超 过 131 072， 则 会 达到 512 MiB 的 限制 。 图 3-17 给 出 了 批量 大 小 与 内 存 域 中 页 数 的 关系 图 。 
在 setup_pageset 中 考虑 缓存 极限 的 计算 时 ，batcph 值 是 有 意义 的 。 
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r T 
4KiB 页 一 一 
8 KiB 页 -em 

16 KiB 页 … 








批量 大 小 
































140000 160000 180000 200000 















































600 700 5 20000 40000 60000 B0000 100000 120000 . . 
内 存 域 中 内 存 数量 (MiB) 内 存 域 中 页 数 
图 3-17” 左 图 为 批量 大 小 与 内 存 域 中 内 存 数量 的 关系 ， 不 同 曲线 对 应 不 同 页 面 长 度 。 
右 图 为 批量 大 小 与 内 存 域 中 页 数 的 关系 








mm/page_alloc.c 








inline void setup pageset (struct Per_cpu_pageset *p, unsigned long batch) 


{ 
struc 


memset (p, 


PCP 
pcp->count 
PCP-> 
pcp->batch 
INIT_LIST_ HEAD 
PCP = 
pcp->count 
pcp->high 
pcp->batch 
INIT_LIST_ HEAD 





} 
对 热 页 来 说 ， 下 限 为 0， 上 


缓存 水 平 降 到 太 低 。batch * 4 相当 于 内 存 ] 
大 小 优化 到 总 页 数 0.25%o 的 原因 




























































































&p->pcp[0]; 
0 . 


&p->pcp[1]; 
0 . 

2 * batch; 
max(1lUL, ba 


上 per_cpu pages *pcp; 


0, sizeof (*p)); 


/* 热 */ 


’ 


high = 6 * batch; 
max (1UL, 


1 * batceh):; 
(&pcp->list); 
/* 冷 */ 


’ 


Ech za) 
(&pcp->list); 


限 为 6*batch， 绥 存 中 页 的 平均 数量 大 约 是 4*batch， 


















































)。IA-32 处 理 器 上 L2 绥 存 的 数量 在 0.25 MiB 一 2 MiB 之 间 ， 因 





因为 内 


成 中 页 数 的 千 分 之 一 (这 也 是 zone_batchsize 试 图 将 批 











性 能 的 操作 (当然 

































































核 不 会 让 


三 


里 





此 在 冷 热 





zr 





一 般 会 向 


志 可 以 看 


缓存 中 保持 更 多 的 内 存 是 无 意义 的 。 根 据 经 验 ， 缓 存 大 小 是 主 内 存 的 干 分 之 一 。 考 虑 到 当前 系统 每 个 
CPU 配备 的 物理 内 存 大 约 在 1 GiB~2 GiB， 该 规则 是 有 意义 的 。 这 样 ， 计 算出 的 批量 大 小 使 得 冷 热 组 
存 中 的 页 有 可 能 放置 到 CPU 的 L2 缓 存 中 。 

冷 页 列表 的 水 印 稍 低 一 些 ， 因 为 冷 页 并 不 放置 到 缓存 中 , 只 用 于 一 些 0 0 关注 
在 内 核 中 这 样 的 操作 属于 少数 )。 其 上 限 是 patch 值 的 两 倍 。 

pcp->batch 决 定 了 在 重新 填充 列表 时 ， 有 多 少 页 会 立即 使 用 。 出 于 性 能 方面 的 考虑 ， 
列表 添加 连续 的 多 页 ， 而 不 是 单 页 。 

在 zone_pcp_init 结 束 时 ， 会 输出 各 个 内 存 域 的 页 数 以 及 计算 出 的 批量 大 小 ， 从 启动 日 
到 《下 面 例子 中 的 系统 配备 了 4 GiB 内 存 )。 

root@meitner # dmesg | grep LIFO 

DMA zone: 2530 pages, LIFO batch:0 


DMA32 zone: 
Normal zone: 


833464 pages, 
193920 pages, 


LIFO bateh:31 
LIFO batehs 3 


34 UDUUUOUO 149 





4. 注册 活动 内 存 区 

我 在 上 文 提 到 ， 内 存 域 数据 结构 的 初始 化 工作 涉及 颇 广 。 幸 运 的 是 ， 该 任务 在 所 有 体系 结构 上 都 
是 相同 的 。 虽 然 在 2.6.19 之 前 的 内 核 版 本 必须 根据 不 同 的 体系 结构 来 建立 所 需 的 数据 结构 ， 但 具体 的 
方法 随时 间 的 推移 已 经 越 来 越 模块 化 。 各 个 体系 结构 只 须 注 册 所 有 活动 内 存 区 的 一 个 简单 表 ， 通 用 代 
码 则 据 此 生成 主 数据 结构 。 

请 注意 ， 各 个 体系 结构 仍然 可 以 自行 建立 所 有 的 数据 结构 ， 而 不 依赖 于 内 核 提 供 的 一 般 性 框架 。 

于 IA-32 和 AMD64 都 将 具体 工作 委托 内 核 完 成 ， 因 此 我 不 会 进一步 讨论 由 各 体系 结构 自行 建立 数据 
结构 的 可 能 性 。 任 何 一 个 体系 结构 ， 如 果 打 算 利用 内 核 提 供 的 一 般 性 框架 ， 则 需要 设置 配置 选项 
ARCH_POPULATES_NODE_MAP。 在 注册 所 有 活动 内 存 区 之 后 ， 其 余 的 工作 由 通用 的 内 核 代码 完成 。 

活动 内 存 区 就 是 不 包含 空洞 的 内 存 区 ,必须 使 用 add_active_range 在 全 局 变量 early_node_map 
中 注册 内 存 区 。 


mm/page_alloc.c 
static struct node active region _ meminitdata early node map[MAX ACTIVE REGIONS]; 
static int _ meminitdata nr nodemap_entries; 


当前 注册 的 内 存 区 数目 记载 在 nr_nodemap_entries 中 。 不 同 内 存 区 的 最 大 数目 由 MAX_ACTIVE_ 
REGIONS 给 出 。 该 值 可 以 由 特定 于 体系 结构 的 代码 使 用 CONFIG_MAX_ACTIVE_REGIONS 设 置 。 如 果 不 设 
置 ， 在 默认 情况 下 内 核 允 许 每 个 内 存 结 点 注册 256 个 活动 内 存 区 (如 果 在 超过 32 个 结 点 的 系统 上 ， 人 允 
许 每 个 NUMA 结 点 注册 5$0 个 内 存 区 ) 。 每 个 内 存 区 由 下 列 数据 结构 描述 : 
<mmzone.h> 
struct node active region { 
unsigned long start_pfn; 


unsigned long end pfn; 
int. nid; 



































































































































































































































































































































































































































js 

start_pfn 和 end_pfn 标 记 了 一 个 连续 内 存 区 中 的 第 一 个 和 最 后 一 个 页 帧 , nia 是 该 内 存 区 所 属 结 
点 的 NUMA ID。UMA 系 统 设置 为 0。 

活动 内 存 区 是 使 用 adg_active_range 注 册 的 : 


mm/page_alloc.c 
void __init add active range(unsigned int nid, unsigned long start_pfn, 
unsigned long end pfn) 




































































在 注册 两 个 毗邻 的 内 存 区 时 ，agdg_active_regions 会 确保 将 它们 合并 为 一 个 。 此 外 ， 该 函数 不 
提供 其 他 额外 的 功能 特性 。 
回想 图 3-12 和 图 3-13 可 知 ， 该 函数 在 IA-32 系 统 上 由 zone_sizes_init 调 用 ， 在 AMD64 系 统 上 
e820_register_active_regions 调 用 。 因 此 我 简要 讨论 一 下 这 两 个 函数 。 

eUIA-32000000 

除了 调用 aqq_active_range 之 外 ，zone_sizes_init 国 数 以 页 帧 为 单位 ， 存 储 了 不 同 内 存 
边界 。 

arch/x86/kernel/setup_32.c 


void __init zone_ sizes_init(void) 


€ 






























































xl 
全 





unsigned long max_ zone pfns [MAX NR ZONES]; 
memset (max_zone pfns, 0, sizeof (max_ zone pfns)); 
max_zone_ pfns[ZONE_ DMA] = 
Virt to phys((char *)MAX DMA ADDRESS) >> PAGE_ SHIFT; 











l130 030 000 





max_zone_pfns [ZONE NORMAL] = max_ low_pfn; 


#ifdef CONFIG HIGHMEM 





ha 


ny 


s); 


max_zone_pfns[ZONE HIGHMEM] = highend pfn; 
add_active_ range(0, 0, highend pf 
#else 
add_ active range(0, 0, max_ low_ pf 
#endif 
free area init nodes (max_ zone_ pfn 
} 

















MAX_DMA_ADDRESS 是 适用 于 DMA 操 作 的 最 高 内 存 地 址 。 该 常数 声明 为 PAGE_OFFSET+0x1000000。 















































回想 前 文 可 知 ， 物 理 内 存 页 映射 到 从 PAGE_OFFSET 


























始 的 虚拟 地 址 空间 ， 而 物理 内 存 的 前 16 MiB 适 合 




















于 DMA 操 作 ， 十 六 进 制 表 示 就 是 前 0x1000000 字 节 。 用 virt_to_phys 转 换 ， 可 以 获得 物理 内 存 地 址 ， 














用 4 KiB 页 的 IA-32 系 统 上 ， 结 果 是 4 096 页 。 























而 右 移 PAGE_SHIFT 位 则 相当 于 除 以 页 大 小 ， 计 算 最 后 得 3 





站 适用 于 DMA 的 页 数 。 不 出 意料 之 外 ， 在 使 



































max_low_pfn 和 highend_pfn 是 全 局 常量 ， 分 别 指定 了 低 端 (如 果 地 址 空间 按 3 : 1 划分 ， 通 常 乏 











896 MiB)〉 和 高端 内 存 中 最 高 的 页 号 。 
2 




















请 注意 ，free_area_init_nodes 会 合并 early_mem_map 和 max_zone_pfns 中 的 信息 。 其 分 别 选 


择 各 个 内 存 域 中 的 活动 内 存 区 ， 并 构建 体系 结构 无 关 的 数据 结构 。 
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在 AMD64 上 注册 内 存 区 的 工作 分 为 两 个 函数 。 活 动 内 存 











arch/x86/kernel/e820_64.c 





区 的 注册 如 下 : 








e820_register active regions(int nid, unsigned long start_pfn, 


{ 
unsigned long ei_ startpfn; 
unsigned long ei _ endpfn; 
LE :了 
for (i = 0; i < e820.nr map; i++) 


unsigned long end_ pfn) 


if (e820_find_ active region(&e820.mapl[i], 
start_pfn, end pfn, 
&ei_startpfn, &ei_endpfn)) 
adqd active range(nid, ei startpfn, ei_ endpfn); 


} 


本 质 上 ， 上 述 代码 就 是 根据 BIOS 提 供 的 信息 遍历 所 有 的 内 存 区 ， 并 针对 每 个 内 存 区 找到 活动 内 
存 区 。 这 一 点 很 有 趣 ， 因 为 与 1A-32 对 比 ，adq_active_range 可 能 会 调用 多 次 。 























野 





























paging_init 处 理 : 











max_zone_pfns 值 的 设 


arch/x86/mm/init_64.c 
void _ init paging init(void) 


{ 














unsigned long max_ zone_ pfns{[MAX NR ZONES]; 
memset (max_zone pfns, 0, sizeof (max_ zone pfns)); 


max_zone_pfns [ZONE_DMA] 
max_zone_pfns [ZONE DMA32 


MAX_DMA_PFN; 
= MAX_ DMA32_PFN; 


] 
max_zone_pfns[ZONE NORMAL|] = end_ pfn; 


free area init nodes (max_ zone pfns); 


} 





16 位 和 32 位 DMA 内 存 域 的 页 帧 边界 保存 在 预 处 理 





帧 的 值 : 





























中 ， 分 别 对 应 于 16 MiB 和 4 GiB 转 换 为 页 
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include/asm-x86/dms_64.h 
/* 16MB ISA DMA 内 存 域 */ 
#define MAX DMA _ PFN ((16*1024*1024) >> PAGE_ SHIFT) 





/* 4GB PCI/AGP 便 件 总 线 主 控 器 内 存 域 */ 

#define MAX DMA32_PFN ((4UL*1024*1024*1024) >> PAGE_ SHIFT) 

endq_pfn 检 测 到 的 最 大 页 帧 编号 。 由 于 AMD64 并 不 需要 高 端 内 存 域 , max_zone_pfns 中 对 应 的 项 
是 NULL。 

5. AMD64 地 址 空间 的 设置 

AMD64 系 统 地 址 空间 的 设置 在 某 些 方面 比 IA-32 容 易 ， 但 在 男 一 些 方面 要 困难 。 虽 然 64 位 地 址 空 
间 避 免 了 古怪 的 高 端 内 存 域 ， 但 有 另 一 个 因素 使 情况 复杂 化 。64 位 地 址 空间 的 跨度 太 大 ， 当 前 没有 什 
么 应 用 程序 需要 这 个 。 因 此 ， 当 前 只 实现 了 一 个 比较 小 的 0 DODDD ， 地 址 字 宽 度 为 48 位 。 这 在 不 
失灵 活性 的 前 提 下 ， 简 化 并 加 速 了 地 址 转换 。48 位 宽 的 地 址 字 可 以 寻 址 256 TiB 的 地 址 空间 ， 或 256x 
1 024 GiB， 即 使 对 Firefox 也 足够 了 ! 
尽管 物理 地 址 字 位 宽 被 限制 在 48 位 ， 但 在 寻 址 虚拟 地 址 空间 时 仍然 使 用 了 64 位 指针 ， 因 而 虚拟 地 
址 空间 在 形式 上 仍然 会 跨越 2“ 字 节 。 但 这 引起 了 一 个 问题 ， 由 于 物理 地 址 字 实 际 上 只 有 48 位 宽 ， 虚 拟 
地 址 空间 的 某 些 部 分 无 法 寻 址 。 
于 未 来 的 硬件 实现 可 能 支持 更 大 的 物理 地 址 空间 , 也 不 太 可 能 将 地 址 空间 中 不 可 寻 址 的 子 集 映 
射 到 另 一 个 不 同 的 子 集 。 假 定 存 在 一 些 程序 ， 依 赖 于 将 指向 未 实现 地 址 空间 的 指针 重新 映射 到 普通 地 
址 空间 的 某 些 部 分 。 如 果 下 一 代 处 理 器 实现 的 物理 地 址 字 位 宽 更 大 ， 那 么 就 会 导致 一 种 不 同 的 行为 ， 
所 有 现存 代码 都 无 法 继续 工作 。 
很 显然 ， 处 理 器 必须 隐藏 对 未 实现 地 址 空间 的 访问 。 一 种 可 能 的 做 法 是 ， 禁 止 使 用 超出 物理 地 址 
空间 的 虚拟 地 址 。 但 硬件 设计 师 选 择 了 不 同 的 方法 。 其 解决 方案 基于 所 谓 的 0 DD D sign extension ) 
方法 ， 如 图 3-18 所 示 。 


































































































































































































































































































































































































































































































oxFFFF 8000 0000 0000 」 意 ，[47, 63] 全 0 
非 规范 区 域 
0x0000 7FFF FFFF FFFF | 比特 位 [0,46] 任 

意 ，[47, 63] 全 1 
































图 3-18 AMD64 计 算 机 上 虚拟 地 址 空间 到 物理 地 址 空间 可 能 的 映射 方式 


虚拟 地 址 的 低 47 位 ， 即 [0, 46]， 可 以 任意 设置 。 而 比特 位 [47, 63] 的 值 总 是 相同 的 : 或 者 全 0， 或 
者 全 1。 此 类 地 址 称 之 为 规范 的 。 因 此 整个 地 址 空间 划分 为 3 部 分 : 下 半 部 、 上 半 部 、 二 者 之 间 的 禁用 
区 。 上 下 两 部 分 共同 构成 跨越 2“ 字 节 的 一 个 地 址 空间 。 地 址 空间 的 下 半 部 是 [0x0,，0x0000 7FFF FFFF 
FFFF]， 上 上 半 部 是 [0xFFF 800 0000 0000，0xFFFF FFFF FFFF FFFF]。 请 注意 0x0000 7FFF FFFF 
FFFF 是 一 个 二 进 制 数 ， 低 47 位 都 是 1:， 其 他 位 都 是 9， 因 此 正 是 非 可 寻 址 区 域 之 前 的 最 后 一 个 地 址 。 类 
似 地 ，0xFFFF 8000 0000 0000 中 ， 比 特 位 [47, 63] 置 位 ， 从 而 是 上 半 部 的 第 一 个 有 效 地 址 。 

对 于 将 虚拟 地 址 空间 划分 为 两 部 分 ， 内 核 没 什么 可 担忧 的 。 内 核 在 大 多 数 体 系 结构 上 都 依赖 于 将 
地 址 空间 划分 为 内 核 空 间 和 用 户 空 间 两 部 分 ." AMD64 实 施 的 分 隔 刚好 实现 了 对 用 户 和 内 核 地 址 空间 






























































































































































GO 还 有 些 计算 机 人 允许 使 用 不 同 的 方法 。UltraSparc 处 理 器 在 默认 情况 下 为 用 户 和 内 核 空 间 分 别提 供 了 不 同 的 虚拟 地 址 
空间 ， 因 此 不 需要 将 一 个 地 址 空间 划分 为 两 部 分 。 
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的 划分 。 图 3-19 说 明了 Linux 内 核 在 AMD64 计 算 机 上 如 何 对 虚拟 地 址 空间 进行 布局 。? 























































































































































































































非 规范 区 域 2“ 字 节 (MAXMEM) KERNEL_TEXT_SIZE ”模块 
0 = 全 2 子玉 /= 人 i 
区 1 
A Wr 
史 只 时 一 致 映射 页 帧 图 和 ww 各 各 
AI4 工 条 wn » 所 口上 只 已 蝗 所 回 加 
ZN ) 虽 中 习 已 人 是 所 已 局 
本 号 9 站 四 当 台 吕 昌 日 
站 攻 tw 加 加 吕 
9 | 已 | 
3 3 
图 3-19 AMD64 系 统 上 虚拟 地 址 空间 的 组 织 。 事 实 上 ， 该 图 并 未 按 比例 绘制 
可 访问 的 地 址 空间 的 整个 下 半 部 用 作用 户 空间 , 而 整个 上 半 部 专用 于 内 核 。 由 于 两 个 空间 都 极 大 ， 
无 须 调 整 划 分 比例 之 类 的 参数 。 
内 核 地 址 空间 起 始 于 一 个 起 防护 作用 的 空洞 ， 以 防止 偶然 访问 地 址 空间 的 非 规范 部 分 。 如 果 发 生 
这 种 情况 ， 处 理 器 会 引发 一 个 一 般 性 保护 异常 (general protection exception) 。 物 理 内 存 页 则 一 致 映 
射 到 从 PAGE_OFFSET 开 始 的 内 核 空 间 中 。2“ 字 节 (由 MAXMEM 指 定 ) 专用 于 物理 页 帧 。 总计 可 达 64 TiB 
内 存 。 
include/asm-x86/pgtable_64.h 
define _ AC(X,Y) (X##Y) 
define _AC(X,Y) _ AC (X,Y) 
define PAGE_ OFFSET _AC(Oxffff810000000000, UL) 
define PAGE OFFSET _ PAGE OFFSET 
define MAXMEM _AC (Ox3fffffffffff, UL) 
要 注意 ，_AC 用 于 对 给 定 的 常数 标记 后 级 。 





unsigned long 类 型 。 这 


为 相应 的 常数 ， 





CE 

















在 C 语 











品 


没有 后 级 。 








为 一 个 防护 性 空洞 位 于 一 致 映射 内 存 区 竹 





VMALLOC_END: 


include/asm-x86/pgtable_64.h 


#define VMAL 
#define VMAL 


0 


'OC_START _AC (Oxffffc20 
'OC_END _AC (Oxffffelfff 














DDOODOD (virtualmemory map，VMM) 内 存 











内 核 使 用 了 稀 








下 C 





内 存 模型 ， 该 内 存 














Hvmalloc 内 存 


000000000, 
霸主 二 下 主 主 让 ;ULi)》 





[编程 序 代 码 ， 在 ; 


区 之 间 ， 后 者 的 范围 


区 紧 接着 vmalloc 内 存 
区 才 是 有 用 的 。 在 此 类 计算 机 上 通过 pfn_to_page 和 page_to_pfn 





例如 ，_AC (17,UL) 变 为 (17UL)， 相 当 于 把 常数 标记 为 
中 很 方便 ， 但 无 法 用 于 六 














[编程 序 中 _Ac 宏 直接 解析 




















从 VMALLOC_START 到 | 


UL) 














区 之 后 ， 长 为 1 TiB。 只 有 




















转换 虚拟 和 物 
始 ， 内 核 通 











里 页 帧 号 代价 比较 高 ， 














特定 的 设置 ， 
几乎 连续 
和 物理 编 
除了 




















使 得 物理 
的 内 存 
写 之 间 转 换 提供 旨 
简化 物理 




















因为 必须 考虑 物理 

















地 址 空间 中 的 所 有 空洞 。 从 内 核 版 本 2.6.24 开 
用 代码 提供 了 一 个 更 简单 的 解决 方案 ， 见 mm/sparse-memmap.c。VMM 内 存 
E 内 存 中 所 有 的 struct page 实 例 都 映射 到 0 口 空洞 的 内 存 区 中 。 


区 的 页 表 进行 
这 提供 了 一 个 














区 ， 其 中 


只 包括 活动 内 存 区 。 




















于 个 









































i 助 。 这 在 相当 程度 
和 虚拟 页 号 之 间 的 转换 ， 该 



































大 | 








的 实现 ， 因 为 - 





-者 需要 的 计算 也 同样 简化 了 。 





GD 内 核 源 代码 在 





上 加 速 了 





需要 关注 空洞 ， 因 
该 操作 。 





而 MMU 可 以 自动 地 为 虚拟 




















技术 还 有 利于 





助 商 数 virt_to_page 和 和 page_address 














Documentation/x86_64/mm.txt! 


包含 了 一 些 有 关 











也 址 空间 布局 的 文档 。 
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内 核 代码 段 映射 到 从 _sTART_KERNEL_MAP 开 始 的 内 存 区 ， 还 有 一 个 编译 时 可 配置 的 偏 移 量 
CONFIG_PHYSICAL_START。 人 在 编译 可 重 定位 内 核 时 需要 设置 该 偏 移 量 ， 但 还 需要 确保 结果 地 址 
__START_KERNEL 对 齐 到 ”KERNEL _ALIGN。 保 留 给 内 核 二 进 制 代 码 的 内 存 区 长 度 为 KERNEL_TEXT_ 
SIZE， 当 前 定义 为 40 MiB。 

include/asm-x86/page_64.h 





























































































































define __PHYSICAL START CONFIG_PHYSICAL_START 

define _ KERNEL ALIGN 0x200000 

define __START KERNEL ( START_KERNEL map + PHYSICAL_START) 
define START_KERNEL map _AC (Oxffffffff80000000, UL) 

define KERNEL TEXT_ SIZE (40*1024*1024) 

define KERNEL TEXT START _AC (Oxffffffff80000000, UL) 












































最 后 ， 还 必须 提供 一 些 空间 用 于 映射 模块 ， 该 内 存 区 从 MODULES_VaDDR 到 MODULES_END: 


include/asm-x86/pgtable_64.h 

define MODULES_VADDR _AC(Oxffffffff88000000，UL) 
define MODULES_END _AC (Oxfffffffffff00000, UL) 
define MODULES_LEN (MODULES_END -MODULES_VADDR) 


该 内 存 区 可 用 内 存 的 数量 由 MoDULES_LEN 计 算 ， 当 前 大 约 是 1 920 MiB。 
3.4.3 ”启动 过 程 期 间 的 内 存 管理 


在 启动 过 程 期 间 ， 尽 管内 存 管理 尚未 初始 化 ， 但 内 核 仍 然 需要 分 配 内 存 以 创建 各 种 数据 结构 。 
bootmem 分 配器 用 于 在 启动 阶段 早期 分 配 内 存 。 

显然 ， 对 该 分 配器 的 需求 集中 于 简单 性 方面 ， 而 不 是 性 能 和 通用 性 。 因 此 内 核 开发 者 决定 实现 
个 0D 口 口 口 (first-fit〉 分 配器 用 于 在 启动 阶段 管理 内 存 ， 这 是 可 能 想到 的 最 简单 方式 。 
该 分 配器 使 用 一 个 位 图 来 管理 页 ， 位 图 比特 位 的 数目 与 系统 中 物理 内 存 页 的 数目 相同 。 比 特 位 为 
1， 表 示 已 用 页 ;比特 位 为 0， 表 示 衬 闲 页 。 
在 需要 分 配 内 存 时 ， 分 配器 逐 位 扫描 位 图 ， 直 至 找到 一 个 能 提供 足够 连续 页 的 位 置 ， 即 所 谓 的 吕 
DODO (first-best) 或 0DDD 位 置 。 

该 过 程 不 是 很 高 效 ， 因 为 每 次 分 配 都 必须 从 头 扫描 比特 链 。 因 此 在 内 核 完 全 初始 化 之 后 ， 不 能 将 
该 分 配器 用 于 内 存 管理 。 伙 伴 系统 (连同 slab、slub 或 slob 分 配器 ) 是 一 个 好 得 多 的 备 选 方案 , 将 在 3.5.5 
节 讨 论 。 

1. 数据 结构 
即使 最 先 适 配 分 配器 也 必须 管理 一 些 数据 。 内 核 (为 系统 中 的 每 个 结 点 都 ) 提供 了 一 个 bootmem_ 
data 结 构 的 实例 ， 用 于 该 用 途 。 当 然 ， 该 结构 所 需 的 内 存 无 法 动态 分 配 ， 必 须 在 编译 时 分 配给 内 核 。 
在 UMA 系 统 上 该 分 配 的 实现 与 CPU 无 关 (NUMA 系 统 采 用 了 特定 于 体系 结构 的 解决 方案 )。 
bootmem_dqata 结 构 定义 如 下 : 


<bootmem.h> 

typedef struct bootmem data { 
unsigned long node boot_ start; 
unsigned long node_ low pfn; 
void *node_ bootmem map; 
unsigned long last_ offset; 
unsigned long last_pos; 
unsigned long last_success; 


















































































































































































































































































































































































































































struct list head list; 
} bootmem data_t; 
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在 下 面 提 到 0 时 ， 














的 结束 页 。 











内 核 映像 中 














总 是 指 物 
口 node_boot_start 保 存 了 系统 
口 node_low_pfn 是 可 以 直接 管 


口 node_bootmem_map 是 指 向 存 


存 区 紧 接 着 内 核 映 像 之 后 。 对 




















里 页 帧 











个 页 的 编号 ， 大 多 数 体系 结 


o 
AAA 
PP 下 一 
































口 last_pos 是 上 一 次 分 配 的 页 的 编号 。 
部 的 偏 移 量 。 这 使 得 bootmem 分 配器 可 以 分 配 小 于 一 整 页 的 内 存 区 (伙伴 系统 无 法 做 到 这 一 点 )。 





口 last_success 指 定位 图 





























区 注册 一 个 bootmem 分 配器 。 
































是 全 局 变量 pdata_list。 
在 UMA 系 统 上 ， 只 需 
contig_page_data 关 联 起 来 。 


mm/page_alloc.c 























注册 新 的 自 举 分 配器 可 使 





理 的 物 到 





诸 分 配 位 图 
应 的 地 址 保存 在 _end 变 量 


PP 上 一 次 成 功 分 配 内 存 的 位 置 ， 
先 适 配 算法 稍 快 了 一 点 ， 但 仍然 无 法 真正 代替 更 复杂 
口 内 存 不 连续 的 系统 可 能 需要 
结 点 注册 了 一 个 bootmem 分 配器 ， 但 如 


多 个 bootmem 分 配器 。 一 个 
[ 果 物 理 





init_boo 











的 内 存 区 的 指针 。 在 IA-32 系 统 上 ， 


构 下 都 是 零 。 
地 址 空间 中 最 后 一 页 的 编号 。 换 名 话说 , 即 ZONE_NORMRAL 




















] 于 该 用 途 的 内 














如 果 没 有 请 求 分 配 整个 页 






































的 技术 。 




















Ph ， 该 变量 在 链接 期 间 


新 的 分 配 将 由 此 姑 





动 地 插入 到 














， 则 last_offset 用 作 该 页 内 





F 始 。 尽 管 这 使 得 最 








型 的 例子 是 NUMA 计 算 机 ， 其 中 每 个 
































地 址 空间 

















static bootmem data t contig bootmem data; 


struct pglist data contig page data = { 


2. 初始 化 








bootmem 分 配器 的 初始 化 是 
正如 前 文 的 讨论 ，IA-32 使 
bootmem 分 配器 ， 而 AMD64 则 使 























中 散布 着 空洞 ， 也 可 以 为 每 个 连续 内 存 
tmem_core,， 所 有 注册 的 分 配器 保存 在 一 个 链表 中 , 表 头 


个 bootmem t 实 例 ， 即 contig_bootmem data。 它 通过 pdata 成 员 与 


.bdata = &contig bootmem data }; 





个 特定 于 体系 结构 的 过 程 ， 此 外 还 取决 于 所 述 计算 机 的 内 存 布局 。 


jsetup_memory， 该 函数 又 调 





























dcontig initmem init。 


jsetup_bootmem_allocator 来 初始 化 


图 3-20 中 的 代码 流程 图 说 明了 IA-32 系 统 上 初始 化 bootmem 分 配器 涉及 的 各 个 步骤 ， 而 AMD64 的 








情况 则 如 图 3-21 所 示 。 








































register bootmem low_ pages 


确定 可 用 的 低 端 内 存 页 帧 


setup_bootmem allocator 


reserve_bootmem (bootmap, bootmap_size) 

















调用 reserve_bootmem 分 配 特 定 的 内 存 区 





图 3-20 ”在 IA-32 计 算 机 上 初始 化 bootmem 分 配器 
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bootmem_ bootmap_pages 
找到 适当 的 内 存 区 | 


























register_ bootmem with active_ regions 


reserve_bootmem (bootmap, bootnap_size) | 


3-21 在 AMD64 计 算 机 上 初始 化 bootmem 分 配器 











珊 








e@ IA-32000D 

setup_memory 分 析 检 测 到 的 内 存 区 ， 以 找到 低 端 内 存 区 中 最 大 的 页 帧 号 。 由 于 高 端 内 存 处 理 太 
有 麻烦， 由 此 对 bootmem 分 配器 无 用 。 全 局 变量 max_low_pfn 保 存 了 可 映射 的 最 高 页 的 编号 。 内 核 会 在 
启动 日 志 中 报告 找到 的 内 存 的 数量 。 


wolfgang@meitner> dmesg 






















































































OMB HIGHMEM available. 
511MB LOWMEM available. 











基于 该 信息 ，setup_bootmem_allocator 接 下 来 负责 发 起 所 有 必要 的 步骤 ， 以 初始 化 bootmem 
分 配器 。 它 首先 调用 通用 函数 init_bootmem， 该 函数 是 init_bootmem_core 的 一 个 前 端 。 
init_bootmem_core 的 目的 在 于 执行 bootmem 分 配器 的 第 一 个 初始 化 步 又。 先前 检测 到 的 低 端 内 
存 页 帧 的 范围 输入 到 相应 的 bootmem_data 上 实例 中 ， 这 里 是 contig_bootmem_dqata。 最 初 在 位 图 
cont1ig_bootmemdata->node_bootmem map 中 ， 所 有 的 页 都 标记 为 已 用 。 由 于 init_bootmem_core 
是 一 个 体系 结构 无 关 的 函数 , 它 尚 无 法 知道 哪些 页 可 用 , 哪些 页 不 能 使 用 。 因 为 体系 结构 方面 的 原因 ， 
有 些 页 需要 特殊 的 处 理 ， 例 如 IA-32 系 统 上 的 0 页 。 有 些 页 则 已 经 使 用 ， 例 如 内 核 映 像 占 用 的 页 。 实 际 
可 用 的 页 必须 由 体系 结构 相关 的 代码 显 式 标记 出 来 。 
该 标记 过 程 由 两 个 特定 于 体系 结构 的 函数 完成 。register_bootmem_low_pages 通 过 将 位 图 中 对 
应 的 比特 位 清 零 ， 释 放 所 有 潜在 可 用 的 内 存 页 。 在 IA-32 系 统 上 BIOS 对 该 任务 提供 了 支持 ，BIOS 向 内 
核 提 供 了 可 用 内 存 区 的 列表 ， 即 初始 化 过 程 中 更 早 一 点 提供 的 e820 映射 。 
于 bootmem 分 配器 需要 一 些 内 存 页 管理 分 配 位 图 ， 必 须 首 先 调用 reserve_bootmem 分 配 这 些 内 































































































































































































































































































存 页 。 
但 还 有 一 些 其 他 的 内 存 区 已 经 在 使 用 中 , 必须 相应 地 标记 出 来 ,因此 ,还 需要 用 reserve_bootmem 
注册 相应 的 页 。 需 要 注册 的 内 存 区 的 确切 数目 ， 高 度 依赖 于 内 核 配 置 。 例 如 ， 需 要 保留 0 页 ， 因 为 在 
许多 计算 机 上 该 页 是 一 个 特殊 的 BIOS 页 ， 有 些 特定 于 计算 机 的 功能 需要 该 页 才能 运作 正常 。 其 他 的 
resetrve_bootmem 调 用 则 分 配 与 内 核 配置 相关 的 内 存 区 ， 例 如 ， 用 于 ACPI 数 据 或 SMP 局 动 时 的 配置 。 

e AMD64000D 

虽然 AMD64 上 bootmem 初 始 化 的 技术 细节 不 同 ， 但 通用 结构 与 IA-32 的 情况 相当 类 似 。 这 一 次 由 
contig_initmem 负 责 分 配 任务 。 
首先 ，bootmem_bootmap_bitmap 计 算 bootmem 位 图 所 需 页 的 数目 。 该 函数 使 用 了 BIOS 在 e820 映 
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U30 0000 




















射 提供 的 信息 ， 类 似 于 IA-32， 相 应 的 位 图 可 用 于 查找 长 度 适当 的 连续 内 存 区 。 


函 
































然后 ， 使 用 init_bootmem 将 该 信息 填充 到 体系 结构 无 关 的 bootmem 数 据 结构 中 。 如 前 所 述 ， 该 


数 将 所 有 的 页 都 标记 为 已 分 配 ， 而 现在 必须 选 出 空闲 页 。free_bootmem with active_regions 







































































可 以 再 次 使 用 e820 映射 中 的 信息 ， 按 照 BIOS 报 告 的 使 用 情况 ， 释 放 所 有 实际 空 闪 的 内 存 区 。 最 后 ， 调 
一 次 reserve_bootmem 注 册 bootmem 分 配 位 图 所 需 的 空间 。 与 IA-32 相 反 ，AMD64 不 需要 为 遗留 信 
息 在 内 存 中 分 配 空间 。 





3. 对 内 核 的 接口 

euU000 

内 核 提 供 了 各 种 函数 ， 用 于 在 初始 化 期 间 分 配 内 存 。 在 UMA 系 统 上 有 下 列 函 数 可 用 。 

口 alloc_bootmem(size) 和 alloc_bootmem pages (size) 按 指定 大 小 在 ZONE_NORMAL 内 存 域 
分 配 内 存 。 数 据 是 对 齐 的 ， 这 使 得 内 存 或 者 从 可 适用 于 L1 高 速 缓存 的 理想 位 置 开 始 ， 或 者 从 


页 边界 开始 。 



















































































_pagesl0U0O0000000 





加 enoceasoeoenemeages oa 








口 alloc bootmem low 和 alloc bootmem low pages 的 工作 方式 类 似 于 上 述 函 数 ， 只 是 





芯 





ZONE_DMA 内 存 域 分 配 内 存 。 因 此 ， 只 有 和 需要 DMA 内 存 时 ， 才 能 使 用 上 述 函 数 。 








基本 上 NUMA 系 统 的 API 是 相同 的 ， 但 函数 名 增加 了 _noge 后 级 。 与 UMA 系 统 的 函数 相 比 ， 还 需 











要 一 个 额外 的 参数 ， 指 定 用 于 内 存 分 配 的 结 点 。 
这 些 函 数 都 是 _alloc_bootmem 的 前 端 ， 后 者 将 实际 工作 委托 给 ”alloc_bootmem nopanic。 
































于 可 以 注册 多 个 bootmem 分 配 费 《回想 一 下 ， 我 们 知道 这 些 分 配器 都 保存 在 一 个 全 局 链表 中 )， 








_alloc_bootmem_core 会 遍历 所 有 的 分 配器 ， 直 至 分 配 成 功 为 止 。 


在 NUMA 系 统 上 ，__alloc_bootmem_node 则 用 















































于 实现 该 API 函 数 。 首 先 ， 工 作 传 递 到 _alloc_ 


Pann 






































bootmem_core， 党 试 在 该 结 点 的 bootmem 分 配器 进行 分 配 。 如 果 失 败 ， 则 后 退 到 __alloc_bootmem,， 
将 尝试 所 有 的 结 点 。 

















有 











mm/bootmem.c 
Void * init alloc bootmem(unsigned long size, unsigned long align, 


al 


据 的 对 齐 





unsigned long goal) 


L1oc_bootmem 需 要 3 个 参数 来 描述 内 存 分 配 请 求 ; size 是 所 需 内 存 区 的 长 度 ，align 表 示 数 
方式 , 而 goal 指 定 了 开始 搜索 适当 空闲 内 存 区 的 起 始 地 址 。 各 个 前 端 使 用 该 函数 的 方式 如 下 : 









































<bootmem.h> 


#de 


#de 


fine alloc bootmem(x) \ 

__alloc bootmem( (x), SMP_CACHE_ BYTES, _ pa (MAX DMA ADDRESS)) 
fine alloc bootmem low(x) \ 

__alloc bootmem( (x), SMP_CACHE_BYTES, 0) 


#define alloc bootmem pages (x) \\ 


#de 


alloc_ bootmem( (x), PAGE_SIZE, pa (MAX_DMA_ ADDRESS)) 








fine alloc bootmem low pages (x) \\ 
__alloc bootmem( (x), PAGE_ SIZE, 0) 








所 需 分 配 内 存 的 长 度 (x) 未 作 改 变 直接 传递 给 ”alloc_bootmem, 但 内 存 对 齐 方式 有 两 个 选项 。 
SMP_CACHE_BYTES 会 对 齐 数据 ， 使 之 在 大 多 数 体 系 结构 上 能 够 理想 地 置 于 L1 高 速 缓存 中 (尽管 名 字 带 



















































































SMP 字 样 , 但 单 处 理 器 系统 也 会 定义 该 常数 )。PAGE_SIZE 将 数据 对 齐 到 页 边界 。 后 一 种 对 齐 方 式 适 
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用 于 分 配 一 个 或 多 个 整 页 ， 但 前 者 在 分 配 涉及 部 分 页 时 能 够 产生 更 好 的 结果 。 








低 端 DMA 内 存 与 普通 内 存 的 区 别 在 于 其 起 始 地 址 。 搜 索 适 
(pa 将 内 存 地 址 转换 为 页 号 )。 






































普通 内 存 时 则 从 MAX_DMA_ADDRESS 向 上 








用 于 DMA 的 内 存 从 地 址 0 开始 , 而 请 求 








alloc_bootmem_core 函 数 的 功能 相对 而 言 很 广泛 


























(在 启动 

















详细 讨论 它 ， 
仅 能 够 分 配 整个 内 存 页 ， 还 能 分 配 页 的 一 部 分 。 
该 函数 执行 下 列 操作 (大 概 描述 )。 












































办 为 该 函数 主要 实现 了 前 文 已 经 描述 过 的 最 9 

















(1) 从 goal 开始 ， 扫 描 位 图 ， 查 找 满足 分 配 请 求 的 空闲 内 存 区 。 


(2) 如 果 目 标 页 紧 接着 上 一 次 分 配 的 页 ， 即 bootmem_data-> last_pos， 内 核 会 检查 bootmem_ 














data->last_offset， 判断 所 需 的 内 存 ( 
页 开始 分 配 。 














包括 对 齐 数据 所 需 的 空间 ) 





是 否 能 够 在 上 一 


基 间 不 需要 太 高 的 效率 )， 我 不 会 
t 适 配 算法 。 但 该 分 配器 功能 已 经 增强 ,不 








页 分 配 或 从 上 一 


(3) 新 分 配 的 页 在 位 图 对 应 的 比特 位 设置 为 1。 最 后 一 页 的 数目 也 保存 在 bootmem_qata-> 











last_pos。 如 果 该 页 未 完全 分 配 ， 则 相应 的 偏 移 量 保存 在 bootmem_data->last_offset; 否则 ， 访 

















值 设置 为 0。 
en000D0 














内 核 提供 了 free_bootmem 函 数 来 释放 内 存 。 它 需要 两 个 参数 : 需要 释放 的 内 存 





长 度 。 不 出 意外 ，NUMA 系 统 上 等 价 函 数 的 名 称 为 free_bootmem_nodqe， 





定 结 点 。 


<bootmem.h> 

voidq free bootmem(unsigned long addr, 

void free bootmem node(pg_data t *pgdat, 
unsigned long addr, 
unsigned long size); 





两 个 版 本 都 将 其 工作 委托 给 __free_bootmem_core。 只 能 释放 整 页 ， 











已 而 女 一 | 


unsigned long size); 

















中 zz 有 王政 


区 的 起 始 地 址 和 
额外 的 参数 来 指 








因为 bootmem 分 配器 没有 保 











存 有 关 页 划分 的 任何 信息 。 内 核 使 用 __free_bootmem_core 首 先 计算 0D 口 包含 在 该 内 存 区 中 、 将 被 释 
放 的 页 。 只 是 部 分 包含 在 内 存 区 中 的 页 将 忽略 。 位 图 中 对 应 的 项 设置 为 0， 完 成 页 的 释放 。 
该 过 程 隐藏 了 一 些 风险 ， 如 果 页 包含 在 两 个 不 同 的 内 存 区 中 ， 那 么 连续 释放 这 些 内 存 区 ， 却 无 法 














释放 该 页 。 包 含 页 的 前 一 半 和 后 一 半 的 内 存 区 在 间隔 一 段 日 
是 否 不 再 使 用 ， 因 1 
如 此 ， 于 free_bootmem 很 少 使 用 ， 这 也 不 是 大 问 
基本 的 数据 结构 ， 在 内 核 运行 的 所 有 时 间 都 需要 使 

4. 停 用 bootmem 分 配器 


































































































因 





]， 





j 也 无 法 释放 。 该 页 的 状态 就 一 直 保 持 为 “使 用 中 ”， 








对 间 














比 无 需 释放 。 























在 系统 初始 化 进行 到 伙伴 系统 分 配器 能 够 承担 内 存 管 


























竟 不 能 同时 用 两 个 分 配器 管理 内 存 。 
free_all_bootmem_node 完 成 。 在 伙 


























首先 扫描 bootmem 分 配器 的 页 位 图 ， 释 放 每 个 未 用 的 页 。 到 伙伴 系统 的 接 
bootmem 函 数 ， 该 函数 对 每 个 空闲 页 调用 。 该 函数 内 部 依赖 于 标 疹 





























并 入 伙伴 系统 的 数据 结构 ， 在 其 中 作为 空闲 页 管理 ， 








可 









































存 分 配 。 


在 UMA 和 NUMA 系 统 上 ， 停 用 分 别 
伴 系统 建立 之 后 , 特定 于 体系 结构 的 初始 化 


里 的 责任 后 ， 必 须 
































于 分 配 。 
在 页 位 图 已 经 完全 扫描 之 后 ， 它 占据 的 内 存 空间 也 必须 释放 。 此 后 ， 














只 有 伙伴 系统 可 








后 分 别 被 释放 ， 分 配器 无 法 了 解 到 该 页 
尽管 事实 上 不 是 这 样 。 尽 管 
题 。 系 统 初始 化 期 间 分 配 的 大 多 数 内 存 区 者 




















了 于 





停 用 bootmem 分 配器 ， 毕 
free_all_bootmem 利 
尺码 需要 调用 这 两 个 








品 是 _ free pages_ 
函数 free_page。 它 使 得 这 些 页 

















] 于 内 
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D000 





5. 释放 初始 化 数据 


家 








则 不 必要 在 内 核 内 存 
似 地 ， 豫 动 程序 




















或 数据 的 声明 之 


内 核 提供 了 两 个 属 


前 。 











本 





























使 





上  。 


int 





_init 属 性 插入 到 函数 声明 
数据 段 也 可 以 标记 为 初始 化 数据 。 例 如 ,假想 的 网 卡 驱动 程序 








保持 其 


于 检测 其 设备 的 硬件 


1 如 ， 


























性 (init 和 








的 字符 串 ， 此 后 这 些 字符 串 可 以 丢弃 。 





static char search 1 





msg[] 
































E。 在 结构 建立 之 后 ， 
数据 库 ， 在 相关 的 设备 已 经 识 
initcall) 用 于 标记 初始 化 函数 和 数据 
网 卡 HyperHopper2000 (假想 的 ) 的 探测 例 程 在 系 








__init hyper hopper probe(struct net device *dev) 


返回 类 型 和 函数 名 之 间 。 


三 



































此 








nj 女 


这 些 例 程 就 不 再 
别 之 后 ， 就 不 再 需要 了 。 
局 。 这 些 必须 置 于 函数 

















需要 J 
(0) 























午 多 内 核 代码 块 和 数据 表 只 在 系统 初始 化 阶段 需要 。 例 如 ， 对 于 链接 到 内 核 中 的 驱动 程序 而 言 ， 
数据 结构 的 初始 化 例 程 


类 


x 


已 经 初始 化 之 后 将 不 


只 在 系 乡 


_ initdata = "%s: Desperate ly Look ng for. HyperHopper at address %x. 








EE 初始 化 阶段 使 用 











static char stilllooking msg[] __ initdata = "still searching. 

static char found msg[] . initdata = "found.\n"; 

static char notfound msg[] _ initdata = "not found (reason = %d)\n"; 

static char couldnot msg[] __initdata = "%s: HyperHopper not found\n"; 

_ init 和 initgata 不 能 使 用 普通 的 C 语 言 实现 ， 因 此 内 核 必须 再 一 次 借助 于 特殊 的 GNU C 编 
译 器 语句 。 

初始 化 函数 实现 的 背后 ， 其 一 般 性 的 思想 在 于 ,将 数据 保持 在 内 核 映像 的 一 个 特定 部 分 ,在 启动 























结束 时 可 以 完全 从 内 存 删除 。 





















































下 列 宏 的 定义 即 怀 着 这 个 目的 : 
























































<init.h> 

#define _ init ”attribute  (( section _ (".init.text"))) cold 

#define _ initdata _ attribute _ (( section _ (".init.data"))) 

_ attribute 是 一 个 特殊 的 GNU C 关 键 字 ， 属 性 即 通过 该 关键 字 使 用 。 section 属性 用 于 
通知 编译 器 将 随后 的 数据 或 函数 分 别 写 入 二 进 制 文件 的 .init.data 和 .init.text 段 〈 不 熟悉 ELF 文 
件 结构 的 读者 可 参考 附录 E) 。 前 级 __colgd 还 通知 编译 器 ， 通 向 该 函数 的 代码 路 径 可 能 性 较 低 ， 即 该 
函数 不 会 经 常 调用 ， 对 初始 化 函数 通常 是 这 样 。 

readelf 工 具 可 用 于 显示 内 核 映 像 的 各 个 段 。 

wolfgang@meitner> readelf - sections vmlinux 

There are 53 section headers, starting at offset 0x2c304c8 : 

Section Headers: 

[Nr] Name Type Address Offset 
Size EntSize Flags Link Info Align 

[0] NULL 0000000000000000 00000000 
0000000000000000 0000000000000000 0 0 0 

[1] .text PROGBITS ffffffff80200000 00200000 
000000000021fc6f 0000000000000000 AX 0 0 4096 

[2] _ ex table PROGBITS ffffffff8041fc70 0041fc70 
0000000000003e50 0000000000000000 A 0 0 8 

[3] .notes NOTE ffffffff80423ac0 00423ac0 

0000000000000024 0000000000000000 AX 0 0 4 

[2 全] init,. text PROGBITS ££fffffff8067b000 0087b000 

Q 至 少 对 于 编译 到 内 核 中 的 数据 和 不 可 热 插 拔 的 设备 是 这 样 。 如 果 设 备 动态 地 添加 到 系统 ， 当 然 无 法 丢弃 数据 表 ， 











因为 此 后 可 能 还 需要 。 
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000000000002026e 0000000000000000 AX 0 0 1 
[L291 . -init.data PROGBITS ffffffff8069b270 0089b270 
000000000000c02e 0000000000000000 WA 0 0 16 


为 从 内 存 中 释放 初始 化 数据 ， 内 核 不 必 知 道 数 据 的 性 质 ， 即 哪些 数据 和 函数 保存 在 内 存 中 和 它们 
的 用 途 都 是 完全 不 相干 的 。 唯 一 相关 的 信息 是 这 些 数据 和 函数 在 内 存 中 开始 和 结束 的 地 址 。 
由 于 该 信息 在 编译 时 无 法 得 到 , 它 是 内 核 在 链接 时 插入 的 。 我 在 本 章 其 他 地 方 已 经 提 到 过 该 技术 。 
为 提供 该 信息 ， 内 核定 义 了 一 对 变量 _init_begin 和 _ init_endq， 其 含义 很 明显 。 
free_initmem 负 责 释放 用 于 初始 化 的 内 存 区 ， 并 将 相关 的 页 返回 给 伙伴 系统 。 在 启动 过 程 刚好 
结束 时 会 调用 该 函数 ， 紧 接 其 后 init 作 为 系统 中 第 一 个 进程 启动 。 启 动 日 志 包 含 了 一 条 信息 ,指出 释 
放 了 多 少 内 存 。 


wolfgang@meitner> dmesg 
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Freeing unused kernel memory: 308k freed 
































与 当今 通常 配备 的 主 内 存 大 小 比较 ， 释 放 的 大 约 300 KiB 内 存 数量 不 算 大 ， 但 也 具有 比较 重要 
什 用 。 特 别 是 在 手持 或 嵌入 式 系统 上 ， 清 除 初 始 化 数据 是 很 重要 的 ， 这 种 设备 的 性 质 决 定 了 它们 只 
书 少 量 内 存 凌 合 着 运行 。 


3.5 物理 内 存 的 管理 

在 内 核 初 始 化 完成 后 ， 内 存 管 理 的 责任 由 伙伴 系统 承担 。 伙 伴 系统 基于 一 种 相对 简单 然而 令 人 吃 
惊 的 强大 算法 ， 已 经 伴随 我 们 几乎 40 年 。 它 结合 了 优秀 内 存 分 配器 的 两 个 关键 特征 : 速度 和 效率 。 
3.5.1 伙伴 系统 的 结构 


系统 内 存 中 的 每 个 物理 内 存 页 〈 页 帧 ) ， 都 对 应 于 一 个 struct page 实 例 。 每 个 内 存 域 都 关联 了 
一 个 struct zone 的 实例 ， 其 中 保存 了 用 于 管理 伙伴 数据 的 主要 数组 。 


<mmzone.h> 
struct zone { 














dd 
~ 
/ 
bul 
CC 



































































































































大 

* 不 同 长 度 的 空闲 区 域 

A 

struct free area free_ area[lMAX ORDER]; 








) 
free_area 是 一 个 辅助 数据 结构 ， 我 们 此 前 尚未 遇见 。 其 定义 如 下 : 
<mmzone.h> 

struct free area { 


struct list_ head free_list[MIGRATE TYPES]; 
unsigned long nr_free; 























地 
nr_free 指 定 了 当前 内 存 区 中 空闲 页 块 的 数目 (对 0 阶 内 存 区 逐 页 计算 ， 对 1 阶 内 存 区 计算 页 对 的 
数目 ， 对 2 阶 内 存 区 计算 4 页 集合 的 数目 ， 依 次 类 推 ) 。free_list 是 用 于 连接 空闲 页 的 链表 。 按 第 1 
章 的 讨论 ， 页 链表 包含 大 小 相同 的 连续 内 存 区 。 尽 管 定义 提供 了 多 个 页 链表 ， 我 暂时 忽略 该 事实 ， 在 
下 文中 讨论 其 原因 。 
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0 是 伙伴 系统 中 一 个 非常 重要 的 术语 。 它 描述 了 内 存 分 配 的 数量 单位 。 内 存 块 的 长 度 是 2”™， 其 
中 order 的 范围 从 0 到 MAX_ORDER。 

<mmzone.h> 

#ifndef CONFIG FORCE MAX ZONEORDER 

#define MAX_ ORDER 11 

#else 

#define MAX_ ORDER CONFIG_ FORCE MAX ZONEORDER 

MAX_ORDER_NR_PAGES (1 << (MAX_ ORDER -1)) 

该 常数 通常 设置 为 11， 这 意味 着 一 次 分 配 可 以 请 求 的 页 数 最 大 是 21=2 048。 但 如 果 特 定 于 体系 结 
构 的 代码 设置 了 FORCE_MAX_ZONEORDER 配 置 选 项 ， 该 值 也 可 以 手工 改变 。 例 如 ，IA-64 系 统 上 巨大 的 
地 址 空间 可 以 处 理 MAxX_ORDER = 18 的 情形 ， 而 ARM 或 v850 系 统 则 使 用 更 小 的 值 ( 如 8 或 9)。 但 这 不 
定 是 由 计算 机 支持 的 内 存 数 量 比较 小 引起 的 ， 也 可 能 是 内 存 对 齐 方式 的 要 求 所 导致 。 或 者 可 以 参考 
v850 体 系 结构 的 Kconfig 配 置 文件 的 描述 : 

arch/v850/Kconfig 


# The crappy-ass zone allocator requires that the start of allocatable 


# memory be aligned to the largest possible allocation. 


config FORC 





E_MAX_ZONI 





EORDI 





ER 





int 
default 8 if V850E2_SIM85E2C || V850E2_FPGA85E2C 
















































































































































































































































































































































































free_area[] 数 组 中 各 个 元 素 的 索引 也 解释 为 阶 , 用 于 指定 对 应 链表 中 的 连续 内 存 区 包含 多 少 个 
页 帧 。 第 0 个 链表 包含 的 内 存 区 为 单 页 (2=1) ， 第 1 个 链表 管理 的 内 存 区 为 两 页 (2'=2) ， 第 3 个 管理 
的 内 存 区 为 4 页 ， 依 次 类 推 。 

内 存 区 是 如 何 连接 的 ? 内 存 区 中 第 1 页 内 的 链表 元 素 ， 可 用 于 将 内 存 区 维持 在 链表 中 。 因 此 ， 也 
不 必 引 入 新 的 数据 结构 来 管理 物理 上 连续 的 页 ， 否 则 这 些 页 不 可 能 在 同一 内 存 区 中 。 图 3-22 对 此 给 出 
了 图 示 。 

图 3-22 ”伙伴 系统 中 相互 连接 的 内 存 区 

伙伴 0DDO 彼此 连接 的 。 如 果 一 个 内 存 区 在 分 配 其 间 分 解 为 两 半 ， 内 核 会 自动 将 未 用 的 一 半 加 入 
到 对 应 的 链表 中 。 如 果 在 未 来 的 某 个 时 刻 ， 由 于 内 存 释 放 的 缘故 ， 两 个 内 存 区 都 处 于 空闲 状态 ， 可 通 
过 其 地 址 判断 其 是 否 为 伙伴 。 管 理工 作 较 少 ， 是 伙伴 系统 的 一 个 主要 优点 。 

基于 伙伴 系统 的 内 存 管理 专注 于 某 个 结 点 的 某 个 内 存 域 ， 例 如 ，DMA 或 高 端 内 存 域 。 但 所 有 内 
存 域 和 结 点 的 伙伴 系统 都 通过 备用 分 配 列表 连接 起 来 。 图 3-23 说 明了 这 种 关系 。 

ee SR 结 点 的 另 一 个 内 存 域 ， 接 下 来 再 
尝试 另 一 个 结 点 ， 直 至 满足 请 求 。 
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图 3-23 ”伙伴 系统 和 内 存 域 / 结 点 之 间 的 关系 














最 后 要 注意 ， 有 关 伙 伴 系 统 当 前 状态 的 信息 可 以 在 /proc/buddyinfo 中 获得 : 
wolfgang@meitner> cat /proc/buddyinfo 


Node 0, zone DMA 3 5 3 4 6 e: 名 3 1 2 于 
Node 0, zone DMA32 130 546 695 271 107 38 2 2 1 4 479 
Node 0, zone Normal 23 6 6 8 1 4 名 0 0 0 0 


上 述 输出 给 出 了 各 个 内 存 域 中 每 个 分 配 阶 中 空闲 项 的 数目 ， 从 左 至 右 ， 阶 依次 升 高 。 上 面 给 出 的 
信息 取 自 4 GiB 物 理 内 存 的 AMD64 系 统 。 


3.5.2 ”避免 碎片 


在 第 1 章 给 出 的 简化 说 明 中 ， 一 个 双 链 表 即 可 满足 伙伴 系统 的 所 有 需求 。 在 内 核 版 本 2.6.23 之 前 ， 
的 确 是 这 样 。 但 在 内 核 2.6.24 开 发 期 间 ， 内 核 开 发 者 对 伙伴 系统 的 争论 持续 了 相当 长 时 间 。 这 是 因为 
伙伴 系统 是 内 核 最 值得 尊敬 的 一 部 分 ， 对 它 的 改动 不 会 被 大 家 轻易 接受 。 

1. 依据 可 移动 性 组 织 页 


伙伴 系统 的 基本 原理 已 经 在 第 1 章 中 讨论 过 ， 其 方案 在 最 近 几 年 间 确 实 工 作 得 非常 好 。 但 在 Linux 
内 存 管理 方面 ， 有 一 个 长 期 存在 的 问题 : 在 系统 启动 并 长 期 运行 后 ， 物 理 内 存 会 产生 很 多 碎片 。 该 情 
形 如 图 3-24 所 示 。 

因 了 人 了 网 隔 了 殉 台 | 
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图 3-24 ”物理 内 存 的 碎片 


假定 内 存 由 60 页 组 成 ， 这 显然 不 是 超级 计算 机 ， 但 用 于 示例 却 足够 了 。 左 侧 的 地 址 空间 中 散布 着 
空 亲 页。 尽管 大 约 25% 的 物理 内 存 仍然 未 分 配 ， 但 最 大 的 连续 空闲 区 只 有 一 页 。 这 对 用 户 空间 应 用 程 
序 没有 问题 : 其 内 存 是 通过 页 表 映 射 的 ， 无 论 空 闲 页 在 物理 内 存 中 的 分 布 如 何 ， 应 用 程序 看 到 的 内 存 
似乎 总 是 连续 的 。 右 图 给 出 的 情形 中 ， 和 空闲 页 和 使 用 页 的 数目 与 左 图 相同 ， 但 所 有 空闲 页 都 位 于 一 个 
连续 区 中 。 
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但 对 内 核 来 说 ,碎片 是 一 个 问题 。 由 于 (大 多 数 ) 物理 内 存 一 致 映射 到 地 址 空间 的 内 核 部 分 ， 那 
么 在 左 图 的 场景 中 ， 无 法 映射 比 一 页 更 大 的 内 存 区 。 尽 管 许多 时 候 内 核 都 分 配 的 是 比较 小 的 内 存 ， 但 
也 有 时 候 需 要 分 配 多 于 一 页 的 内 存 。 显 而 易 见 ， 在 分 配 较 大 内 存 的 情况 下 ， 右 图 中 所 有 已 分 配 页 和 空 
闲 页 都 处 于 连续 内 存 区 的 情形 ， 是 更 为 可 取 的 。 

很 有 趣 的 一 点 是 ， 在 大 部 分 内 存 仍然 未 分 配 时 ， 就 也 可 能 发 生 雄 片 问题 。 考 虑 图 3-25 的 情形 。 只 
分 配 了 4 页 ， 但 可 分 配 的 最 大 连续 区 只 有 8 页 ， 因 为 伙伴 系统 所 能 工作 的 分 配 范围 只 能 是 2 的 寡 次 。 


男 男 男 国 国 图画 男 国 国 苞 国画 儿 贺 男 男 男 必 画 画册 




































































































































































我 提 到 内 存 碎片 只 涉及 内 核 , 这 只 是 部 分 正确 的 。 大 多 数 现 代 CPU 都 提供 了 使 用 巨型 页 的 可 能 性 ， 
比 普通 页 大 得 多 。 这 对 内 存 使 用 密集 的 应 用 程序 有 好 处 。 在 使 用 更 大 的 页 时 ， 地 址 转换 后 备 缓冲 器 只 
需 处 理 较 少 的 项 ， 降 低 了 TLB 绥 存 失效 的 可 能 性 。 但 分 配 巨 型 页 需要 连续 的 空闲 物理 内 存 ! 

很 长 时 间 以 来 ， 物 理 内 存 的 碎片 确实 是 Linux 的 弱点 之 一 。 尽 管 已 经 提出 了 许多 方法 ， 但 没有 哪 
个 方法 能 够 既 满足 Linux 需 要 处 理 的 各 种 类 型 工作 负 蓓 提出 的 苛刻 需求 ， 同 时 又 对 其 他 事务 影响 不 大 。 
在 内 核 2.6.24 开 发 期 间 ， 防 正 碎 片 的 方法 最 终 加 入 内 核 。 在 我 讨论 具体 策略 之 前 ， 有 一 点 需要 澄清 。 
文件 系统 也 有 雁 片 ， 该 领域 的 碎片 问题 主要 通过 雁 片 合并 工具 解决 。 它 们 分 析 文 件 系统 ， 重 新 排序 已 
分 配 存储 块 ， 从 而 建立 较 大 的 连续 存储 区 。 理 论 上 ， 该 方法 对 物理 内 存 也 是 可 能 的 ， 但 由 于 许多 物理 
内 存 页 不 能 移动 到 任意 位 置 , 阻碍 了 该 方法 的 实施 。 因 此 , 内核 的 方法 是 0 DD 《anti-fragmentation ) ， 
即 试图 从 最 初 开 始 尽 可 能 防止 碎片 。 

反 碎 片 的 工作 原理 如 何 ? 为 理解 该 方法 , 我 们 必须 知道 内 核 将 已 分 配 页 划分 为 下 面 3 种 不 同类 型 。 
DO0O0000: 在 内 存 中 有 固定 位 置 ， 不 能 移动 到 其 他 地 方 。 核 心 内 核 分 配 的 大 多 数 内 存 属于 
该 类 别 。 
DO0O00D0: 不 能 直接 移动 ， 但 可 以 删除 ， 其 内 容 可 以 从 某 些 源 重 新 生成 。 例 如 ， 了 映射 自 文件 
的 数据 属于 该 类 别 。 
kswapa 守 护 进 程 会 根据 可 回收 页 访问 的 频繁 程度 ， 周 期 性 释放 此 类 内 存 。 这 是 一 个 复杂 的 过 
程 ， 本 身 就 需要 详细 论述 : 第 18 章 详细 描述 了 页 面 回收 。 目 前 ， 了 解 到 内 核 会 在 可 回收 页 占 
据 了 太 多 内 存 时 进行 回收 ， 就 足够 了 。 
另外 ， 在 内 存 短缺 〈《 即 分 配 失败 ) 时 也 可 以 发 起 页 和 
具体 的 信息 请 参考 下 文 。 

DO000D0 可 以 随意 地 移动 。 属 于 用 户 空间 应 用 程序 的 页 属于 该 类 别 。 它 们 是 通过 页 表 映 射 的 。 

如 果 它 们 复制 到 新 位 置 ， 页 表 项 可 以 相应 地 更 新 ， 应 用 程序 不 会 注意 到 任何 事 。 

页 的 0D 口 口 口 ， 依 赖 该 页 属于 3 种 类 别 的 哪 一 种 。 内 核 使 用 的 反 碎 片 技 术 ， 即 基于 将 具有 相同 可 
移动 性 的 页 分 组 的 思想 。 为 什么 这 种 方法 有 助 于 减少 碎片 ? 回想 图 3-25 中 ， 由 于 页 无 法 移动 ， 导 致 在 
原本 几乎 全 空 的 内 存 区 中 无 法 进行 连续 分 配 。 根 据 页 的 可 移动 性 ， 将 其 分 配 到 不 同 的 列表 中 ， 即 可 防 
止 这 种 情形 。 例 如 ， 不 可 移动 的 页 不 能 位 于 可 移动 内 存 区 的 中 间 ， 否 则 就 无 法 从 该 内 存 区 分 配 较 大 的 
连续 内 存 块 。 
想 一 下 ， 图 3-25 中 大 多 数 空闲 页 都 属于 可 回收 的 类 别 ， 而 分 配 的 页 则 是 不 可 移动 的 。 如 果 这 些 页 
聚集 到 两 个 不 同 的 列表 中 ， 如 图 3-26 所 示 。 在 不 可 移动 页 中 仍然 难以 找到 较 大 的 连续 空闲 空间 ， 但 对 
可 回收 的 页 ， 就 容易 多 了 。 














































































































































































































































































































































































































































































































































































































Ea 


收 。 有 关内 核发 起 页 面 回收 的 时 机 ， 更 
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可 回收 页 [LLITTTTITTTITTITTTT] 

















不 可 移动 页 [名 V7 阿 工 阿 工 | 
图 3-26 ”根据 页 的 可 移动 性 将 其 分 组 ， 减 少 了 内 存 碎片 


但 要 注意 ， 从 最 初 开始 ， 内 存 并 未 划分 为 可 移动 性 不 同 的 区 。 这 些 是 在 运行 时 形成 的 。 内 核 的 另 
一 种 方法 0 0 将 内 存 分 区 ， 分 别 用 于 可 移动 页 和 不 可 移动 页 的 分 配 ， 我 会 下 文 讨 论 其 工作 原理 。 但 这 
种 划分 对 这 里 描述 的 方法 是 不 必要 的 。 

© 00 
尽管 内 核 使 用 的 反 雄 片 技术 卓有成效 ， 它 对 伙伴 分 配器 的 代码 和 数 扩 
义 了 一 些 宏 来 表示 不 同 的 迁移 类 型 : 

<mmzone.h> 

#define MIGRATE UNMOVABLE 

#define MIGRATE 

#define MIGRATE MOVABLE 2 

#define MIGRATE 


#define MIGRATE_ISOLATE 
#define MIGRATE_TYPES 5 
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者 构 几乎 没有 影响 。 内 核定 


HH 
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村 OO 




















3 
4 /* 不 能 从 这 里 分 配 */ 






































类 型 MIGRATE_UNMOVABLE、MIGRATE_RECLATIMABLE 和 MIGRATE_MOVABLE 已 经 介绍 过 。 如 果 向 具 
有 特定 可 移动 性 的 列表 请 求 分 配 内 存 失败 ， 这 种 紧急 情况 下 可 从 MIGRATE_RESERVE 分 配 内 存 ( 对 应 的 
列表 在 内 存 子 系统 初始 化 期 间 用 setup_zone_migrate_reserve 填 充 , 我 不 会 详细 讨论 相关 的 细节 )。 
MIGRATE_ISOLATE 是 一 个 特殊 的 虚拟 区 域 ， 用 于 跨越 NUMA 结 点 移动 物理 内 存 页 。 在 大 型 系统 上 ， 它 
有 益 于 将 物理 内 存 页 移动 到 接近 于 使 用 该 页 最 频繁 的 CPU。MIGRATE_TYPES 只 是 表示 迁移 类 型 的 数 
目 ， 也 不 代表 具体 的 区 域 。 

对 伙伴 系统 数据 结构 的 主要 调整 ， 是 将 空闲 列表 分 解 为 MIGRATE_TYPE 个 列表 : 


<mmzone.h> 

struct free area { 
struct list head free list[MIGRATE TYPES]; 
unsigned long nr_free; 





































































































































































































}3 

nr_free 统 计 了 DD 列表 上 空间 页 的 数目 ， 而 每 种 迁移 类 型 都 对 应 于 一 个 空 闪 列表 。 宏 
for_each migratetype_order (order，type) 可 用 于 迭代 指定 迁移 类 型 的 所 有 分 配 阶 。 

如 果 内 核 无 法 满足 针对 某 一 给 定 迁 移 类 型 的 分 配 请 求 , 会 怎么 样 ? 此 前 已 经 出 现 过 一 个 类 似 的 问 
题 ， 即 特定 的 NUMA 内 存 域 无 法 满足 分 配 请 求 时 。 内 核 在 这 种 情况 下 的 做 法 是 类 似 的 ， 提 供 了 一 个 备 
用 列表 ， 规 定 了 在 指定 列表 中 无 法 满足 分 配 请 求 时 ， 接 下 来 应 使 用 哪 一 种 迁移 类 型 ; 


mm/page_alloc.c 
* 





































































































































































































* 该 数组 描述 了 指定 迁移 类 型 的 空闲 列表 耗 尽 时 ， 其 他 空闲 列表 在 备用 列表 中 的 次 序 。 

4 

static int fallbacks [MIGRATE TYPES] [MIGRATE TYPES-1] = { 
[MIGRATE UNMOVABLE] = { MIGRATE RECLAIMABLE, MIGRATE MOVABLE, MIGRATE RESERVE }, 
[MIGRATE RECLAIMABLE] = { MIGRATE UNMOVABLE, MIGRATE MOVABLE, MIGRATE RESERVE }, 
[MIGRATE MOVABLE] = { MIGRATE RECLAIMABLE, MIGRATE UNMOVABLE, MIGRATE RESERVE }, 
[MIGRATE RESERVE] = { MIGRATE RESERVE, MIGRATE RESERVE, MIGRATE RESERVE }, 

/* 从 来 不 用 */ 
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该 数据 结构 大 体 上 是 自明 的 : 在 内 核 想 要 分 配 不 可 移动 页 时 ， 如 果 对 应 链表 为 空 ， 则 后 退 到 可 
收 页 链表 ， 接 下 来 到 可 移动 页 链表 ， 最 后 到 紧急 分 配 链表 。 

eUU0000000 

尽管 页 可 移动 性 分 组 特性 总 是 编译 到 内 核 中 , 但 只 有 在 系统 中 有 足够 内 存 可 以 分 配 到 多 个 迁移 类 
型 对 应 的 链表 时 , 才 是 有 意义 的 。 由 于 每 个 迁移 链表 都 应 该 有 适当 数量 的 内 存 ， 内 核 需 要 定义 “适当 ” 
的 概念 。 这 是 通过 两 个 全 局 变量 pageblock_order 和 pageblock_nr_pages 提 供 的 。 第 一 个 表示 内 核 
认为 是 “大 ”的 一 个 分 配 阶 ，pagebl Galk _nr_pages 则 表示 该 分 配 阶 对 应 的 页 数 。 如 果 体 系 结构 提供 
了 巨型 页 机 制 ， 则 pageblock_order 通 常 定义 为 巨型 页 对 应 的 分 配 阶 : 


<pageblock-flags.h> 
#define pageblock order HUGETLB_ PAGE _ ORDER 


在 IA-32 体 系 结构 上 ， 巨 型 页 长 度 是 4 MiB， 因 此 每 个 巨型 页 由 1 024 个 普通 页 组 成 ， 而 HUGETLB 
PAGE_ORDER 则 定义 为 10。 相 比 之 下 ，IA-64 体 系 结构 允许 设置 可 变 的 普通 和 巨型 页 长 度 ， 因 此 
HUGETLB_PAGE_ORDER 的 值 取决 于 内 核 配 置 。 

如 果 体 系 结构 不 支持 巨型 页 ， 则 将 其 定义 为 第 二 高 的 分 配 阶 : 


<pageblock-flags.h> 
#define pageblock order (MAX ORDER-1) 


如 果 各 迁移 类 型 的 链表 中 没有 一 块 较 大 的 连续 内 存 ， 那 么 页 面 迁移 不 会 提供 任何 好 处 ， 因 此 在 可 
用 内 存 太 少时 内 核 会 关闭 该 特性 。 这 是 在 builq_all_zonelists 函 数 中 检查 的 ， 该 函数 用 于 初始 
化 内 存 域 列表 。 如 果 没 有 足够 的 内 存 可 用 ， 则 全 局 变量 page_group_by _ mobility 设置 为 0， 和 否则 设置 
为 1。 名 

内 核 如 何 知 道 给 定 的 分 配 内 存 属于 何 种 迁移 类 型 ? 读者 在 3.5.4 节 会 看 到 , 有 关 各 个 内 存 分 配 的 细 
节 都 通过 0 DOD 指定 。 内 核 提 供 了 两 个 标志 ， 分 别 用 于 表示 分 配 的 内 存 是 可 移动 的 (_GFP_ 
MOVABLE) 或 可 回收 的 〈__GFP_RECLAIMABLE) 。 如 果 这 些 标 志 都 没有 设置 ， 则 分 配 的 内 存 假定 为 不 
可 移动 的 。 下 列 汪 助 函数 可 用 于 转换 分 配 标志 及 对 应 的 迁移 类 型 


<gfp.h> 
static inline int allocflags_to migratetype(gfp_t gfp_flags) 
t 


回 

























































































































































































































































































































































































if (unlikely (page_group_by_mobility_ disabled)) 
return MIGRATE UNMOVABLE; 
/* 根据 可 移动 性 分 组 */ 
return (((gfp_flags & _ GFP_ MOVABLE) != 0) << 1) | 
((gfp_flags & _ GFP_ RECLAIMABLE) != 0); 
} 
如 果 停 用 了 页 面 迁 移 特 性 ， 则 所 有 的 页 都 是 不 可 移动 的 。 否则， 该 函数 的 返回 值 可 以 直接 用 作 
free_area.free_list 的 数组 索引 。 
最 后 要 注意 ， 每 个 内 存 域 都 提供 了 一 个 特殊 的 字段 ， 可 以 跟踪 包含 pageblock_nr_pages 个 页 的 
内 存 区 的 属性 。 由 于 该 字段 当前 只 有 与 页 可 移动 性 相关 的 代码 使 用 ， 我 在 此 前 没有 介绍 该 特性 : 
<mmzone.h> 
struct zone { 








































































































unsigned long *pageblock flags; 














G 要 注意 , 不仅 内 存 很 少 的 系统 会 受到 影响 ， 而 且 页 尺寸 极 大 的 系统 也 会 受 影 响 ， 因 为 实际 检查 的 是 链表 中 页 的 数目 。 
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分 配 了 足够 存储 NR_PAGEI 
个 比特 位 : 





工 











<pageblock-flags.h> 
/* 用 于 帮助 定义 比特 位 范围 
#define PB_ range (name, 

name, name # 


























dd 














/* 影响 一 整 块 内 存 的 比特 
enum pageblock bits { 


PB_range (PB migrate, 











的 宏 */ 


required bits) \ 


end = 


位 索引 */ 


3) ， 


NR_PAGEBLOCK_BITS 


于 


mm/page_alloc.c 





/* 


set_pageblock_migratetype 负 责 设 置 以 page 为 首 


需要 3 个 上 























void set_pageblock migratetype(struct page *page, 


De 














migratetype 参 数 可 以 








在 释放 内 存 时 ， 页 必须 返回 到 正确 的 迁移 链表 。 这 之 所 以 可 行 ， 是 


migratetype 获 得 所 需 的 信息 。 


~、 


疏 
4 





最 后 请 注意 ， 





wolfgang@meitner> cat /proc/pagetypeinfo 


Page block order: 9 


























(name + required bits) 


的 一 个 内 存 





下 


特 位 表示 迁移 类 型 */ 


x 





区 的 迁移 类 型 : 


int migratetype) 


通过 上 文 介绍 的 allocflags_to_migratetype 辅 助 








重要 的 一 点 , 页 的 迁移 类 型 是 预先 分 配 好 的 , 对 应 的 比特 位 总 是 可 用 ， 


在 初始 化 期 间 ， 内 核 自 动 确保 对 内 存 域 中 的 每 个 不 同 的 迁移 类 型 分 组 , 在 pageblock_flags 中 都 
BLOCK_BITS 个 比特 位 的 空间 。 当 前 ， 表 示 一 个 连续 内 存 








区 的 迁移 类 型 需要 3 





意 很 


。 请 注 




















与 页 是 否 

















因为 和 























1 伙伴 系统 管理 无 关 。 
能 够 从 get_pageblock_ 











在 各 个 迁移 链表 之 间 ， 当 前 的 页 面 分 配 状态 可 以 从 /proc/pagetypeinfo 获 得 : 


Pages per block: 512 

Free pages count per migrate type at order 人 二 2 3 进 号 6 了 了 910 
Node 0, zone DMA, type Unmovable 0 0 1 1 1 1 1 111 0 
Node 0, zone DMA, type Reclaimable 0 0 0 0 0 0 
Node 0, zone DMA, type Movable 3 5 6 3 与 2 2 30D0 0 
Node 0, zone DMA, type Reserve 0 0 0 OO 0 00 0 1 
Node 0, zone DMA, type <NULL> 0 0 0 WW 0 
Node 0, zone DMA32, type Unmovable 44 37 29 二 这 -性 和 汪汪 了 0 
Node 0, zone DMA32, type Reclaimable 18 29 3 4 1 0 0 011 0 
Node 0, zone DMA32, type Movable 0 0 191 111 68 26 21 13 7 1 500 
Node 0, zone DMA32, type Reserve 0 0 0 人 2 
Node 0, zone DMA32, type <NULL> 0 0 0 A 0 
Node 0, zone Normal, type Unmovable 1 5 J. | 0 
Node 0, zone Normal, type Reclaimable 0 0 0 | 和 0 
Node 0, zone Normal, type Movable 1 4 0 和 0 
Node 0, zone Normal, type Reserve 11 13 2 8 3 进 2 000 0 
Node 0, zone Normal, type <NULL> 0 0 0 本 0 
Number of blocks type Unmovable Reclaimable Movable Reserve <NULL> 
Node 0, zone DMA 1 0 6 1 0 
Node 0, zone DMA32 13 18 2005 4 0 
Node 0, zone Normal 22 10 5 和 I 0 
en0U0000000000D0 

在 内 存 子 系统 初始 化 期 间 ，memmap_init_zone 负 责 处 理 内 存 域 的 page 实 例 。 该 函数 完成 了 一 些 
么 有 趣 的 标准 初始 化 工作 ， 但 其 中 有 一 件 是 实质 性 的 ， 即 所 有 的 页 最 初 都 标记 为 可 移动 的 ! 
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mm/page_alloc.c 


void _ meminit memmap_init zone(unsigned long size, 


unsigned long start_pfn, 


{ 


enum memmap_context context) 


struct page *page; 
unsigned long end pfn = start pfn + size; 
unsigned long pfn; 


for 


} 


按 3.5.4 节 中 的 讨论 ， 寿 
F“ 盗 取 ” 更 大 的 内 存 





略 上 倾向 卫 
区 时 





实 





区 ， 
存 


卜 


存 
动 








吕 


























布 到 物理 
要 的 目标 之 一 。 





(pfn = start_pfn; pfn < end pfn; pfn++) 


主 王 人 (班主 这 


& 


(pageblock_ nr pages-1))) 
set_pageblock migratetype (page, 














Xl 



































则 必须 “ 盗 取 ”。 





天 际 上 ， 在 启动 期 间 分 配 可 移动 内 存 














区 


E 分 配 内 存 时 ， 如 果 必 须 “ 盗 取 ” 不 同 于 预定 迁移 类 型 的 内 存 
于 所 有 页 最 初 都 是 可 移动 





的 








并 将 其 从 可 移动 列表 转换 到 不 可 移动 列表 。 
FP 引入 碎片 。 
而 言 之 ， 这 种 做 法 避免 了 启动 基 




















内 存 各 处 ， 从 而 使 其 他 类 


2. 虚拟 可 移动 内 存 域 




































































1 于 分 配 的 内 存 





有 间 内 核 分 配 的 内 存 经 常 在 系统 的 整个 运行 时 间 都 不 释放 ) 
型 的 内 存 分 配 免 受 碎片 的 干扰 ， 这 也 是 页 可 移动 性 分 组 框架 的 最 





{ 


int nid, unsigned long zone, 


E_MOVABLE 








MIGRATI 


区 ， 内 核 在 策 





， 那 么 在 内 核 分 配 不 可 移动 的 内 存 











的 情况 较 少 ,那么 分 配器 有 很 高 的 几率 分 配 长 度 最 大 的 内 
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此 不 会 向 可 移 





区 长 度 是 最 大 的 ， 
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EE 






























































































































































依据 可 移动 性 组 织 页 是 防止 物理 内 存 碎 片 的 一 种 可 能 方法 , 内 核 还 提供 了 男 一 种 阻止 该 问题 的 手 
段 : 虚拟 内 存 域 zONE_MOVABLE。 该 机 制 在 内 核 2.6.23 开 发 期 间 已 经 并 入 内 核 ， 比 可 移动 性 分 组 框架 加 
入 内 核 早 一 个 版 本 。 与 可 移动 性 分 组 相反 ，zoONE_MOVABLE 特 性 必须 由 管理 员 显 式 激活 。 

基本 思想 很 简单 : 可 用 的 物理 内 存 划 分 为 两 个 内 存 域 ， 一 个 用 于 可 移动 分 配 ， 一 个 用 于 不 可 移动 
分 配 。 这 会 自动 防止 不 可 移动 页 向 可 移动 内 存 域 引入 碎片 。 

这 马上 引出 了 另 一 个 问题 : 内 核 如 何在 两 个 竞争 的 内 存 域 之 间 分 配 可 用 的 内 存 ? 这 显然 对 内 核 要 





求 太 高 ， 











因此 系统 管 














类 型 内 存 分 配 的 预期 分 布 。 
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kernelcore 参 数 用 来 指定 用 于 不 可 移动 分 配 的 内 存 数 


内 存 用 于 可 移动 分 配 。 在 分 析 该 参数 之 后 ， 结 果 保 存在 全 


数量 。 剩 余 的 
中 。 

还 可 以 使 
小 将 会 据 此 计 
kernelcore 的 


取决 于 体系 
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<mmzone.h> 
enum zone type { 





参数 movablecore 控 


算 。 如 果 有 些 聪明 人 








理 员 必须 作出 决定 。 毕 竞 ， 人 可 








以 中 


更 好 地 预测 计算 机 需要 处 型 





























E 的 场景 ， 以 及 各 种 








里 ， 


即 




















避 
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时 指定 天 





值 ， 并 取 指 定 值 和 计算 人 





构 和 内 核 配置 ， 
































2O0NE_MOVAI 








ZONE_NORMAL 


#ifdef CONFIG HIGHM 





EM 


ZONE_HIGHMEM， 


于 可 移动 内 存 分 配 


中 较 大 的 一 
La 内 存 域 可 能 位 于 高 端 或 普通 内 存 域 ， 





个 参数 ， 内 核 
个 。 








必 于 既 不 能 回 








收 也 不 能 迁移 的 内 存 





的 内 存 数量 








局 变量 required_kernelcore 


是。required_kernelcore 的 大 
会 按 前 述 方法 计算 4 








required_ 
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#endif 
ZONE_MOVABLE, 
MAX_ NR_ZONES 
}3 
与 系统 中 所 有 其 他 的 内 存 域 相反 ，zONE_MOVABLE 并 不 关联 到 任何 硬件 上 有 意义 的 内 存 范围 。 实 
际 上 ， 该 内 存 域 中 的 内 存 取 自 高 端 内 存 域 或 普通 内 存 域 ， 因 此 我 们 在 下 文中 称 ZONE_MOVABLE 是 一 个 
虚拟 内 存 域 。 
辅助 函数 fingd_zone_movable_pfns_for_nodes 用 于 计算 进入 ZzONE_MOVABLE 的 内 存 数量 。 如 果 
kernelcore 和 movablecore 参 数 都 没有 指定 ，finq_zone_movable_pfns_for_nodqes 会 使 ZONE 
MOVABLE 保 持 为 宝 ， 该 机 制 处 于 无 效 状 态 。 
谈 到 从 物理 内 存 域 提取 多 少 内 存 用 于 zoNE_MovaBLE 的 问题 ， 必 须 考虑 下 面 两 种 情况 。 
口 用 于 不 可 移动 分 配 的 内 存 会 平均 地 分 布 到 所 有 内 存 结 点 上 。 
口 只 使 用 来 自 最 高 内 存 域 的 内 存 。 在 内 存 较 多 的 32 位 系统 上 ， 这 通常 会 是 ZONE_HIGHMEM， 但 是 
对 于 64 位 系统 ， 将 使 用 ZONE_NORMAL 或 ZONE_DMA32。 
实际 计算 相当 见长 ， 也 不 怎么 有 趣 ， 因 此 我 不 详细 讨论 了 。 实 际 上 起 作用 的 是 结果 : 
口 用 于 为 虚拟 内 存 域 2ONE_MOVABLE 提 取 内 存 页 的 物理 内 存 域 ， 保 存在 全 局 变量 movable_zone 
中 ; 
口 对 每 个 结 点 来 说 ，zone_movable_pfn[node_id] 表 示 ZONE_MOVABLE 在 movable_zone 内 存 域 
中 所 取得 内 存 的 起 始 地 址 。 


mm/page_alloc.c 
unsigned long _ meminitdata zone_ movable pfn{[MAX NUMNODES]; 


内 核 确 保 这 些 页 将 用 于 满足 符合 ZONE_MOVABLE 职 责 的 内 存 分 配 。 

eUD0 

到 现在 为 止 描述 的 数据 结构 如 何 应 用 ?类似 于 页 面 迁 移 方法 , 分 配 标志 在 此 扮演 了 关键 角色 。 具 
体 的 实现 将 在 3.5.4 节 更 详细 地 讨论 。 目 前 只 要 知道 所 有 可 移动 分 配 都 必须 指定 _GFP_HIGHMEM 和 
__GFP_MOVABLE 即 可 。 
于 内 核 依据 分 配 标志 确定 进行 内 存 分 配 的 内 存 域 ， 在 设置 了 上 述 的 标志 时 ， 可 以 选择 
ZONE_MOVABLE 内 存 域 。 这 是 将 ZONE_MOVABLE 集 成 到 伙伴 系统 中 所 需 的 唯一 改变 ! 其 余 的 可 以 通过 适 
用 于 所 有 内 存 域 的 通用 例 程 处 理 ， 我 们 将 在 下 文 讨论 。 


3.5.3 ”初始 化 内 存 域 和 结 点 数据 结构 


直到 现在 ， 我 们 只 在 特定 于 体系 结构 的 代码 中 看 到 了 内 核 如 何 检测 系统 中 的 可 用 内 存 。 与 高 层 数 
据 结构 〈 如 内 存 域 和 结 点 ) 的 关联 ， 则 需要 根据 该 信息 构建 。 我 们 知道 ， 体 系 结构 相关 代码 需要 在 启 
动 期 间 建立 以 下 信息 : 
口 系统 中 各 个 内 存 域 的 页 帧 边界 ， 保 存在 max_zone_pfn 数 组 ; 
口 各 结 点 页 帧 的 分 配 情况 ， 保 存在 全 局 变量 early_noqe_map 中 。 

1. 管理 数据 结构 的 创建 

从 内 核 版 本 2.6.10 开 始 提 供 了 一 个 通用 框架 ， 用 于 将 上 述 信 息 转换 为 伙伴 系统 预期 的 结 点 和 内 存 
域 数据 结构 。 在 这 以 前 ， 各 个 体系 结构 必须 自行 建立 相关 结构 。 现 在 ， 体 系 结构 相关 代码 只 需要 建立 
前 述 的 简单 结构 , 将 繁重 的 工作 留 给 free_area_init_nodes 即 可 。 图 3-27 给 出 了 该 过 程 概述 ， 图 3-28 
给 出 了 free_area_init_nodes 的 代码 流程 图 。 
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zone_pfns) 








结 点 和 内 存 域 的 通用 表示 








free_area_ init nodes 


图 3-27 ”在 建立 结 点 和 内 存 域内 存 管理 数据 结构 时 ， 特 定 于 体系 结构 的 代码 和 通用 内 核 
代码 之 间 的 相关 作用 


free area init nodes 


确定 内 存 域 
边界 


free_area_init node 


calculate node_ totalpages 
alloc_node mem map 


free area init_ core 


check for regular memory 


图 3-28 ”free_area_init_nodes 的 代码 流程 图 



















































遍历 所 有 结 点 




















free_area_init_nodes 首 先 必须 分 析 并 改写 特定 于 体系 结构 的 代码 提供 的 信息 。 其 中 ， 需 要 对 
照 在 zone_max_pfn 和 zone_min_ pfn 中 指定 的 内 存 域 的 边界 ， 计 算 各 个 内 存 域 0DDDD 最 低 和 最 高 的 






































页 帧 编号 。 使 用 了 两 个 全 局 数组 来 存储 这 些 信 息 : 


mm/page_alloc.c 


static unsigned long _ meminitdata arch zone_ lowest_ possible pfn[MAX NR ZONES]; 


本 


static unsigned long _ meminitdata arch zone highest possible pfn[MAX NR ZONES]; 


但 free_area_init_nodqes 首 先 会 根据 结 点 的 第 一 个 页 帧 start_pfn, 对 early_node_map 中 的 各 


























项 进行 排序 。 


mm/page_alloc.c 
void init free area init nodes(unsigned long *max_ zone_ pfn) 
{ 

unsigned long nid; 

enum zone type i; 











六 














/* 对 early_node_map 进 行 排序 ， 因 为 初始 化 代码 假定 它 已 经 是 排序 的 */ 


sort_node map (); 








排序 使 得 后 续 的 任务 稍微 容易 些 ， 排 序 本 身 并 不 特别 复杂 ， 因 此 无 需 进一步 查看 sort_node_map 











的 代码 。 只 是 要 注意 ， 内 核 在 lip/sort.c 中 提供 了 一 个 通用 的 堆 排 序 实现 ， 该 函数 采用 了 这 个 





实现 。 
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通过 max_zone_pfn 传 递 给 free_area_init_nodqes 的 信息 记录 了 各 个 内 存 域 包含 的 最 大 页 帧 号 。 
free_area_init_nodes 将 该 信息 转换 为 一 种 更 方便 的 表示 形式 ， 即 以 [low, high] 形式 描述 各 个 内 
存 域 的 页 帧 区 间 ， 存 储 在 前 述 的 全 局 变量 中 我 省 去 了 对 这 些 变量 填充 字 节 0 的 初始 化 过 程 〉: 


mm/page_alloc.c 
arch zone lowest possible pfn[0] = find min pfn with active regions(); 
arch zone highest possible pfn[0] = max zone pfn[0]; 



































for (i = 1; i < MAX NR_ ZONES; i++) { 
if (i == ZONE_ MOVABLE) 
continue; 
arch zone lowest possible pfn[i] = 
arch zone highest possible pfn[i-1]; 
arch zone highest possible pfn[i] = 
max(max_ zone pfn[i], arch zone lowest possible pfn[i]); 











} 
辅助 函数 find_min_pfn_with_active_regions 用 于 找到 注册 的 最 低 内 存 域 中 可 用 的 编号 最 小 
的 页 帧 。 该 内 存 域 不 必 一 定 是 zoNE_DMA， 例 如 ， 在 计算 机 不 需要 DMA 内 存 的 情况 下 也 可 以 是 
ZONE_NORMAL 。 最 低 内 存 域 的 最 大 页 帧 号 可 以 从 max_zone_pfn 提 供 的 信息 直接 获得 。 
接 下 来 构建 其 他 内 存 域 的 页 帧 区 间 ， 方 法 很 直接 : 第 n 个 内 存 域 的 0D D 页 帧 ， 即 前 一 个 《第 z-1 
个 ) 内 存 域 的 口 页 帧 。 当 前 内 存 域 的 最 大 页 帧 由 max_zone_pfn 给 出 。 


mm/page_alloc.c 
arch zone lowest _ possible pfn[ZONE MOVABLE] = 0; 
arch zone highest possible pfn[ZONE MOVABLE] = 0; 


/* 找到 ZONE_MOVABLE 在 各 个 结 点 的 起 始 页 帧 编号 */ 






















































































find zone movable pfns_for nodes (zone movable pfn); 
于 ZONE_MOVABLE 是 一 个 虚拟 内 存 域 ， 不 与 真正 的 人 硬件 内 存 域 关联 ， 该 内 存 域 的 边界 总 是 设置 
为 0。 回 忆 前 文 ， 可 知 只 有 在 指定 了 内 核 命令 行 参 数 kernelcore 或 movablecore 之 一 时 ， 该 内 存 域 才 
会 存在 。 该 内 存 域 一 般 开 始 于 各 个 结 点 的 某 个 特定 内 存 域 的 某 一 页 帧 号 。 相 应 的 编号 在 findq_zone_- 
movable_pfns_for_nodes 里 计算 。 
现在 可 以 向 用 户 提供 一 些 有 关 已 确定 的 页 帧 区 间 的 信息 。 举 例 来 说 ， 其 中 可 能 包括 下 列 内 容 〈 输 
H 取 自 AMD64 系 统 ， 有 4 GiB 物 理 内 存 ): 


root@meitner # dmesg 
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ms 


Zone PFN ranges: 


DMA 0 0 -> 4096 
DMA32 4096 -> 1048576 


Normal 1048576 -> 1245184 








free_area_init_nodqes 剩 余 的 部 分 壳 历 所 有 结 点 ， 分 别 建立 其 数据 结构 。 


mm/page_alloc.c 
/* 输出 有 关内 存 域 的 信息 */ 


/* 初始 化 各 个 结 点 */ 
for_each online node(nid) { 
pg_data _t *pgdat = NODE_DATA (nid); 
free area_ init node(nid, pgdat, NULL, 
find min pfn for node(nid), NULL); 


























170 030 0000 





/* 结 点 上 是 否 有 内 存 */ 

if (pgdat->node present pages) 
node_set_state(nid, N_HIGH MEMORY); 

check_for_regular _ memory (pgdat); 


} 

















代码 裔 历 所 有 活动 结 点 ,并 分 别 对 各 个 结 点 调用 free_area_init_node 建 立 数据 结构 。 该 函数 需 









































N_NORMAT，MEMORY 标 志 。 





2. 对 各 个 结 点 创建 数据 结构 


要 结 点 第 一 个 可 用 的 页 帧 作为 一 个 参数 ， 而 fing_min_pfn_for_node 则 从 early_node_map 数 组 提取 
该 信息 。 

如 果 根 据 node_present_pages 字 段 判断 结 点 具有 内 存 ， 则 在 结 点 位 图 中 设置 N_HIGH_MEMORY 标 
志 。 回想 一 下 3.2.2 闻 , 我们 知道 该 标志 只 表示 结 点 上 存在 普通 [] 高 端 内 存 , 因此 check_for_regular_ 
memory 进 一 步 检查 低 于 zoONE_HIGHMEM 的 内 存 域 中 是 否 有 内 存 ， 并 据 此 在 结 点 位 图 中 相应 地 设置 
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三 





































































































在 内 存 域 边界 已 经 确定 之 后 ，free_area_init_nodqes 分 别 对 各 个 内 存 域 调 用 free_area_ 
init_node 创 建 数据 结构 。 为 此 还 需要 几 个 辅助 函数 。 
calculate_node_totalpages 首 先 累 计 各 个 内 存 域 的 页 数 ， 计 算 结 点 中 页 的 总 数 。 对 连续 内 存 














模型 而 言 ， 这 可 以 通过 zones_size_init 完 成 ,但 calculate_zone_totalpages 还 考虑 了 内 存 域 
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wolfgang@meitner> dmesg 














的 空洞 。 在 系统 启动 时 , 会 输出 一 段 简 短 的 消息 , 指明 各 个 结 点 的 页 数 。 以 下 例子 取 自 一 个 UMA 系 统 ， 
具有 512 MiB 物 理 内 存 。 











On node 0 totalpages: 131056 
































alloc_node_mem_map 人 负责 初始 化 一 个 简单 但 非常 重要 的 数据 结构 。 如 上 所 述 ， 系 统 中 的 各 个 物 





而 寺 











mm/page_alloc.c 











里 内 存 页 ， 都 对 应 着 一 个 struct page 实 例 。 该 结构 的 初始 化 由 alloc_node_mem_map 执 行 。 


static void _ init refok alloc node mem map(struct pglist data *pgdat) 


/* 跳 过 空 结 点 */ 


if (!pgdat->node_ spanned pages) 


return; 


if (!pgdat->node mem map) { 
unsigned long size, start, end; 
struct page *map; 


start = pgdat->node_start_pfn & ~(MAX ORDER_ NR_ PAGES -1); 
end = pgdat->node_start_ pfn + pgdat->node_ spanned pages; 
end = ALIGN(end, MAX ORDER_ NR_ PAGES); 

size = (end -start) * sizeof (struct page); 


map = alloc remap (pgdat->node id, size); 


if (!map) 


map = alloc bootmem node(pgdat, size); 
pgdat->node mem map = map + (pgdat->node_start pfn -start); 


} 


if (pgdat == NODE_DATA(0)) 


mem_ map = 


NODE_DATA (0)->node_ mem map; 
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没有 页 的 空 结 点 显然 可 以 跳 过 。 如 果 特 定 于 体系 结构 的 代码 尚未 建立 内 存 映射 (这 是 可 能 的 , 例 
如 ， 在 IA-64 系 统 上 ) ， 则 必须 分 配 与 该 结 点 关联 的 所 有 struct page 实 例 所 需 的 内 存 。 各 个 体系 结构 
可 以 为 此 提供 一 个 特定 的 函数 。 但 目前 只 有 在 IA-32 系 统 上 使 用 不 连续 内 存 配 置 时 是 这 样 。 在 所 有 雪 
他 的 配置 上 ， 则 使 用 普通 的 自 举 内 存 分 配器 进行 分 配 。 请 注意 ， 代 码 将 内 存 映 射 对 齐 到 伙伴 系统 的 最 
大 分 配 阶 ， 因 为 要 使 所 有 的 计算 都 工作 正常 ， 这 是 必需 的 。 

指向 该 空间 的 指针 不 仅 保存 在 pglist_data 实 例 中 ， 还 保存 在 全 局 变量 mem_map 中 ， 前 提 是 当前 
考察 的 结 点 是 系统 的 第 0 个 结 点 〈 如 果 系 统 只 有 一 个 内 存 结 点 ， 则 总 是 这 样 ) 。mem_map 是 一 个 全 局 数 
组 ， 在 讲解 内 存 管理 时 ， 我 们 会 经 常 遇 到 。 


mm/memory.c 
struct page *mem map; 


初始 化 内 存 域 数据 结构 涉及 的 繁重 工作 由 free_area_init_core 执 行 , 它 会 依次 遍历 结 点 的 所 有 
内 存 域 。 


mm/page_alloc.c 
static void _ init free area init core(struct pglist data *pgdat, 
unsigned long *zones_size, unsigned long *zholes_ size) 













































































































































































































































































{ 
enum zone_type j; 
int nid = pgdat->node _ id; 
unsigned long zone_start pfn = pgdat->node start pfn; 


for (j = 0; j < MAX_ NR ZONES; j++) { 
struct zone *zone = pgdat->node zones + j; 
unsigned long size, realsize, memmap_pages; 


size = zone_ spanned pages_in node(nid, j, zones_ size); 
realsize = size -zone absent pages_in node(nid, j, 
zholes_size); 
































内 存 域 的 真实 长 度 ， 可 通过 跨越 的 页 数 减 去 空洞 禾 盖 的 页 数 而 得 到 。 这 两 个 值 是 通过 两 个 辅助 函 
数 计算 的 ， 我 不 会 更 详细 地 讨论 了 。 其 复杂 性 实质 上 取决 于 内 存 模型 和 所 选 定 的 配置 选项 ， 但 所 有 变 
体 最 终 都 没有 什么 意外 之 处 。 


mm/page_alloc.c 















































if (!is_ highmem idx(j)) 
nr_kernel pages += realsize; 
nr_all pages += realsize; 


Zone->spanned pages = size; 
Zone->present_pages = realsize; 
zone->name = zone names[j]; 


zone->zone_ pgdat = pgdat; 
/* 初始 化 内 存 域 字段 为 默认 值 ， 并 调用 辅助 函数 */ 

















内 核 使 用 两 个 全 局 变量 跟踪 系统 中 的 页 数 。nr_kernel_pages 统 计 所 有 一 致 映射 的 页 ， 而 
nr_all_pages 还 包括 高 端 内 存 页 在 内 。 
free_area_init_core 剩 余部 分 的 任务 是 初始 化 zone 结构 中 的 各 个 表 头 ， 并 将 各 个 结构 成 员 初 
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U30 0000 





始 化 为 0。 








还 可 以 





我 们 比较 感 兴趣 的 是 调用 的 两 个 加 
口 zone_pcp_init 初 始 化 该 内 存 域 的 per-CPU 缓 存 ， 
口 init_currently_empty_zone 初 始 

设置 为 初始 默认 值 
回想 前 文 提 到 
此 外 ， 空 闲 列 表 是 在 zone_init_free_listsH 





目 。 


o 














的 ， 





mm/page_alloc.c 
static void _ meminit zone init free lists(struct pglist data *pgdat, 


struct zone *zone, 


{ 


in 


for_each migratetype_order (order, 


} 
} 


t order, t; 


E 如 前 文 的 讨论 ， 调 








数 。 
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AS 


二 上 


在 下 一 节 





化 fre 














所 有 页 属 怕 











unsigned long size) 


t) 


e_area 列 表 ， 
明了 memmap_ini 
FE 起 初 都 设置 为 MIGRAT 
FP 初 始 化 的 : 


{ 





扣 
秆 




















E_MOVABLE 











广泛 讨论 。 
将 属于 该 内 存 域 的 所 有 page 实 例 都 
t_zone 来 初始 化 内 存 域 的 页 。 


我 们 


INIT_LIST HEAD(&zone->free areal[lorder].free list[t]); 
zone->free_ arealorder] .nr_free = 0; 





空闲 页 的 数 
器 、 普 通 的 伙 介 


3.5.4 


就 伙伴 系统 
所 有 函数 的 一 个 











bootmem 分 配器 那 村 
中 分 配 2 页。 内核 中 细 粒 度 
系统 〈 更 多 细节 在 3.6 节 给 
口 alloc_pages (mask，order) 分 配 2”“ 页 并 返回 一 个 struct page 的 实例 ， 表 示 分 配 的 内 存 块 
alloc_page (mask) 是 前 者 在 orger = 0 情况 下 的 简化 














分 配器 生效 ， 才 
分 配器 API 


的 起 始 页 。 
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壮 
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接 
同 点 是 : 
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~、 


会 设置 


而 言 ，NUMA 或 UMA 体 系 乡 
能 分 配 2 的 整数 寡 个 页 。 








正确 的 数值 。 


| 






































的 








出 )。 





分 配 


























因此 ， 接 


(nr_free) 当前 仍然 规定 为 0， 这 显然 没有 反映 真实 情况 。 直 














至 售 


用 bootmem 分 配 








吉 构 是 没有 差别 的 ， 二 者 的 调用 语法 都 是 相 


同 的 。 





口中 不 像 C 标 # 





指定 了 所 需 内 存 大 小 作为 参数 。 相 反 ， 必 须 指定 的 是 分 配 阶 
只 能 借助 于 slab 分 配器 (或 者 slub、slob 分 配器 )， 后 者 基 ] 





住 库 的 malloc 








函数 或 
， 伙 伴 系统 将 在 内 存 
于 伙伴 



































区 式 ， 只 分 配 页 。 







































































口 get_zeroed_page (mask) 分 配 一 页 并 返回 一 个 page 实 例 , 页 对 应 的 内 存 填充 0( 所 有 其 他 函数 ， 
分 配 之 后 页 的 内 容 是 未 定义 的 )。 
口 _get_free pages (mask，order) 和 ”get_free page (mask) 的 工作 方式 与 上 述 函 数 相同 ， 
但 返回 分 配 内 存 块 的 虚拟 地 址 ， 而 不 是 page 实 例 。 
口 get_dma_pages (gfp_mask，order) 用 来 获得 适用 于 DMA 的 页 。 
在 空闲 内 存 无 法 满足 请 求 以 至 于 分 配 失 败 的 情况 下 ， 所 有 上 述 函 数 都 返回 空 指针 〈alloc_pages 
和 alloc_page) 或 者 0 (get_zeroed page、 get_free pages 和 get_free page)。 因此 内 核 在 


DD 分 配 之 后 都 ， 


口 








必须 检查 返回 








核 














内 核 除 了 伙 





伙伴 分 配器 自身 。 
Ph， 使 之 看 上 去 是 连续 的 。 还 有 一 组 kmalloc 类 型 的 函数 ， 月 





间 
将 在 本 章 后 续 的 





华 系统 函数 之 外 





几 节 分 别 讨论 。 











有 4 个 函数 





] 于 释放 不 再 使 月 





的 结果 。 这 种 惯例 与 设计 得 很 好 的 用 户 


Ph 忽 略 检 查 会 导致 严重 得 多 的 故障 。 














层 应 有 

















， 还 提供 了 其 他 内 存 管 
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给 内 存 管 理 




















E 子 系统 。 内 存 区 的 起 始 地 址 








这 些 函 数 包括 vmalloc 和 vmalloc_32， 使 用 页 


里 函数 。 它 们 以 伙伴 系统 为 基 而 
将 不 连续 的 内 存 昌 
于 分 配 小 于 一 整 页 的 内 存 区 。 其 实现 


代 








目的 页 ， 与 所 述 函数 稍 有 不 同 。 


口 free_page (Struct page *) 和 free_pages (struct page *, 





order) 月 


























日 程序 没什么 不 同 ， 但 在 内 





电台 


LT 











射 到 内 核 地 志 





日 于 将 一 个 或 2*“ 页 返 
指向 该 内 存 区 的 第 一 个 page 实 例 的 指针 


人 





不 。 
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口 free page(addr) 和 __free pages (addr., order) 的 语义 类 似 于 前 两 个 函数 ， 但 在 表示 需 
要 释放 的 内 存 区 时 ， 使 用 了 虚拟 内 存 地 址 而 不 是 page 实 例 。 
1. 分 配 掩 码 
前 述 所 有 函数 中 强制 使 用 的 mask 参 数 ， 到 底 是 什么 语义 ? 从 3.2.1 节 我 们 知道 ，Linux 将 内 存 划 分 
为 内 存 域 。 内 核 提 供 了 所 谓 的 DD 0D 口 口 口 口 (zone modifier)〔 在 扼 码 的 最 低 4 个 比特 位 定义 )， 来 指定 
从 哪个 内 存 域 分 配 所 需 的 页 。 












































<gfp.h> 

/* GFP_ZONEMASK 中 的 内 存 域 修 饰 符 (参见 1inux/mmzone.h， 低 3 位 ) */ 
#define __GFP_DMA ((__force gfp 七 )0x01u) 

#define __ GFP_ HIGHMEM ((__force gfp_t)0x02u) 

#define __GFP_ DMA32 (( force gfp_t)0x04u) 

#define 。 GFP_MOVABLE ((_ force gfp_t)0x100000u) /* 页 是 可 移动 的 */ 
































在 3.4.1 节 讨论 备用 列表 的 创建 时 ， 读 者 可 能 已 经 熟悉 了 这 些 常数 。 缩 写 GFP 代 表 DDDD (get 
free page )。__GFP_MOVABLE 不 表示 物理 内 存 域 ， 但 通知 内 核 应 该 在 特殊 的 虚拟 内 存 域 Z2ONE_MOVABLE 
进行 相应 的 分 配 。 
很 有 趣 的 一 点 是 ， 没 有 __GFP_NORMAL 常 数 ， 而 内 存 分 配 的 主要 负担 却 落 到 ZONE_NORMAL 内 存 域 。 
内 核 考 虑 到 这 一 点 ， 提 供 了 一 个 函数 来 计算 与 给 定 分 配 标志 兼容 的 最 高 内 存 域 。 那 么 内 存 分 配 可 以 从 
该 内 存 域 或 更 低 的 内 存 域 进行 。 

mm/page_alloc.c 

static inline enum zone_type gfp_zone(gfp_t flags) 


{ 
















































































ifdef CONFIG_ ZONE_ DMA 
if (flags & __GFP_DMA) 
return ZONE_DMA; 
endif 
ifdef CONFIG ZONE_ DMA32 
if (flags & __GFP_ DMA32) 
return ZONE_ DMA32; 





endif 

if ((flags & (_ GFP_ HIGHMEM | __GFP_ MOVABLE)) == 

__GFP_HIGHMEM | __GFP_ MOVABLE)) 
return ZONE MOVABLE; 

ifdef CONFIG HIGHMEM 

if (flags & __GFP_ HIGHMEM) 

return ZONE_ HIGHMEM; 























endif 
return ZONE_NORMAL; 























于 内 存 域 修饰 符 的 解释 方式 不 是 那么 直观 ， 表 3-7 给 出 了 该 函数 结果 的 一 个 例子 ， 其 中 DMA 和 
DMA32 内 存 域 相同 。 假 定 在 下 文中 没有 设置 _ GFP_MOVABLE 修 饰 符 。 
如 果 _GFP_DMA 和 ”GFP_HIGHMEM 都 口 口 设置 ， 则 首先 扫描 ZONE_NORMAL， 后 面 是 ZONE_DMA。 如 
果 设 置 了 __GFP_HIGHMEM, 没有 设置 _GFP_DPMA， 则 结果 是 从 ZONE_HIGHMEM 开 始 扫 描 所 有 3 个 内 存 域 。 
如 果 设 置 了 __GFP_DMA， 那 么 _GFP_HIGHMEM 设 置 与 否 没 有 关系 。 只 有 zoONE_pDMA 用 于 3 种 情形 。 这 是 
合理 的 ， 因 为 同时 使 用 _GFP_HIGHMEM 和 GFP_DMA 没 有 意义 。 高 端 内 存 从 来 都 不 适用 于 DMA。 
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表 3-7 ”内 存 域 修饰 符 和 扫描 的 内 存 域 之 间 的 关联 

















修 饰 符 扫描 的 内 存 域 
无 ZONE_ NORMAL、 ZONE_ DMA 
__GFP_DMA ZONE_DMA 
GFP DMA & _ GFP HIGHMEM ZONE_DMA 
__GFP_HIGHMEM ZONE_HIGHMEM、ZONE_NORMAL、ZONE_DMA 





设置 _GFP_MOVABLE 不 会 影响 内 核 的 决策 ， 除 非 它 与 _ GFP_HIGHMEM 同 时 指定 。 在 这 种 情况 下 ， 
会 使 用 特殊 的 虚拟 内 存 域 2ONE_MOVABLE 满 足 内 存 分 配 请 求 。 对 前 文 描述 的 内 核 的 反 碎 片 策 略 而 言 ， 
这 种 行为 是 必要 的 。 
除了 内 存 域 修饰 符 之 外 ， 掩 码 中 还 可 以 设置 一 些 标志 。 图 3-29 给 出 了 掩 码 的 布局 ， 以 及 与 各 个 比 
特 位 置 关 联 的 常数 。_GFP_DMA32 出 现 了 几 次 ， 因 为 它 可 能 位 于 不 同 的 地 方 。 
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图 3-29 ”GFP 掩 码 的 布局 
与 内 存 域 修饰 符 相 反 ， 这 些 额 外 的 标志 并 限制 从 哪个 物理 内 存 段 分 配 内 存 , 但 确实 可 以 改变 分 

















































































































































































































配器 的 行为 。 例 如 ， 它 们 可 以 修改 查找 空闲 内 存 时 的 积极 程度 。 内 核 源 代码 中 定义 的 下 列 标志 : 
<gfp.h> 
/* 操作 修饰 符 ， 不 改变 内 存 域 */ 
define _ GFP_WAIT (( force gfp 七 )0x10u) /* 可 以 等 待 和 重 调度 ? */ 
define _ GFP_HIGH (( force gfp_t)0x20u) /* 应 该 访问 紧急 分 配 池 ? */ 
define _ GFP_IO (( force gfp_t)0x40u) /* 可 以 启动 物理 IO? */ 
define _ GFP_FS (( force gfp_t)0x80u) /* 可 以 调用 底层 文件 系统 ? */ 
define __GFP_COLD (( force gfp_t)0x100u) /* 需要 非 缓存 的 冷 页 */ 
define _ GFP_NOWARN (( force gfp_t)0x200u) /* 禁止 分 配 失 败 警告 */ 
define _ GFP_ REPEAT (( force gfp_t)0x400u) /* 重 试 分 配 ， 可 能 失败 */ 
define _ GFP_NOFAIL ((__ force gfp_t)0x800u) /* 一 直 重 试 ， 不 会 失败 */ 
define _ GFP_NORETRY (( force gfp_t)0x1000u) /* 不 重 试 ， 可 能 失败 */ 
define __GFP_NO_GROW (( force gfp_t)0x2000u) /* slab 内 部 使 用 */ 
define _ GFP_COMP (( force gfp_t)0x4000u) /* 增加 复合 页 元 数据 */ 
define _ GFP_ZERO (( force gfp 七 )0x8000u) /* 成 功 则 返回 填充 字 节 0 的 页 */ 
define 。 GFP_NOMEMALLOC (( force gfp_t)0x10000u) /* 不 使 用 紧急 分 配 链表 */ 
define __ GFP_HARDWALL (( force gfp_t)0x20000u) /* 只 允许 在 进程 允许 运行 的 CPU 所 关联 
* 的 结 点 分 配 内 存 */ 
define _ GFP_THISNODE (( force gfp_t)0x40000u) /* 没有 备用 结 点 ， 没 有 策略 */ 
define __GFP_RECLAIMABLE (( force gfp t)0x80000u) /* 页 是 可 回收 的 */ 
define __GFP_ MOVABLE (( force gfp_t)0x100000u) /* 页 是 可 移动 的 */ 
以 上 给 出 的 常数 ， 其 中 一 些 很 少 使 用 ， 因 此 我 不 会 讨论 。 其 中 最 重要 的 一 些 常 数 语 义 如 下 所 示 。 
口 _GFP_WAIT 表 示 分 配 内 存 的 请 求 可 以 中 断 。 也 就 是 说 ， 调 度 器 在 该 请 求 期 间 可 随意 选择 男 一 
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个 过 程 执行 ， 或 者 该 请 求 可 以 被 男 一 个 更 重要 的 事件 中 断 。 分 配器 还 可 以 在 返回 内 存 之 前 ， 
在 队列 上 等 待 一 个 事件 (相关 进程 会 进入 睡眠 状态 )。 
口 如 果 请 求 非常 重要 ， 则 设置 、GFP_HIGH， 即 内 核 急 切 地 需要 内 存 时 。 在 分 配 内 存 失败 可 能 给 
内 核 带 来 严重 后 果 时 《比如 威胁 到 系统 稳定 性 或 系统 骨 溃 ) ， 总 是 会 使 用 该 标志 。 


加 


口 _GFP_Io 说 明 在 查找 空闲 内 存 期 间 内 核 可 以 进行 1O 操 作 。 实 际 上 ， 这 意味 着 如 果 内 核 在 内 存 
分 配 期 间 换 出 页 ， 那 么 仅 当 设 置 该 标志 时 ， 才 能 将 选择 的 页 写 入 硬盘 。 
口 _GFP_FSs 人 允许 内 核 执行 VFS 操 作 。 在 与 VFS 层 有 联系 的 内 核子 系统 中 必须 禁用 ， 因 为 这 可 能 
引起 循环 递归 调 
口 如 果 需 要 分 配 不 在 CPU 高 速 缓存 中 的 “ 冷 ”页 时 ， 则 设置 __GFP_coLD。 
口 _GFP_NOWARN 在 分 配 失败 时 禁止 内 核 故 障 警告 。 在 极 少 数 场合 该 标志 
口 _GFP_REPEAT 在 分 配 失 败 后 自动 重 试 ， 但 在 尝试 若干 次 之 后 会 停止 
__GFP_NOFAIL 在 分 配 失 败 后 一 直 重 试 ， 直 至 成 功 。 
口 _GFP_ZERO 在 分 配 成 功 时 ， 将 返回 填充 字 节 0 的 页 。 
口 _GFP_HARDWALL 只 在 NUMA 系 统 上 有 意义 。 它 限制 只 在 分 配 到 当前 进程 的 各 个 CPU 所 关联 的 
结 点 分 配 内 存 。 如 果 进 程 允许 在 所 有 CPU 上 运行 (默认 情况 ) ， 该 标志 是 无 意义 的 。 只 有 进程 
| 以 运行 的 CPU 受 限时 ， 该 标志 才 有 效果 。 
口 _GFP_THISNODE 也 只 在 NUMA 系 统 上 有 意义 。 如 果 设 置 该 比特 位 ， 则 内 存 分 配 失 败 的 情况 下 
不 允许 使 用 其 他 结 点 作为 备用 ， 需 要 保证 在 当前 结 点 或 者 明确 指定 的 结 点 上 成 功 分 配 内 存 。 
口 GFP_RECLAIMABLE 和 GFP_MOVABLE 是 页 迁移 机 制 所 需 的 标志 。 顾 名 思 义 ， 它 们 分 别 将 分 
配 的 内 存 标记 为 可 回收 的 或 可 移动 的 。 这 影响 从 空闲 列表 的 哪个 子 表 获取 内 存 。 
于 这 些 标志 几乎 总 是 组 合 使 用 ， 内 核 作 了 一 些 分 组 ， 包 含 了 用 于 各 种 标准 情形 的 适当 的 标志 。 
如 果 有 可 能 的 话 ， 在 内 存 管理 子 系统 之 外 ， 总 是 把 下 列 分 组 之 一 用 于 内 存 分 配 。 在 内 核 源 代码 中 ， 双 
下 划 线 通常 用 于 内 部 数据 和 定义 。 而 这 些 预 定义 的 分 组 名 没有 双 下 划 线 前 级 ， 这 一 点 从 侧面 验证 了 上 
述说 法 。 
<gfp.h> 
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define GFP_ATOMIC (__GFP_HIGH) 
define GFP_NOIO (__GFP_WAIT) 
define GFP_NOFS (__ GFP_ WAIT | _ GFP_IO) 
define GFP_ KERNEL (__GFP_WAIT | GFP_IO | GFP_FS) 
define GFP_USER (__GFP_WAIT | GFP_IO | GFP_FS | GFP_ HARDWALL) 
define GFP_HIGHUSER (__GFP_WAIT | GFP_IO | GFP_FS | GFP_HARDWALL | \ 
__GFP_HIGHMEM) 
define GFP_HIGHUSER_ MOVABLE (__GFP_WAIT | GFP_IO | GFP_FS | \ 
__ GFP_ HARDWALL | _ GFP_HIGHMEM | \ 
__GFP_ MOVABLE) 
define GFP_DMA __GFP_DMA 
define GFP_DMA32 __GFP_DMA32 




















口 前 3 个 组 合 的 语义 是 清楚 的 。GFP_ATOMIC 用 于 原子 分 配 ， 在 任何 情况 下 都 不 能 中 断 ， 可 能 使 用 

紧急 分 配 链表 中 的 内 存 。GFP_Noro 和 GFP_NOFS 分 别 明确 禁止 IO 操作 和 访问 VEFS 层 ,但 同时 设 
置 了 _GFP WAIT， 因 此 可 以 被 中 断 。 
口 GFP_KERNEL 和 GFP_USER 分 别 是 内 核 和 用 户 分 配 的 默认 设置 。 二 者 的 失败 不 会 立即 威胁 系统 稳 
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R 是 GFP_USI 








定性 。GFP_KF 
口 GFP HH 
LI 
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IGHUSE 


CD 





ER 











EL 绝对 是 内 核 源 代码 中 最 常 使 月 
的 一 个 扩展 ， 也 用 于 用 户 空间 。 它 允许 分 本 


的 标志 。 























无 法 直接 映射 的 高 端 内 




















有 坏处 的 》 因 
j 途 类 似 于 GFP 了 





存 。 使 用 高 端 
GFP_HIGHUS] 
进行 。 
口 GFP_DMA 用 于 分 配 适 
__GFP_GMA32 的 同义词 。 

2. 内 存 分 配 宏 
和 他 











内 存 页 是 没 
ER_ MOVABLE 









































] 于 DMA 的 内 存 ， 


为 用 户 过 


IGHU 


当前 是 _ GFP] 











} 程 的 地 址 空间 总 是 通过 非 线 性 页 表 组 织 的 。 
sER， 但 分 配 将 从 虚拟 内 存 域 zONE_MOVABLE 
































DMA 的 同义词 。GFP_DMA32 也 是 
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i 





通过 使 用 标志 、 内 存 域 修 饰 符 和 各 个 分 配 函 数 ， 内 核 提 供 了 一 种 非常 灵活 的 内 存 分 配 体系 。 尽 


珊 











如 此 ， 所 有 接口 函数 都 可 以 追溯 

















到 一 个 简 





的 基本 函数 (alloc_pages_node) 。 











分 配 单 页 的 函数 alloc_page 和 _ get_free_page 是 借助 


<gfp.h> 
define alloc page (gfp mask) 





alloc pages (gfp_mask, 0) 

define _ get_ free page(gfp mask) \ 

_ get_ free pages((gfp_mask),0) 

<mm.h> 

define _ get dma pages (gfp_mask, order) \ 
__ get_ free pages((gfp_mask) 


























于 安定 义 的 ，alloc_pages 也 是 同样 。 





| GFP_DMA, (order)) 








get_zeroed_page 的 实现 也 没什么 困难 。 对 alloc_pages 使 用 _GFP_zERO 标 志 ， 即 可 分 配 填 充 
字 节 0 的 页 。 再 返回 与 页 关联 的 内 存 区 地 址 即 可 。 
所 有 体系 结构 都 必须 实现 的 标准 函数 clear_page， 可 帮助 alloc_pages 对 页 填充 字 节 0。? 























get_free_pages 访 问 了 alloc_pages， 而 alloc_pages 又 借助 于 alloc_pages_node: 


<gfp.h> 
#define alloc pages (dfp_mask，order) \ 
alloc pages node (numa node id(), 


mm/page_alloc.c 


gfp_mask, 


order) 


fastcall unsigned long _ get free pages(gfp _t gfp mask, unsigned int order) 


{ 


struct page * page; 


page = alloc pages (gfp_mask, order); 
if (!page) 
return 0; 
return (unsigned long) page_ address (page); 


} 

在 这 种 情况 下 , 使 用 了 一 个 普通 函数 而 不 是 宏 ， 攻 
函数 page_adqqress 转 换 为 内 存 地 址 。 在 这 里 ， 只 要 知 
存 地 址 即 可 。 对 高 端 内 存 页 这 是 有 问题 的 ， 因 此 我 会 在 3.5.7 节 讨 

这 样 ， 就 完成 了 所 有 API 函 数 到 公共 的 基础 函数 a 
了 各 个 函数 之 间 的 关系 。 


page_cache_alloc 和 page_cache_alloc_coladt 










































































lloc pages 
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的 设置 ， 分 别 获得 热 页 和 冷 页 。 
@ 当然 ， 也 可 以 用 通用 的 、 处 理 器 无 关 的 代码 对 页 填充 0， 但 大 多 数 CPU 都 




















操作 。 


为 alloc_pages 返 
道 该 函数 可 根据 
EF 细 讨论 该 函数 。 

















用 辅助 
内 








回 的 page 实 例 需 要 使 
page 实 例 计算 相关 页 的 线 愧 














人 人 
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的 统一 。 形 化 方式 





图 3-30 以 图 


J 


个 便捷 函数 ， 可 根据 _ GFP_CoLD 修 饰 符 











提供 了 特殊 的 命令 ， 可 以 更 快速 地 完成 该 
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alloc_page get_zeroed page get_free page get_dma_pages 





get_free_pages 


2 


alloc_pages 


， 


alloc_pages_node 
图 3-30 ”伙伴 系统 的 各 个 分 配 函 数 之 间 的 关系 


类 似 地 ， 内 存 释 放 函 数 也 可 以 归 约 到 一 个 主要 的 函数 〈(__free_pages) ， 只 是 用 不 同 的 参数 调 
用 而 已 : 


<gfp.h> 
#define __free page(page) free_pages( (page), 0) 
#define free page(addr) free pages( (addr),0) 


free_pages 和 _ free_pages 之 间 的 关系 通过 函数 而 不 是 宏 建立 ， 因 为 首先 必须 将 虚拟 地 址 转换 
为 指向 struct page 的 指针 。 


mm/page_alloc.c 
void free pages (unsigned long addr, unsigned int order) 


{ 

































































if (addr 1=- 0) { 
_ free pages(virt_ to_page(laddr), order); 
} 
} 


virt_to_page 将 虚拟 内 存 地 址 转换 为 指向 page 实 例 的 指针 。 基 本 上 ， 这 是 上 文 介绍 的 
page_address 辅 助 函 数 的 逆 过 程 。 
图 3-31 以 图 形 化 方式 综述 了 各 个 内 存 释 放 函 数 之 间 的 关系 。 


free_page 





























free_pages __free_ page 


Nx 


__free pages 


图 3-31 伙伴 系统 的 各 个 内 存 释放 函数 之 间 的 关系 








3.5.5 ”分 配 页 


所 有 API 函 数 都 追溯 到 alloc_pages_node， 从 某 种 意义 上 说 , 该 函数 是 伙伴 系统 主要 实现 的 “发 
射 台 ”。 


<gfp.h> 
static :inline struct page *alloc_pages_nodqe(int nid, gfp_t gfp mask, 
unsigned int order) 








{ 
If (unlikely (order >= MAX_ ORDER)) 
return NULL; 
/* 未 知 结 点 即 当 前 结 点 */ 
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if(nid< .0) 
nid 


numa_node_ id(); 


__alloc pages (gfp_mask, order, 
NODE_DATA (nid) 


return 





} 

只 执行 了 一 个 简单 的 检 避免 分 配 过 大 的 内 存 块 。 如 果 指 定 负 的 结 

也 使 用 当前 执行 CPU 对 应 axID。 接 下 来 的 工作 委托 给 _alloc_pages, 只 

青 注意 ，gfp_zone 用 于 选择 分 配 内 存 的 内 存 域 。 这 是 个 容易 遗漏 的 重要 
内 核 源 代码 将 __alloc_pages 称 之 为 “伙伴 系统 的 心脏 ”因为 它 处 

于 “心脏 ”的 重要 性 ， 我 将 在 下 文 详细 介绍 该 函数 。 
1. 选择 页 


我 们 先 把 注意 力 转向 页 面 选择 是 如 何 了 
e0000 


首先 我 们 需要 定义 
mm/page_alloc.c 
define ALLOC_NO_WATERMARKS 
define LOC_WMARK_MIN 
define _LOW 
define HIGH 
define 

define 0x20 
define 和 0x40 检查 内 
前 几 个 标志 表示 在 判断 页 是 否 可 分 配 时 ， 需 要 考虑 


压力 而 需要 更 多 的 内 存 )， 只 有 内 存 域 包含 页 的 数目 至 少 为 zone->pages_high 























点 ID (不 
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田 节 ! 
里 的 是 
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一 











[ 作 的 。 








上 5 




















* 不 检查 水 印 */ 
用 pages_min 水 印 */ 
用 pages_low 水 印 */ 
pages_high 水 印 */ 
更 努力 地 分 配 ， 即 放宽 限制 */ 
__GFP_ HIGH */ 
存 


结 点 是 否 对 应 着 指定 的 CPU 旨 


0x01 
0x02 
0x04 
0x08 
0x10 
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Fe 


ET 









































只 需 传递 一 


实质 性 


函数 使 用 的 标志 ， 用 于 控制 到 达 各 个 水 印 指定 的 临界 状 ; 


哪些 水 印 。 默 认 情 况 下 《 即 没有 


->node_zonelists + gfp_ zone(gfp mask)); 


存在 )， 内 核 自 动 
组 适当 的 参数 。 











的 内 存 分 配 。 


态 时 的 行为 。 


*/ 
因 其 他 因素 带 
时 ， 才 能 分 配 页 。 






























































































































































这 对 应 于 ALLOC_WMARK_HIGH 标 志 。 如果 要 使 用 较 低 (zone->pages_low) 或 最 低 (zone->pages_min) 
设置 ， 则 必须 相应 地 设置 ALLOC_WMARK_MIN 或 ALLOC_WMARK_LOW。ALLOC_HARDER 通 知 伙伴 系统 在 急 
需 内 存 时 放宽 分 配 规则 。 在 分 配 高 端 内 存 域 的 内 存 时 ， ALLOC_HIGH 进 一 步 放宽 限制 。 最 后 ， 
ALLOC_CPUSET 告 知 内 核 ， 内 存 只 能 从 当前 进程 允许 运行 的 CPU 相 关联 的 内 存 结 点 分 配 ， 当 然 该 选项 
只 对 NUMA 系 统 有 意义 。 

设置 的 标志 在 zone_watermark_ok 函 数 中 检查 , 该 函数 根据 设置 的 标志 判断 是 否 能 从 给 定 的 内 存 
域 分 配 内 存 。 





mm/page_alloc.c 


int Zone_watermark_ok (struct zone *z, int order, unsigned long mark, 


int classzone_idx, int alloc_ flags) 


没有 关系 */ 


{ 
/* free_pages 可 能 变 为 负 值 ， 
long min = mark; 
long free_ pages 


= Zone_ page_state(z, NR_FREE_ PAGES) 








int o; 

if (alloc_ flags & ALLOC_ HIGH) 
min -ss min / 2; 

if (alloc_ flags & ALLOC_ HARDER) 
min -= min / 4; 

IE (free pages <= min + ZzZ->lowmem reservel[lclasszone_idx]) 
return 0; 


for (o= 0;o <order;o++){ 
/* 在 下 一 阶 ， 当 前 阶 的 页 是 不 可 














的 */ 














-(1 << order) 


+ 1; 
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free_ pages -= Z->free_area[o]l .nr_free << 0o; 














/* 所 需 高 阶 空闲 页 的 数目 相对 较 少 */ 


min SS=. Ls 











if (free pages <= min) 
return 0; 
} 
return 1; 


} 

我 们 知道 zone_per_state 用 来 访问 每 个 内 存 域 的 统计 量 。 在 上 述 代码 中 ， 得 到 的 是 空闲 页 的 
数目 。 

在 解释 了 ALLOC_HIGH 和 ALLOC_HARDER 标 志 之 后 (将 最 小 值 标 记 降 低 到 当前 值 的 一 半 或 四 分 之 
一 ,使 得 分 配 过 程 努 力 或 更 加 努力 ) ， 该 函数 会 检查 空闲 页 的 数目 是 否 小 于 最 小 值 与 1owmem_reserve 
中 指定 的 紧急 分 配 值 之 和 。 如 果 不 小 于 ， 则 代码 遍历 所 有 小 于 当前 阶 的 分 配 阶 ， 从 free_pages 减 去 
当前 分 配 阶 的 所 有 空闲 页 〈 左 移 o 位 是 必要 的 ， 因 为 nr_free 记 载 的 是 当前 分 配 阶 的 空 亲 页 块 数目 )。 
同时 , 每 升 高 一 阶 ， 所 需 空 闪 页 的 最 小 值 折 半 。 如 果 内 核 遍历 所 有 的 低 端 内 存 域 之 后 , 发 现 内 存 不 足 ， 
则 不 进行 内 存 分 配 。 

get_page_from_freelist 是 伙伴 系统 使 用 的 另 一 个 重要 的 辅助 函数 。 它 通过 标志 集 和 分 配 阶 来 
判断 是 否 能 进行 分 配 。 如 果 可 以 ， 则 发 起 实际 的 分 配 操作 。? 


mm/page_alloc.c 

static struct page * 

get_page_ from freelist(gfp_t gfp _ mask, unsigned int order, 
struct zonelist *zonelist, int alloc_ flags) 














TS 



































































































































{ 
struct zone **z,; 
struct page *page 
int classzone_idx 
struct Zone *zone; 


NULL; 
zone_idx(zonelist->zones[0]); 


/* 

* 扫描 zonelist， 寻找 具有 足够 空闲 空间 的 内 存 域 。 

* 请 参阅 kernel/cpuset.c 中 cpuset_zone_allowed() 的 注释 。 
人 

z = Zonelist->zones; 











do { 


Zone = *z; 
if ((alloc_ flags & ALLOC CPUSET) && 
Icpuset_zone_ allowed_ softwall (zone, gfp_mask)) 

continue; 





if (!(alloc_ flags & ALLOC_ NO WATERMARKS)) { 
unsigned long mark; 
if (alloc_ flags & ALLOC WMARK_MIN) 
mark = zone->pages_min; 
else if (alloc flags & ALLOC WMARK_ LOW) 
mark = zone->pages_low; 
else 




















QD 请 注意 ，NUMA 系 统 使 用 了 一 个 内 存 域 列表 缓存 ， 可 以 加 速 扫 描 区 域 的 过 程 。 尽 管 该 缓存 在 UMA 系 统 上 不 活动 ， 
但 对 下 述 代 码 有 一 些 影响 ， 为 简单 起 见 ， 我 移 除 了 相关 的 代码 。 

















到 
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mark = zone->pages_high; 


IE (!zone watermark_ ok (zone, order, 
classzone_idx, alloc_ fla 
continue; 
3 









































ry 

















mt 


随后 的 qo 循环 所 作 的 基本 上 与 直觉 一 至, 人吉 历 备用 列表 的 所 有 内 存 域 , 用 最 简 身 


mark, 


gs)) 














讨论 过 。 


该 函数 的 一 个 参数 是 指向 备用 列表 的 指针 。 在 预期 内 存 域 没 有 空 闪 空间 的 情况 下 ， 该 列表 确定 了 
习 描 系统 其 他 内 存 域 《 和 结 点 ) 的 顺序 。 该 数据 结构 的 布局 和 语义 已 经 在 3.4.1 节 详 





的 方式 查找 一 个 























适当 的 空 亲 内存 块 。 首 先 ， 解 释 ALLOC_* 标 志 (cpuset_zone_allowed_softwall 是 

















另 一 个 辅助 函数 ， 


















































同样 的 检查 。 





如 果 内 存 域 适 用 于 当前 的 分 配 请 求 ， 那 么 buffered_rmqueue 试 图 从 中 分 配 所 需 数 


mm/page_alloc.c 


page = buffered rmqueue(*z, order, gfp mask); 
if (page) { 
zone_statistics(zonelist, *z); 
break; 
} 
} while (*(++Z) != NULL); 
return page; 


} 











用 于 检查 给 定 内 存 域 是 否 属于 该 进程 允许 运行 的 CPU)。zone_watermark_ok 接 下 来 检查 所 遍历 到 的 
内 存 域 是 否 有 足够 的 空闲 页 ， 并 试图 分 配 一 个 连续 内 存 块 。 如 果 两 个 条 件 之 一 不 能 满足 ， 即 或 者 没有 
足够 的 空闲 页 ， 或 者 没有 0 [0 内 存 块 可 满足 分 配 请 求 ， 则 循环 进行 到 备用 列表 中 的 下 一 个 内 存 域 ， 作 





目的 页 : 








我 们 将 在 3.5.4 节 更 细致 地 考察 puffered_rmqueue。 如 果 分 配 成 功 ， 则 将 页 返 世 
进入 下 一 个 循环 ， 选 择 备用 列表 中 的 下 一 个 内 存 域 。 
eUU0D0 
如 前 所 述 ，_alloc_pages 是 伙伴 系统 的 主 函 数 。 我 们 已 经 处 理 了 所 有 的 准备 了 


















































给 调 


[ 作 关 








用 者 。 否 则 ， 











F 描 述 了 所 有 


























可 能 的 标志 ， 现 在 我 们 把 注意 力 转向 相对 复杂 的 部 分 : 该 函数 的 实现 ， 这 也 是 内 核 



































FP 比 较 元 长 的 部 分 





之 一 。 特 别 是 在 可 用 内 存 太 少 或 逐渐 用 完 时 ， 函 数 就 会 比较 复杂 。 如 果 可 用 内 存 足 够 ， 贝 























会 很 快 完成 ， 就 像 下 述 代码 。 

mm/page_alloc.c 

struct page * fastcall 

_alloc pages(gfp_t gfp mask, unsigned int order, 

struct zonelist *zonelist) 

{ 
const gfp_t wait = gfp mask & __ GFP_ WAIT; 
St¥uct. sone **py 
struct page *page; 
struct reclaim state reclaim state; 
struct task_struct *p = current; 
int do_retry; 
int alloc_ flags; 
int did some progress; 


might_ sleep_if (wait); 


restart: 
z = zonelist->zones; /* 适合 于 gfp_mask 的 内 存 域 列表 */ 





I 必要 的 工作 
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if (unlikely(*z == NULL)) { 
/* 
* 如 果 在 没有 内 存 的 结 点 上 使 用 GFP_THISNODE， 导 致 zone1list 为 室 ， 就 会 发 生 这 种 情况 
*/ 


return NULL; 
} 


page = get_page_from freelist (gfp mask|__ GFP_ HARDWALL, order, 
zonelist, ALLOC_WMARK_LOW|ALLOC_CPUSET); 
if (page) 
goto got_pg; 























在 最 简单 的 情形 中 ， 分 配 空闲 内 存 区 只 涉及 调用 一 次 get_page_from_freelist， 然 后 返回 所 需 
数目 的 页 〈 由 标号 got_pg 处 的 代码 处 理 )。 

第 一 次 内 存 分 配 尝 试 不 会 特别 积极 。 如 果 在 某 个 内 存 域 中 无 法 找到 空闲 内 存 ， 则 意味 着 内 存 没 剩 
下 多 少 了 ， 内 核 需要 增加 较 多 的 工作 量 才能 找到 更 多 内 存 〈“ 重 型 武器 ” 稍 后 才 会 出 现 )。 


mm/page_alloc.c 































































































for (z = zonelist->zones; *zZ; Z++) 
wakeup_kswapd(*z, order); 


alloc_flags = ALLOC_ WMARK_MIN; 

















if ((unlikely(rt_task(p)) && !in interrupt()) || !wait) 
alloc_flags |= ALLOC_ HARDER; 
if (gfp mask & __GFP_HIGH) 
alloc_flags |= ALLOC_HIGH; 
if (wait) 
alloc_flags |= ALLOC_CPUSET; 


page = get_page_ from freelist(gfp mask, order, zonelist, alloc flags); 
if (page) 
goto got_pg; 
4 
内 核 再 次 遍历 备用 列表 中 的 所 有 内 存 域 , 每 次 都 调用 wakeup_kswapd。 顾 名 思 义 ,该 函数 会 唤醒 
负责 换 出 页 的 kswapd 守 护 进 程 。 交 换 守 护 进程 的 任务 比较 复杂 ， 需 要 单独 一 章 讲 解 〈 第 18 章 )。 读 者 
在 这 里 需要 注意 的 是 , 空闲 内 存 可 以 通过 缩减 内 核 缓存 和 页 面 回收 获得 , 即 写 回 或 换 出 很 少 使 用 的 页 。 
这 两 种 措施 都 是 由 该 守护 进程 发 起 的 。 
在 交换 守护 进程 唤醒 后 ， 内 核 开始 新 的 尝试 ， 在 内 存 域 之 一 查找 适当 的 内 存 块 。 这 一 次 进行 的 搜 
索 更 为 积极 , 对 分 配 标志 进行 了 调整 , 修改 为 一 些 在 当前 特定 情况 下 更 有 可 能 分 配 成 功 的 标志 。 同时 ， 
将 水 印 降低 到 最 小 值 。 对 实时 进程 和 指定 了 __GFP_WAIT 标 志 因 而 不 能 睡眠 的 调用 ， 会 设置 
ALLOC_HARDER。 然 后 用 修改 的 标志 集 ， 再 一 次 调用 get_page_from_freelist， 试 图 获得 所 需 的 页 。 
如 果 再 次 失败 ， 内 核 会 借助 于 更 强 有 力 的 措施 : 


mm/page_alloc.c 






























































































































































































































































rebalance: 
if (((p->flags & PF_MEMALLOC) || unlikely (test_thread flag (TIF_ MEMDIE))) 
&& lin interrupt()) { 
if (!(gfp mask & _ GFP NOMEMALLOC)) { 





nofail_alloc: 











/* 再 一 次 遍历 zonelist， 忽 略 水 印 */ 
page = get_ page_ from freelist(gfp mask, order, 
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主 正 


zonelist, ALLOC_NO_WATERMARKS); 


(page) 


goto got_pg; 


if (gfp mask & __ GFP NOFAIL) { 


} 
} 


goto nopage; 


} 





congestion wait (WRITE, HZ/50); 
goto nofail_ alloc; 


























如 果 设 置 了 PF_MEMALLOC 或 进程 设置 了 TITF_MEMDIE 标 志 〈 在 这 两 种 情况 下 ， 内 核 不 能 处 于 中 断 
































上 下 文中 ) ， 会 再 次 调用 get_page_from_freelist 试 图 获得 所 需 的 页 。 但 这 次 会 完全 忽略 水 印 ， 因 
和 器 自身 需要 更 多 内 存 时 ， 才 会 设置 PF_MEMALLOC， 


选中 时 ， 才 会 设置 TIF_MEMDIE。 











为 设置 了 ALLOC_NO_WATERMARKS。 通 常 只 有 在 分 本 
而 只 有 在 线程 刚好 被 OOM killer 机 秆 


























































































































在 这 里 搜索 可 能 因为 两 个 原因 


结束 。 
























































(1) 设置 了 __GFP_NOMEMALLOC。 该 标志 禁止 使 用 紧急 分 配 链表 (如 果 和 忽略 水 印 ， 这 可 能 是 最 佳 途 





























径 ), 因此 无 法 在 禁用 水 印 的 情况 下 调 
跳 转 到 noopage 标 号 ， 通 过 内 核 消 息 


























(2) 在 忽略 水 印 的 情况 下 ，ge 




































































t_ page from f 
索 ， 报 告 错误 消息 。 但 如 果 设 置 了 __GFP_NOFAIL， 
标号 实现 )， 首 先 等 待 (通过 congestion_wait) 块 设备 层 结束 “占线 ”， 在 回收 页 时 
况 《〈 人 参见 第 18 章 )。 接 下 来 再 次 党 试 分 配 ， 直 至 成 功 。 




























































































用 get_page_from_freelist。 在 这 种 情况 下 内 核 最 终 只 能 失败 ， 
将 失败 报告 给 用 户 ， 并 将 NULL 指 针 返 回调 用 者 。 
reelist 仍 然 失 败 了 。 在 这 种 情况 下 ， 也 会 放弃 搜 
内 核 会 进入 无 限 循 环 (通过 跳 转 到 nofail_alloc 
可 能 出 现 这 种 情 








如 果 没 有 设置 PF_MEMALLOC, 内 核 仍然 还 有 一 些 选项 可 以 尝试 ,但 这 些 都 需要 睡眠 。 为 使 得 kswapd 









































取得 一 些 进展 ， 睡 眠 是 必要 的 。 
























































mm/page_alloc.c 










































































的 操作 可 能 使 进程 睡眠 。 


/* 原子 分 配 : 我 们 无 法 进行 “均衡 ” */ 


if (1wait) 


goto nopage; 


cond_schedule(); 











可 想 一 下 ， 我 们 知道 如 果 设 置 了 相应 的 比特 位 ， 那 么 wait 是 1， 
































在 这 里 会 放弃 分 配 尝 试 。 在 做 进 














用 于 查找 当前 不 急需 的 页 ， 以 便 换 























mm/page_alloc.c 














步 的 尝试 之 前 


LH 





io 



































从 这 里 内 核 进入 了 一 条 口 口 口 口 (slow path)， 其 中 会 开始 一 些 耗 时 的 操作 。 前 提 是 分 配 掩 码 中 
设置 了 _GFP_WATIT 标 志 ， 因 为 随后 上 








否则 是 0。 如 果 没 有 设置 该 标志 ， 
『， 内 核 通过 conq_rescheq 提 供 了 重 调度 的 时 机 。 这 
防止 了 花费 过 多 时 间 搜 索 内 存 ， 以 致 于 使 其 他 进程 处 于 饥饿 状态 





























分 页 机 制 提供 了 一 个 目前 尚未 使 用 的 选项 ,将 很 少 使 用 的 页 换 出 到 块 介质 ， 以 便 在 物理 内 存 中 产 
生 更 多 空间 。 但 该 选项 非常 耗 时 ,还 可 




















能 导致 进程 睡眠 状态 。try_to_free_pages 是 相应 的 辅助 函数 ， 

















/* 我 们 现在 进入 同步 回收 状态 */ 
p->flags |= PF_MEMALLOC; 


did_ some_ progress 


try_to_free pages (zonelist->zones, order, 




















在 该 分 配 任务 设置 了 PF_MEMALLOC 标 志 之 后 ， 会 调用 该 函数 ， 
用 于 向 其 余 的 内 核 代码 表明 所 有 后 续 的 内 存 分 配 都 需要 这 样 的 搜索 。 


gfp_mask); 
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p->flags &= ~PF_MEMALLOC; 


cond_resched(); 





该 调用 被 设置 /清除 PF_MEMALLOC 标 志 的 代码 间隔 起 来 。try_to_free_pages 自 身 可 能 也 需要 分 
配 新 的 内 存 。 由 于 为 获得 新 内 存 还 需要 额外 分 配 一 点 内 存 (相当 矛盾 的 情形 )， 该 进程 当然 应 该 在 内 
存 管理 方面 享有 最 高 优先 级 ， 上 述 标志 的 设置 即 达到 了 这 一 目的 。 


UUUUOUU000000EF MEMArrocUUOUO0OU0000000 


此 外 , 设置 该 标志 确保 了 try_to_free_pages 不 会 递归 调用 , 因为 如 果 此 前 设置 了 PF_MEMALLOC,， 
那么 _alloc_pages 肯 定 已 经 返回 。 

try_to_free_pages 自 身 是 一 个 见长 而 复杂 的 函数 , 我 不 会 在 这 里 讨论 其 实现 。 读者 可 以 参见 第 
18 章 ， 其 中 详细 说 明了 相关 的 底层 机 制 。 目 前 ， 只 要 知道 该 函数 选择 最 近 不 十 分 活跃 的 页 ， 将 其 写 到 
交换 区 ， 在 物理 内 存 中 腾 出 空间 ， 即 可 。try_to_free_pages 会 返回 增加 的 空闲 页 数 


Ey ee feee SSSSS 加 册 加 册 加 册 加 思 加 加 遇 上 加 加 玫 思 出 加 加 轴 加 星 
如 果 需 要 分 配 多 页 ， 那 么 per-CPU 缓 存 中 的 页 也 会 拿 回 到 伙伴 系统 : 


mm/page_alloc.c 
if (order != 0) 
drain all_local pages(); 


该 函数 技术 上 的 实现 与 此 处 的 内 容 不 相关 ， 因 此 无 需 详 细 讨 论 drain_all_local_pages。 
接 下 来 ,如 果 try_to_free_pages 释 放 了 一 些 页 ， 那么 内 核 再 次 调用 get_page_from freelist 
尝试 分 配 内 存 : 
mm/page_alloc.c 
if (likely(did some progress)) { 


page = get_page_ from freelist(gfp mask, order, 
zonelist, alloc flags); 














































































































































































































































































































if (page) 
goto got_ Bg; 
} else if ((gfp mask & _ GFP_ FS) && !(gfp mask & _ GFP NORETRY)) { 


如 果 内 核 可 能 执行 影响 VFS 层 的 调用 而 又 没有 设置 GFP_NORETRY， 那 么 调用 OOM killer (OOM 是 
out of memory 的 缩写 ) : 


mm/page_alloc.c 
/* OOM killer 无 助 于 高 阶 分 配 ， 因 此 失败 */ 
if (order > PAGE ALLOC COSTLY ORDER) { 
clear_ zonelist_oom(zonelist); 
goto nopage; 




















} 


Out_of memory (zonelist, gfp _ mask, order); 
goto restart; 


} 
我 在 这 里 不 会 讨论 out_of_memory 的 实现 细节 ,读者 请 注意 ,该 函数 选择 一 个 内 核 认 为 犯 有 分 配 
过 多 内 存 “ 罪 行 ” 的 进程 , 并 杀 死 该 进程 。 这 有 很 大 几率 腾 出 较 多 的 空闲 页 , 然后 跳 转 到 标号 restart， 
重 试 分 配 内 存 的 操作 。 但 杀 死 一 个 进程 未 必 立 即 出 现 多 于 2™™ 页 的 连续 内 存 区 〈 其 中 
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PAGE_COSTLY_ORDER_PAGES 通 常设 置 为 3) ， 因 此 如 果 当 前 要 分 配 如 此 大 的 内 存 区 ， 那 么 内 核 会 饶恕 
所 选择 的 进程 ， 不 执行 杀 死 进程 的 任务 ， 而 是 承认 失败 并 跳 转 到 nopage。 

如 果 设 置 了 _GFP_NORETRY， 或 内 核 不 允许 使 用 可 能 影响 VFS 层 的 操作 ， 那 么 会 发 生 什 么 ? 在 这 
种 情况 下 ， 会 判断 所 需 分 配 的 长 度 ， 作 出 不 同 的 决定 : 


mm/page_alloc.c 













































































do_retry = 0; 
If (!(gfp mask & _ GFP_ NORETRY)) { 
if ((order <= PAGE ALLOC COSTLY ORDER) || 
(gfp_mask & __ GFP_ REPEAT)) 
do_retry = 1; 
if (gfp_ mask & __ GFP_ NOFAIL) 
do_retry = 1; 
} 
if (do_retry) { 
congestion wait (WRITE, HZ/50); 
goto rebalance; 








} 
nopage: 
if (!(gfp_ mask & _ GFP_ NOWARN) && printk ratelimit()) { 
printk (KERN_WARNING "%s: page allocation failure." 
" order:%d, mode:0x%x\n" 
p->comm, order, gfp_mask); 
dump_stack(); 
show_mem(); 
} 
got_pg: 
return page; 


} 
如 果 分 配 长 度 小 于 2™ YW-8 页 ， 或 设置 了 __GFP_REPEAT 标 志 ， 则 内 核 进 入 无 限 循环 。 
在 这 两 种 情况 下 ， 是 不 能 设置 CFP_NORETRY 的 。 因 为 如 果 调 用 者 不 打算 重 试 ， 那 么 进入 无 限 循环 重 试 
没有 意义 。 内 核 会 跳 转 回 *ebalance 标 号 ， RDDODD 的 入 口 ， 一 直 等 待 ， 直 至 找到 适当 大 小 的 
内 存 块 一 一 根据 所 要 分 配 的 内 存 大 小 ， 内 核 可 以 假定 该 无 限 循 环 不 会 持续 大 长 时 间 。 内 核 在 跳 转 之 前 
会 调用 congestion_wait， 等 待 块 设备 层 队 列 释放 (参见 第 6 章 )， 这 样 内 核 就 有 机 会 换 出 页 。 

在 所 要 求 的 分 配 阶 大 于 3 但 设置 了 __GFP_NOFAIL 标 志 的 情况 下 ， 内 核 也 会 进入 上 述 无 限 循 环 ， 因 
为 该 标志 无 论 如 何 都 不 允许 失败 。 
















































































































































































































































































如 果 情 况 不 是 这 样 ， 内 核 只 能 放弃 ， 并 向 用 户 返 回 NULL 指 针 ， 并 输出 一 条 内 存 请 求 无 法 满足 的 警 
告 消息 。 
































2. 移 除 选择 的 页 

如 果 内 核 找到 适当 的 内 存 域 ， 具 有 足够 的 空闲 页 可 供 分 配 ， 那 么 还 有 两 件 事 情 需要 完成 。 首 先 它 
必须 检查 这 些 页 是 否 是 0 品 口 (到 目前 为 止 ， 只 知道 0 口 口 衬 闲 页 )。 其 次 ， 必 须 按 伙伴 系统 的 方式 
从 free_1lists 移 除 这 些 页 ， 这 可 能 需要 分 解 并 重 排 内 存 区 。 

内 核 将 该 工作 委托 给 前 一 节 提 到 的 buffereqd_rmqueue。 图 3-32 给 出 了 该 函数 必需 的 各 个 步 又 。 

如 果 只 分 配 一 页 ， 内 核 会 进行 优化 ， 即 分 配 阶 为 0 的 情形 ，2"= 1。 该 页 不 是 从 伙伴 系统 直接 取得 ， 
而 是 取 自 per-CPU 的 页 缓存 〈 回 想 一 下 ， 可 知 该 缓存 提供 了 CPU 本 地 的 热 页 和 冷 页 的 列表 ， 所 需 数据 
结构 在 3.2.2 节 讲 过 )。 
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buffered rmqueue 








order == 02 

















古 _>| 移 除 页 


prep_new_page 


返回 NULL 指 针 | 


是 否 找到 了 适当 所 














荡 











Prep_new_page 


图 3-32 ”buffered_rmqueue 的 代码 流程 
照例 ， 首 先 需 要 设置 一 些 变 量 : 


mm/page_alloc.c 
static struct page * 


buffered rmqueue (struct zone *zone, int order, gfp_t gfp_ flags) 
{ 








入 



































并 





unsigned long flags; 

struct page *page; 

int cold = !!(gfp_flags & __GFP_ COLD); 

int migratetype = allocflags_to migratetype(gfp_flags); 
如 果 分 配 标志 设置 了 GFP_coLD， 那 么 必须 从 per-CPU 组 存 取得 冷 页， 前 提 是 有 的 话 。 两 个 取 反 操 
作 确 保 cold 是 0 或 1。? 根据 分 配 标志 确定 迁移 列表 ， 也 是 必要 的 。 先 前 介绍 的 函数 allocflags_to 
migratetype (参见 3.5.2 节 ) 在 这 里 就 派 上 用 场 了 。 

在 只 请 求 一 页 时 ， 内 核 试图 借助 于 per-CPU 缓 存 加 速 请 求 的 处 理 。 如 果 缓 存 为 衬 ， 内 核 可 借 机 检 

查 缓存 填充 水 平 。 


mm/page_alloc.c 
again: 






























































if (order == 0) { 
struct per_cpu pages *pcp; 


page = NULL; 
pcp = &zone_pcp (zone, get_cpu())->pcp[lcold]; 
if (!pcp->count) 
pcp->count = rmqueue bulk(zone, 0, 
pcp->batch, &pcp->list); 
if (unlikely(!'pcp->count)) 
goto failed; 























在 针对 当前 处 理 器 选择 了 适当 的 per-CPU 列 表 《〈 热 页 或 冷 页 列表 ) 之 后 ， 调 用 zmqueue_bulk 重 齐 
填充 缓存 。 在 这 里 我 不 打算 给 出 该 函数 的 代码 ， 因 为 它 只 是 从 通常 的 伙伴 系统 移 除 页 ， 然 后 添加 到 组 


存 。 但 重要 的 是 要 注意 ，buffered_rmqueue 将 页 的 迁移 类 型 存储 在 struct page 的 private 成 员 中 。 

















滤 尝 
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Q@ 如 果 只 使 用 gfp_flags & GFP_COLD， 那 么 在 设置 了 __GFP_COLD 的 情况 下 ，cold 的 值 就 是 _GFP_CcoLD。 如 果 将 
cold 用 作 只 有 两 个 元 素 的 数组 索引 ， 这 是 不 允许 的 。 






































186 030 0000 
在 从 缓存 取得 页 时 ， 该 信息 变 得 很 重要 : 
mm/page_alloc.c 
/* 查找 适当 迁移 类 型 的 页 */ 





list_for_each 


学 下 





/* 如 有 必要 ， 
if 


(unlikely (&page->1lru 


entry (page, 


break; 


&pcp->list, 
(page_private (page) 


向 pcp 列 表 分 配 更 多 页 */ 
&pcp->list)) { 


lru) 
== migratetype) 


pcp->count += rmqueue bulk(zone, 0, 
pcp->batch, &pcp->list, migratetype); 


page 
} 


list_ del(&page->lru); 


pcp->count-- 
} else { 

page = 

if (!page) 


__rmqueue(zone, 


goto failed; 


} 


内 核 会 衣 历 per-CPU 缓 存 中 的 所 有 页 ， 检查 是 否 有 指定 迁移 类 型 的 页 可 用 。 























list_entry(pcp->list.next, 


order); 


























合 当 前 要 求 迁 移 类 型 的 页 ， 











不 同 迁 移 类 型 的 页 重新 填充 了 缓存 ， 就 可 能 
然后 从 per-CPU 列 
1se 分 文 处 理 )， 


找 不 到 。 


少 
= 








struct page, 


ED) 











如 果 无 法 找到 适当 的 页 




















表 移 除 
内 核 调 用 





























如 果 需 要 分 配 多 页 ( 
的 内 存 块 。 如 有 必要 ， 该 函数 会 


























动 分 解 大 甘 











页 ， 接 下 来 进 步 处 理 。 
__rmqueue 会 从 内 存 域 的 伙伴 























解 )。 切 记 ， 可 能 有 这 样 的 情况 : 
况 下 ，__rmqueue 失 败 









































Ue 在 返回 指针 之 前 ， 














涡 这 





mm/page_alloc.c 
if 
goto again; 
return page; 
failed: 
return NULL; 
} 














内 存 域 中 有 足够 空 
并 返回 NULL 指 针 。 
1 于 所 有 失败 情形 都 跳 转 到 标号 faileq 处 至 
prep_new_page 需 要 做 一 些 准 备 工 作 ， 
， 如 果 所 选择 的 页 出 了 问题 ， 则 该 函数 返回 正 值 。 在 这 种 ! 


(prep_new_page (page, 


“| 和 页 六 





内 存 ， 将 未 用 的 部 分 放 回 列表 中 《有 具体 过 程 将 在 下 文 ? 
































order, 











prep_new_page 对 页 进行 几 项 检查 ， 虱 

































































存 的 映射 中 不 能 使 用 该 页 ， 也 没有 设置 不 
于 使 用 中 ， 不 应 该 放置 在 空闲 列表 上 。 但 通常 
方 出 现 了 错误 。 该 函数 也 为 各 个 新 页 设 








mm/page_alloc.c 




















static int prep_new page(struct page *page， 


{ 
page->flags &= 


前 保 分 配 之 后 分 配器 处 于 到 


情况 下 ， 不 应 该 发 生 错误 ， 
发 置 下 列 默认 标志 : 


int order, 


黄 足 分 配 请 求 ， 但 











EE， 这 可 以 确保 内 核 到 达 当 前 点 之 





gfp_flags)) 




















1 << PG referenced | 1 << PG arch 1 | 
PG_owner_priv_1 


1 尖 


如 果 前 一 次 调 




















中 








9 





则 向 缓存 添加 一 些 符 





列表 中 选择 适当 

















页 00D0D0D0 。 在 这 种 情 














后 ，page 指 向 一 系 





以 便 内 核能 够 处 理 这 些 页 ( 注 























青 况 下 ， 分 配 将 从 头 习 





新 











始 ): 


E 想 状态 。 特 别 地 ， 这 意味 着 在 现 
正确 的 标志 (如 PG_locked 或 PG_buddy)， 因 为 这 说 明 页 处 
否则 就 意味 着 内 核 在 其 他 地 








gfp_t gfp_flags) 
~(1 << PG uptodate | 1 << PG error | 1 << PG_ readahead | 


| 1 << PG mappedtodisk); 
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各 个 标志 位 的 含义 已 经 在 3.2.2 节 给 出 .prep_new_page 还 需要 将 第 一 个 page 实例 的 引用 计数 器 设 
置 为 初始 值 1。 此 外 ， 根 据 页 的 标志 ， 还 需要 作 一 些 工作 : 


mm/page_alloc.c 
If (gfp_flags & __GFP_ ZERO) 
Prep_zero_page (page, order, gfp_flags); 
if (order && (gfp_flags & __GFP_ COMP)) 
prep_compound page (page, order); 











return 0; 


} 

口 如 果 设 置 了 __GFP_ZERO，prep_zero_page 使 用 一 个 特定 于 体系 结构 的 高 效 函 数 将 页 填充 
字 节 0。 

口 如 果 设 置 了 __GFP_coMP 并 请 求 了 多 个 页 ， 内 核 必须 将 这 些 页 组 成 [DDD (compound page )。 
第 一 个 页 称 作 吕 口 (head page), 而 所 有 其 余 各 页 称 作品 口 (tail page)。 复合 页 的 结构 如 图 3-33 
所 示 。 
复合 页 通过 PG_compound 标 志 位 识别 。 组 成 复合 页 的 0D 0 页 的 page 实 例 的 private 成 员 , 包括 

首页 在 内 ， 都 指向 首页 。 此 外 ， 内 核 需 要 存储 一 些 信 息 ， 描 述 如 何 释 放 复 合 页 。 这 包括 一 个 

释放 页 的 函数 ， 以 及 组 成 复合 页 的 页 数 。 第 一 个 尾 页 的 LRU 链 表 元 素 因 此 被 滥用 : 指向 析 构 

函数 的 指针 保存 在 lru.next， 而 分 配 阶 保存 在 lru.prev。 请 注意 ，lru 成 员 无 法 用 于 这 用 途 ， 

因为 如 果 将 复合 页 连接 到 内 核 链 表 中 ， 是 需要 该 成 员 的 。 

为 什么 需要 该 信息 ?” 内 核 可 能 合并 多 个 相 邻 的 物理 内 存 页 ,形成 所 谓 的 巨型 TLB 页 。 在 用 户 层 

应 用 程序 处 理 大 块 数据 时 ， 许 多 处 理 器 允许 使 用 巨型 TLB 页 ， 将 数据 保存 在 内 存 中 。 由 于 巨型 

TLB 页 比 普通 页 大 ， 这 降低 了 保存 在 地 址 转换 后 备 缓冲 器 ee 中 的 信息 的 数量 ， 因而 又 降 

低 了 TLB 缓 存 失 效 的 概率 ， 从 而 加 速 了 内 存 访问 。?” 但 与 多 个 普通 页 组 成 的 复合 页 相 比 ， 巨 型 

TLB 页 需要 用 不 同 的 方法 释放 ， 因 而 需要 一 J free_compound_pages 














































































































































































































































































































用 于 该 目的 。 本 质 上 ， 在 释放 复合 页 时 ， 该 函数 通过 1ru .prev 确 定 页 的 分 配 阶 ， 并 依次 释 
放 各 页 。 
辅助 函数 prep_compound_page 用 于 设置 以 上 描述 的 结构 。 
2" 页 
厂 当 













\ PG_compound 
private 












private 
Iru.next 
Iru.prev 
















free_compound page 
n 


图 3-33 ”高 阶 分 配 产 生 的 复合 页 ， 其 中 各 个 页 是 连接 起 来 的 















































@ 巨型 TLB 页 在 启动 时 间 创建 ， 保 存在 一 个 特殊 缓存 中 。 内 核 参数 Pugepages 来 指定 创建 多 少 个 巨型 TLB 页 ， 应 
程序 可 以 通过 特殊 文件 系统 hugetlbfs 请 求 它们 。1ibhugetlbfs 库 允许 用 户 层 应 用 程序 使 用 巨型 TLB 页 ， 而 无 需 和 
该 文件 系统 直接 打交道 。 
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内 核 使 用 了 __rmqueue 函 数 〈 前 图 
mm/page_alloc.c 


static struct page * rmqueue(struct zone *zone, unsigned int order, 
int migratetype) 

















p= 








过 ) ， 该 函数 充当 进入 伙伴 系统 核心 的 看 门人 : 








{ 


struct page *page; 
Page = _ rmqueue_ smallest (zone, order, migratetype); 


if (unlikely(!page)) 
page = _ rmqueue fallback (zone, order, migratetype); 


return page; 


} 

根据 传递 进来 的 分 配 阶 、 用 于 获取 页 的 内 存 域 、 迁 移 类 型 ，_ rmaueue_smalles 扫 描 页 的 列表 ， 
直至 找到 适当 的 连续 内 存 块 。 在 这 样 做 的 时 候 ， 可 以 按 第 1 章 的 描述 拆 分 伙伴 。 如 果 指 定 的 迁移 列表 
不 能 满足 分 配 请 求 ， 则 调用 __rmqueue_fallback 尝 试 其 他 的 迁移 列表 ， 作 为 应 急 措 施 。 

__rmqueue_smallest 的 实现 不 是 很 长 。 本 质 上 ， 它 由 一 个 循环 组 成 ， 按 递增 顺序 遍历 内 存 域 
各 个 特定 迁移 类 型 的 空闲 页 列表 ， 直 至 找到 合适 的 一 项 。 


mm/page_alloc.c 


static struct page * rmqueue smallest(struct zone *zone, unsigned int order， 
int migratetype) 
{ 
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unsigned int current_order; 
struct free area * area; 
struct page *page; 


























/* 在 首选 的 列表 中 找到 适当 大 小 的 页 */ 
for (current order = order; current_order < MAX ORDER; ++Ccurrent order) { 
area = &(zZone->free areal[lcurrent order]); 
if (list_ empty(&area->free_ list[migratetype])) 
continue; 





page = list_ entry(area->free list[lmigratetypel] .next, 
struct page, lru); 

list_del(&page->lru); 
rmv_page_order (page); 
area->nr_free--; 

mod_zone page_state(zone, NR_FREE_ PAGES, -(1UL << order)); 
expand (zone, page, order, current order, area, migratetype); 
return page; 





} 
return NULL; 
} 


搜索 从 指定 分 配 阶 对 应 的 项 开始 。 小 的 内 存 区 无 用 ， 因 为 分 配 的 页 必须 是 连续 的 。 我 们 知道 给 定 
分 配 阶 的 所 有 页 又 再 分 成 对 应 于 不 同 迁 移 类 型 的 列表 ， 在 其 中 需要 选择 正确 的 一 项 。 

检查 适当 大 小 的 内 存 块 非常 简单 。 如 果 检 查 的 列表 中 有 一 个 元 素 ， 那 么 它 就 是 可 用 的 ， 因 为 其 中 
包含 了 所 需 数目 的 连续 页 。 否 则 ， 内 核 将 选择 下 一 个 更 高 分 配 阶 ， 并 进行 类 似 的 搜索 。 

在 用 1ist_gel 从 链表 移 除 一 个 内 存 块 之 后 ， 要 注意 ， 必 须 将 struct free_area 的 nr_free 成 员 
减 1。 还 必须 据 此 更 新 当前 内 存 域 的 统计 量 ， 这 可 以 通过 使 用 _moq_zone_page_state 实 现 。 
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rmv_page_order 是 一 个 辅助 函数 ， 从 页 标志 删除 PG_bugddy 位 ， 表 示 该 页 不 再 包含 于 伙伴 系统 中 ， 并 
将 struct page 的 private 成 员 设 置 为 0。 

如 果 需 要 分 配 的 内 存 块 长 度 小 于 所 选择 的 连续 页 范围 ， 即 如 果 因 为 没有 更 小 的 适当 内 存 块 可 用 ， 
而 从 较 高 的 分 配 阶 分 配 了 一 块 内 存 ， 那 么 该 内 存 块 必须 按照 伙伴 系统 的 原理 分 裂 成 小 的 块 。 这 是 通过 
expand 函 数 完成 的 。 


mm/page_alloc.c 

static :inline struct page * 

expand(struct zone *zone, struct page *page, 
int low, int high, struct free area *area, 
int migratetype) 





































































































unsigned long size = 1 << high; 


while (high > low) { 
area-—; 
high--; 
size >>= 1; 
list add(&page[sizel] .lru, &area->free list[lmigratetypel]); 
area->nr_free++; 
set_page_order (&page[size], high); 
} 
return page; 


} 
该 函数 使 用 了 一 组 参数 。page、zone、area 的 语义 都 很 显然 。index 指 定 了 该 伙伴 对 在 分 配 
中 的 索引 位 置 ，1ow 是 预期 的 分 配 阶 ， high 表示 内 存 取 自 哪 个 分 配 阶 。migratetype 表 示 迁 移 
























































最 好 逐步 看 一 下 代码 ， 理 解 其 工作 方式 。 我 们 假定 以 下 情形 : 将 要 分 配 一 个 阶 为 3 的 块 。 内 存 中 
没有 该 长 度 的 块 ， 因 此 内 核 选择 了 一 个 阶 为 5 的 块 。 为 简明 起 见 ， 该 块 位 于 索引 0 的 位 置 。 因 此 调用 该 
函数 的 参数 如 下 。 

expand (page, index=0, low=3,high=5,area) 
图 3-34 说 明了 如 下 所 述 的 拆 分 内 存 块 的 步 又 (free_area 列 表 此 前 的 内 容 示 给 出 ， 只 有 新 页 )。 

(1) size 的 值 初始 化 为 2*=2”=32。 ee ee de 因 
此 在 图 3-34 中 用 虚线 画 出 。 
(2) 在 第 一 裔 循环 中 ， 内 核 切 换 到 低 一 个 分 配 阶 、 迁 移 类 型 相同 的 free_area 列 表 ， 即 阶 为 4。 类 
似 地 ， 内 存 区 长 度 降低 到 16 (通过 size >> 1 计算 )。 初 始 内 存 区 的 后 一 半 插 入 到 阶 为 4 的 free_area 
列表 中 。 
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(3) 后 一 半 内 存 区 的 地 址 可 通过 gpage [size] 计 算 。 而 page 指 针 一 直 指 向 最 初 分 配 内 存 区 的 起 始 
地 址 ， 并 不 改变 。page 指 针 指 向 的 位 置 在 图 3-34 中 用 箭头 表示 。 

(4) 下 一 遍 循 环 将 剩余 16 页 的 后 一 半 放 置 到 对 应 于 size = 8 的 free_area 列 表 上 。page 指 针 仍 然 
不 动 。 现 在 剩余 的 内 存 区 已 经 是 预期 的 长 度 ， 可 以 将 page 指 针 作 为 结果 返回 。 从 图 中 可 见 ， 显 然 使 用 
了 初始 32 页 内 存 区 的 起 始 8 页 。 所 有 其 余 各 页 都 进入 到 伙伴 系统 中 适当 的 free_area 列 表 里 。 

内 核 总 是 使 用 特定 于 迁移 类 型 的 free_area 列 表 ， 在 处 理 期 间 不 会 改变 页 的 迁移 类 型 。 
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循环 中 各 个 步 又 都 调用 了 set_page_order 辅 助 函数 ， 对 于 回收 到 伙伴 系统 的 内 存 区 ， 该 函数 





图 3-34” 拆 分 内 存 区 





五 


jexpand 执 行 的 各 个 步 又 





















































第 一 个 struct page 实 例 的 private 标 志 设 置 为 当前 分 配 阶 ， 并 设置 页 的 Ps_buqqy 标 志 位 。 该 标志 
示 内 存 块 由 伙伴 系统 管理 。 
如 果 在 特定 的 迁移 类 型 列表 上 没有 连续 内 存 区 可 用 ， 则 _ rmaueue_smallest 返 回 NULL 指 针 。 




































































核 接 下 来 根据 备用 次 序 ， 尝 试 使 用 其 他 迁移 类 型 的 列表 满足 分 配 请 求 。 该 任务 委托 给 _ rmqueu 


fallback。 回 





志 历 各 个 分 配 





阶 的 列表 : 












































忆 3.5.2 节 的 内 容 可 知 ， 迁 移 类 型 的 备用 次 序 在 fallbacks 数 组 定义 。 首 先 ， 函 数 再 

















mm/page_alloc.c 
static struct page * rmqueue fallback(struct zone *zone, int order, 


{ 


int start migratetype) 


struct free area * area; 
int current_order; 
struct page *page; 
int migratetype, i; 


/* 在 其 他 类 型 列表 中 找到 最 大 可 能 的 内 存 块 */ 


for (current_ order = MAX ORDER-1; current_order >= order; 





将 





区 从 


内 


e 
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--Current_ order) { 
for (i = 0; i < MIGRATE TYPES -1; i++) { 
migratetype = fallbacks[start migratetypel] [i]; 


























但 不 只 是 相同 的 迁移 类 型 ， 还 要 考虑 备用 列表 中 指定 的 不 同 迁 移 类 型 。 请 注意 ， 该 函数 会 按照 分 
配 阶 OODOD 遍历 ! 这 与 通常 的 策略 相反 ,内 核 的 策略 是 , 如果 无 法 避免 分 配 迁 移 类 型 不 同 的 内 存 块 ， 
那么 就 分 配 一 个 尽 可 能 大 的 内 存 块 。 如 果 优 先 选 择 更 小 的 内 存 块 ， 则 会 向 其 他 列表 引入 碎片 ， 因 为 不 
同 迁 移 类 型 的 内 存 块 将 会 混合 起 来 ， 这 显然 不 是 我 们 想 要 的 。 
特别 列表 MIGRATE_RESERVE 包 含 了 用 于 紧急 分 配 的 内 存 ， 需 要 特殊 人 处理 ,我 们 将 在 下 文 讨论 。 如 
果 当 前 考虑 的 迁移 类 型 对 应 的 空闲 列表 包含 空闲 内 存 块 ， 则 从 该 列表 分 配 内 存 : 


mm/page_alloc.c 























































































































/* 如 有 必要 ， 在 后 面 处 理 MIGRATE_RESERVE */ 
if (migratetype == MIGRATE RESERVE) 
continue; 

















area = &(zone->free areal[lcurrent _ order]); 
if (list _ empty (&area->free_ list[migratetypel)) 
continue; 


page = list entry(area->free list[migratetypel] .next, 
struct page, lru); 
area->nr_free--; 








我 们 知道 ,迁移 列 表 是 页 迁移 方法 的 基础 ， 该 方法 用 于 使 内 存 碎片 保持 在 尽 可 能 低 的 水 平 。 较 低 
的 内 存 碎片 水 平 , 意味 着 即使 在 系统 已 经 运行 很 长 时 间 后 , 仍然 有 较 大 的 连续 内 存 块 可 以 分 配 。 按 3.5.2 
节 的 讨论 ， 较 大 内 存 块 0 0 0 的 概念 由 全 局 变量 pageblock_order 给 出 ,该 变量 定义 了 大 内 存 块 的 分 
配 阶 。 

如 果 需 要 分 解 来 自 其 他 迁移 列表 的 空 闪 内 存 块 ， 那么 内 核 必 须 决 定 如 何 处 理 剩余 的 页 。 如 果 剩 余 
部 分 也 是 一 个 比较 大 的 内 存 块 ， 那 么 将 整个 内 存 块 都 转 到 当前 分 配 类 型 对 应 的 迁移 列表 是 有 意义 的 ， 
这 样 可 以 减少 碎片 。 
如 果 是 在 分 配 可 回收 内 存 ， 那 么 内 核 在 将 空闲 页 从 一 个 迁移 列表 移动 到 另 一 个 时 ， 会 更 加 积极 。 
此 类 分 配 经 常 独 发 涌现 ， 导 致 许多 小 的 可 回收 内 存 块 散布 到 所 有 的 迁移 列表 , 例如 ， 在 updatedb 运 行 
时 就 是 这 样 。 为 避免 此 类 情形 ， 分 配 MIGRATE_RECLAITMABLE 内 存 块 时 ， 剩 余 的 页 总 是 转移 到 可 回收 迁 
移 列 表 。 

内 核对 所 述 策略 的 实现 如 下 : 


mm/page_alloc.c 



































































































































/* 
* 如 果 分 解 一 个 大 内 存 块 ， 则 将 所 有 空闲 页 移动 到 优先 选用 的 分 配 列表 。 
* 如 果 内 核 在 备用 列表 中 分 配 可 回收 内 存 块 ， 则 会 更 为 积极 地 取得 空闲 页 的 所 有 权 
SW 
if (unlikely(current order >= (pageblock order >> 1)) || 
start _ migratetype == MIGRATE RECLAIMABLE) { 
unsigned long pages; 
pages = move_freepages_block(zone, page, 
start migratetype); 
/* 如 果 大 内 存 块 超过 一 半 是 空闲 的 ， 则 主张 对 整个 大 内 存 块 的 所 有 权 */ 
if (pages >= (1 << (pageblock order-1))) 
set_pageblock migratetype (page, 
start _ migratetype); 
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migratetype = start migratetype; 


—_- 


move_freepages 试 图 将 包含 27” 个 页 的 0 口 内存 块 (包含 当前 将 分 配 的 内 存 块 在 内 〉 转 
移 到 新 的 迁移 列表 ,但 只 有 空 闪 页 ( 即 设 置 了 PG_buddy 标 志 位 的 页 ) 才 会 移动 ,此 外 , move_freepages 
还 会 考虑 到 内 存 域 的 边界 ， 因 此 移动 页 的 总 数 可 能 小 于 整个 大 内 存 块 。 但 如 果 大 内 存 块 有 超过 二 分 之 
一 的 部 分 是 空闲 的 ， 接 下 来 set_pageblock migratetype 将 修改 整个 大 内 存 块 的 迁移 类 型 〈 回 忆 前 
文 可 知 ， 该 函数 总 是 处 理 具 有 pageblock _nr_pages 页 的 大 内 存 块 ) 。 

最 后 内 核 将 内 存 块 从 列表 移 除 ， 并 使 用 sxpanq 将 其 中 未 用 的 部 分 还 给 伙伴 系统 。 


mm/page_alloc.c 























































































































/* 从 空闲 列表 移 除 页 */ 
list_ del(&page->lru); 
rmv_page_order (page); 
mod_ zone page_state(zone, NR_FREE_ PAGES, 
-(1UL << order)); 




















expand (zone, page, order, current order, area, migratetype); 
return page; 


} 





























请 注意 ， 如 果 此 前 已 经 改变 了 迁移 类 型 ， 那 么 expand 将 使 用 新 的 迁移 类 型 。 否 则 ， 剩 余部 分 将 
放置 到 原来 的 迁移 列表 上 。 

最 后 , 还 需要 考虑 男 一 个 场景 : 如 果 遍 历 了 所 有 分 配 阶 和 所 有 迁移 类 型 ,仍然 无 法 满足 分 配 请 求 ， 
那么 该 怎么 办 ? 在 这 种 情况 下 ， 内 核 可 以 尝试 从 MTGRATE_RESERVE 列 表 满 足 分 配 请 求 ， 这 是 最 后 
的 手段 : 


mm/page_alloc.c 
/* 使 用 MIGRATE_RESERVE， 而 不 是 分 配 失败 */ 
return _ rmqueue_smallest (zone, order, MIGRATE RESERVE); 





































































































} 
3.5.6 ”释放 页 
__free_pages 是 一 个 基础 函数 ,用 于 实现 内 核 API 中 所 有 涉及 内 存 释 放 的 函数 。 其 代码 流程 图 如 


图 3-35 所 示 。 
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图 3-3$5 ”free_pages 的 代码 流程 图 

__free_pages 首 先 判 断 所 需 释 放 的 内 存 是 单 页 还 是 较 大 的 内 存 块 ? 如 果 释 放 单 页 ， 则 不 还 给 伙 
伴 系统 ， 而 是 置 于 per-CPU 缓 在 中 ， 对 很 可 能 出 现在 CPU 高 速 缓存 的 页 ， 则 放置 到 热 页 的 列表 中 。 出 
于 该 目的 , 内 核 提 供 了 free_hot_page 辅 助 函数 , 该 函数 只 是 作 一 下 参数 转换 , 接 下 来 调用 free_hot_ 
Cold_ page。 
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如 果 free_hot_coldq_page 判 断 per-CPU 缓 存 中 页 的 数目 超出 了 pcp->count， 则 将 数量 为 
pcp->batch 的 一 批 内 存 页 还 给 伙伴 系统 。 该 策略 称 之 为 吕 口 口 (lazy coalescing)。 如 果 单 页 直接 返 
给 伙伴 系统 ， 那 么 会 发 生 合并 ， 而 为 了 满足 后 来 的 分 配 请 求 义 需要 进行 拆 分 。 因 而 惰性 合并 策略 阻 
止 了 大 量 可 能 白费 时 间 的 合并 操作 。free_pages_bulk 用 于 将 页 还 给 伙伴 系统 。 

如 果 不 超 出 惰性 合并 的 限制 ， 则 页 只 是 保存 在 per-CPU 缓 存 中 。 但 重要 的 是 将 private 成 员 设 置 
为 页 的 迁移 类 型 。 根 据 前 文 所 述 ， 这 使 得 可 以 从 per-CPU 缓 存 分 配 单 页， 并 选择 正确 的 迁移 类 型 。 

如 果 释 放 多 个 页 ， 那 么 _free_pages 将 工作 委托 给 _free_pages_ok (经 过 一 点 迁 回 ， 我 们 对 
此 不 太 感 兴趣 )， 最 后 到 _free_one_page。 与 其 名 称 不 同 ， 该 函数 不 仅 处 理 单 页 的 释放 ， 也 处 理 复 
合 页 释放 。 

mm/page_alloc.c 


static inline void _ free one page (struct page *page, 
struct zone *zone, unsigned int order) 


该 函数 是 内 存 释 放 功 能 的 基础 。 相 关 的 内 存 区 被 添加 到 伙伴 系统 中 适当 的 free_area 列 表 。 在 释 
放 伙 伴 对 时 ， 该 函数 将 其 合并 为 一 个 连续 内 存 区 ， 放 置 到 高 一 阶 的 free_area 列 表 中 。 如 果 还 能 合并 
个 进一步 的 伙伴 对 ， 那 么 也 进行 合并 ,转移 到 更 高 阶 的 列表 。 该 过 程 会 一 直 重 复 下 去 ， 直 人 至 所 有 可 
能 的 伙伴 对 都 已 经 合并 ， 并 将 改变 尽 可 能 向 上 传播 。 
但 内 核 如 何 知道 一 个 伙伴 对 的 两 个 部 分 都 位 于 空闲 页 的 列表 中 ， 上 文 没 有 给 出 答案 。 为 将 内 存 块 
放 回 伙伴 系统 ， 内 核 必须 计算 潜在 伙伴 的 地 址 ， 以 及 在 有 可 能 合并 的 情况 下 合并 后 内 存 块 的 索引 。 有 
两 个 辅助 函数 可 用 于 该 计算 : 
mm/page_alloc.c 
static inline struct page * 


page_find buddy (struct page *page, unsigned long page_ idx, unsigned int order) 
{ 
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unsigned long buddy_idx = page_ idx ^ (1 << order); 


return page + (buddy_idx -page_ idx); 
} 


static inline unsigned long 
_ find combined index(unsigned long page idx, unsigned int order) 
{ 


return (page_ idx & ~(1 << order)); 





























记 住 这 里 的 运算 符 ^ 是 有 用 的 ， 它 执行 的 是 按 位 异 或 操作 。 下 面 将 通过 一 个 例子 来 前 明 函 数 执行 
的 计算 。 
不 过 ， 我 们 首先 还 需要 介绍 另 一 个 辅助 函数 。 根 据 伙 伴 的 页 索引 信息 ， 并 不 足以 作出 判断 。 内 核 
还 必须 确保 属于 伙伴 的 所 有 页 都 是 空闲 的 ， 并 包含 在 伙伴 系统 中 ， 以 便 进 行 合并 。 
mm/page_alloc.c 


static :inline int page_is_budqdqvy(struct page *page, struct page *buddy, 
int order) 



















































































{ 
If (PageBuddy (buddy) && page_ order (buddy) == order) { 
return 1; 
} 
return 0; 


194 0U30 0000 
































伙伴 的 第 1 页 如 果 在 伙伴 系统 中 ， 则 对 应 的 struct page 实 例会 设置 Pc_puddy 标 志 位 。 但 这 不 足 
以 作为 合并 两 个 伙伴 的 根据 。 在 释放 有 具 有 2”“ 页 的 内 存 块 时 ， 内 核 必须 确保 第 2 个 伙伴 的 2 页 也 包含 
伙伴 系统 中 。 这 很 容易 检查 ， 因 为 空 闪 内 存 块 的 分 配 阶 存储 在 第 1 个 struct page 实 例 的 private 成 员 
中 ， 而 page_order 可 以 读 取 该 值 。 要 注意 ， 由 于 需要 考虑 内 存 空洞 ， 实 际 上 page_is_budgy 比 描述 的 
要 稍微 复杂 一 些 ， 为 简明 起 见 相 关 的 细节 已 经 省 去 。 

下 列 代码 用 于 确定 一 对 伙伴 是 否 能 够 合并 : 


mm/page_alloc.c 
static inline voidq _ free one page(struct page *page, 
struct zone *zone, unsigned int order) 


{ 




















































































































int migratetype = get pageblock migratetype (page); 


while (order < MAX ORDER-1) { 
unsigned long combined idx; 
struct page *buddy; 


buddy = __page find buddy (page, page_ idx, order); 
If (!page_is buddy (page, buddy, order)) 
break; /* 将 伙伴 向 上 移动 一 级 。 */ 





list_ dell(&buddy->lru); 

Zone->free_arealorder] .nr_free--; 

rmv_page_order (buddy); 

combined idx = __ find combined index(page_idx, order); 
page = page + (combined idx -page_ idx); 

page_idx = combined idx; 

order++; 


} 




















该 例 程 试图 释放 分 配 阶 为 order 的 一 个 内 存 块 。 有 可 能 不 只 当前 内 存 块 能 够 与 其 直接 伙伴 合并 ， 
而 且 高 阶 的 伙伴 也 可 以 合并 ， 因 此 内 核 需要 找到 可 能 的 最 大 分 配 阶 。 

通过 例子 ， 可 以 更 透彻 地 理解 代码 的 行为 。 假 定 释放 一 个 0 阶 内 存 块 ， 即 一 页 ， 该 页 的 索引 为 10。 
表 3-8 给 出 了 所 需 的 计算 ， 而 图 3-36 以 可 视 化 形式 说 明了 过 程 的 各 个 步骤 。 我 们 假定 页 10 是 合并 两 个 3 
阶 伙 伴 时 最 后 缺失 的 环节 ， 有 了 该 页 ， 即 可 形成 一 个 4 阶 的 内 存 块 。 


表 3-8 将 一 页 放 回 伙伴 系统 时 的 计算 





























































































































order page_ idx buddy index - page-index _ find combined index 
0 10 1 10 
1 10 —2 8 
2 8 4 8 
3 8 一 8 0 











第 一 遍 循 环 找到 页 10 的 伙伴 页 11。 由 于 需要 的 不 是 伙伴 的 页 号 ， 而 是 指向 对 应 page 实 例 的 指针 ， 
buddy_idx - page_idx 就 派 上 用 场 了 。 该 值 表示 当前 页 与 伙伴 之 间 的 差 ， page 指 针 加 上 该 值 ， 即 得 
到 伙伴 的 page 实 例 。 

page_is_budqdqy 需 要 该 指针 来 检查 伙伴 是 否 是 空闲 的 。 根 据 图 3-36 所 示 ， 恰 好 如 此 ， 因 此 可 以 合 
并 这 两 个 伙伴 。 这 需要 将 页 11 临 时 从 伙伴 系统 移 除 , 因为 要 将 其 重新 合并 到 一 个 更 大 的 内 存 块 中 。page 
实例 从 空闲 列表 移 除 ， 而 rmv_page_order 人 负责 清除 PG_buddy 标 志和 private 数 据 。 
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0 78 10 15 
order 4 [1 人 7 [画面 | ?i=0 
7 ci=0 
order 3 HTITITT P=8 > pyddy=0 
7 ci=8 
order 2 lni=8—> buddy = 12 
2 . ci=8 
order 1 Mri=10—> buddy =8 
pi=10 
order 0 pi=10—> ci=10 
buddy = 11 








[ 口 空 六 页 国 己 分 配 页 将 释放 的 页 


图 3-36 ”将 一 页 归还 到 伙伴 系统 ， 可 能 使 之 合并 到 高 阶 内 存 块 。pi 代 表 page_ingdex, ci 
表示 combined_index 


在 _ find_combined_index 计 算 合 并 内 存 块 的 索引 ， 得 结果 为 10， 因 为 这 个 2 页 的 伙伴 内 存 块 从 
该 页 号 开始 。 在 每 个 循环 步骤 结束 时 ，page 指 针 都 指向 新 的 伙伴 内 存 块 中 的 第 1 页 ， 但 对 应 的 page 实 
例 就 无 需 修改 了 。 
下 一 裔 循环 的 工作 类 似 ， 但 这 一 次 orger = 1。 也 就 是 说 ， 内 核 试 图 合并 两 个 2 页 的 伙伴 ， 得 到 
一 个 4 页 的 内 存 块 。 页 范围 [10, 11] 的 伙伴 起 始 于 页 号 8， 因 此 差 值 buddy_index - page_index 是 
负 的 。 事实 上 ， 伙 伴 也 可 能 出 现在 当前 内 存 块 的 左 侧 ， 这 是 无 法 阻止 的 。 合 并 后 的 内 存 块 索 引 为 8， 
因此 在 page_is_buqqy 确 认 新 伙伴 的 所 有 页 〈 即 页 8 和 9) 都 包含 在 伙伴 系统 中 之 后 ， 需 要 相应 地 更 新 
page 指 针 。 
该 循环 一 直 持续 到 分 配 阶 4。 此 时 ， 内 存 块 无 法 与 伙伴 合并 ， 如 图 所 示 ， 其 伙伴 不 是 空 闻 的 。 因 
此 ，page_is_budgy 不 会 允许 合并 这 两 个 内 存 块 ， 循 环 将 退出 。 
最 后 ， 需 要 将 包含 2=16 页 的 内 存 块 放置 到 伙伴 系统 的 空闲 列表 上 。 这 并 不 很 复杂 : 
mm/page_alloc.c 
set_page_order (page, order); 
list_add(&page->lru, 


&zone->free arealorder] .free list[migratetypel]); 
Zone->free arealorder] .nr_freet++; 























































































































































































































} 
请 注意 ， 内 存 块 的 分 配 阶 保存 在 其 中 第 一 个 page 实 例 的 private 成 员 中 。 这 样 ， 内 核 会 知道 不 仅 
页 0， 而 且 [0, 1$] 整个 页 范围 都 在 伙伴 系统 中 ， 且 是 空闲 的 。 
3.5.7 ”内 核 中 不 连续 页 的 分 配 
根据 上 文 的 讲述 ， 我们 知道 物理 上 连续 的 映射 对 内 核 是 最 好 的 ,但 并 不 总 能 成 功 地 使 用 。 在 分 配 
一 大 块 内 存 时 ， 可 能 竭尽 全 力也 无 法 找到 连续 的 内 存 块 。 在 用 户 空间 中 这 不 是 问题 ， 因 为 普通 进程 设 
计 为 使 用 处 理 器 的 分 页 机 制 ， 当 然 这 会 降低 速度 并 占用 TLB。 
在 内 核 中 也 可 以 使 用 同样 的 技术 。 在 3.4.2 节 讨论 过 ， 内 核 分 配 了 其 虚拟 地 址 空间 的 一 部 分 ， 用 于 
建立 连续 映射 。 
003-37000D0IA-32000000000000892 MiBODOOOOODOODOS8 MiB 
D0000000000000000000000000000000000000000 
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vmalloc 区 域 


图 3-37 IA-32 系 统 上 内 核 的 虚拟 地 址 空间 中 的 vmalloc 区 域 








每 个 vmalloc 分 配 的 子 区 域 都 是 自 包含 的 ， 与 其 他 vmalloc 子 区 域 通过 一 个 内 存 页 分 隔 。 类 似 于 
直接 映射 和 vmalloc 区 域 之 间 的 边界 ， 不 同 vmalloc 子 区 域 之 间 的 分 隔 也 是 为 防止 不 正确 的 内 存 访 问 
操作 。 这 种 情况 只 会 因为 内 核 故障 而 出 现 ， 应 该 通过 系统 错误 信息 报告 ， 而 不 是 允许 内 核 其 他 部 分 的 
数据 被 暗中 修改 。 因 为 分 隔 是 在 虚拟 地 址 空间 中 建立 的 ， 不 会 浪费 宝贵 的 物理 内 存 页 。 

1. 用 vmalloc 分 配 内 存 

vmalloc 是 一 个 接口 函数 ， 内 核 代码 使 用 它 来 分 配 在 虚拟 内 存 中 连续 但 在 物理 内 存 中 不 一 定 连续 
的 内 存 。 


<vmalloc.h> 
void *vmalloc(unsigned long size); 


该 函数 只 需要 一 个 参数 ， 用 于 指定 所 需 内 存 区 的 长 度 ， 与 此 前 讨论 的 函数 不 同 ， 其 长 度 单位 不 是 
页 而 是 字 节 ， 这 在 用 户 空间 程序 设计 中 是 很 普遍 的 。 
使 用 vmalloc 的 最 著名 的 实例 是 内 核对 模块 的 实现 。 因 为 模块 可 能 在 任何 时 候 加 载 ， 如 果 模 块 数 
据 比 较 多 ， 那 么 无 法 保证 有 足够 的 连续 内 存 可 用 ， 特 别 是 在 系统 已 经 运行 了 比较 长 时 间 的 情况 下 。 如 
果 能 够 用 小 块 内 存 拼接 出 足够 的 内 存 ， 那 么 使 用 vmalloc 可 以 规避 该 问题 。 
内 核 中 还 有 大 约 400 处 地 方 调用 了 vmalloc， 特 别 是 在 设备 和 声音 驱动 程序 中 。 
因为 用 于 vmalloc 的 内 存 页 总 是 必须 映射 在 内 核 地 址 空间 中 ,因此 使 用 zoNE_HIGHMEM 内 存 域 的 页 
要 优 于 其 他 内 存 域 。 这 使 得 内 核 可 以 节省 更 宝贵 的 较 低 端 内 存 域 ， 而 又 不 会 带 来 额外 的 坏处 。 因 此 ， 
vmalloc〔 连 同 其 他 映射 函数 在 3.5.8 节 讨论 〉 是 内 核 出 于 自身 的 目的 (并 非 因为 用 户 空间 应 用 程序 ) 
使 用 高 端 内 存 页 的 少数 情形 之 一 。 

e0000 

内 核 在 管理 虚拟 内 存 中 的 vmalloc 区 域 时 ， 内 核 必 须 跟踪 哪些 子 区 域 被 使 用 、 哪 些 是 空 闻 的 。 为 
此 定义 了 一 个 数据 结构 ， 将 所 有 使 用 的 部 分 保存 在 一 个 链表 中 。 
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<vmalloc.h> 

struct vm struct { 
struct vm _struct *next; 
void *addr:; 
unsigned long size; 
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unsigned long flags; 
struct page **pages; 
unsigned int nr_pages; 
unsigned long phys_addr; 


J 
对 于 每 个 用 vmalloc 分 配 的 子 区 域 ， 都 对 应 于 内 核 内 存 中 的 一 个 该 结构 实例 。 该 结构 各 个 成 员 的 
语义 如 下 。 
口 ad9r 定 义 了 分 配 的 子 区 域 在 虚拟 地 址 空间 中 的 起 始 地 址 。size 表 示 该 子 区 域 的 长 度 。 可 以 根 
据 该 信息 来 勾画 出 vmalloc 区 域 的 完整 分 配方 案 。 
口 flags 存 储 了 与 该 内 存 区 关联 的 标志 集合 ， 这 几乎 是 不 可 避免 的 。 它 只 用 于 指定 内 存 区 类 型 ， 
当前 可 选 值 有 以 下 3 个 。 
加 VM_ALLOC 指 定 由 vmalloc 产 生 的 子 区 域 。 
@ VM_MAP 用 于 表示 将 现存 pages 集 合 映射 到 连续 的 虚拟 地 址 空间 中 。 
昌 VM_IOREMAP 表 示 将 几乎 随机 的 物理 内 存 区 域 映 射 到 vmalloc 区 域 中 。 这 是 一 个 特定 于 体系 
结构 的 操作 。 
3.5.7 节 说 明了 后 两 个 值 如 何 使 用 。 
口 pages 是 一 个 指针 , 指向 page 指 针 的 数组 。 每 个 数组 成 员 都 表示 一 个 映射 到 虚拟 地 址 空间 中 的 
物理 内 存 页 的 page 实 例 。 
nr_pages 指 定 pages 中 数组 项 的 数目 ， 即 涉及 的 内 存 页 数目 。 
口 bphys_adqdr 仅 当 用 ;ioremap 英 射 了 由 物理 地 址 描述 的 物理 内 存 区 域 时 才 需 要 。 该 信息 保存 在 
Phys_adqdqr 中 。 
口 next 使 得 内 核 可 以 将 vmalloc 区 域 中 的 所 有 子 区 域 保 存在 一 个 单 链表 上 。 
图 3-38 给 出 了 该 结构 使 用 方式 的 一 个 实例 。 其 中 依次 映射 了 3 个 《假想 的 ) 物理 内 存 页 ， 在 物理 
内 存 中 的 位 置 分 别 是 1 023、725 和 7311。 在 虚拟 的 vmalloc 区 域 中 ， 内 核 将 其 看 作 起 始 于 VMALLOC_START 
+ 100 的 一 个 连续 内 存 
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1023 725 7311 





addr=VMALLOC_START+100 
Size=3*PAGE_SIZE 
nr_pages=3 

pages= 





vmalloc 区 域 : 


PAGE_OFFSET 





725 1023 7311 
图 3-38 ”将 物理 内 存 页 映射 到 vmalloc 区 域 











@ [| [vm area 
在 创建 一 个 新 的 虚拟 内 存 区 之 前 ， 必 须 找 到 一 个 适当 的 位 置 。vm_area 实 例 组 成 的 一 个 链表 ， 弟 
理 着 vmalloc 区 域 中 已 经 建立 的 各 个 子 区 域 。 定 义 在 mm/vmalloc 的 全 局 变量 vmlist 是 表 藉 。 


mm/vmalloc.c 
struct vm struct *vmlist; 
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内 核 在 mm/vmalloc 中 提供 了 辅助 函数 get_vm_area。 它 充当 get_vm area 的 前 端 ， 负 责 参 数 
准备 工作 。 类 似 地 ， 





























内 存 长 度 。 


mm/vmalloc.c 


度 信息 ， 该 函数 试图 在 虚拟 的 vmalloc 空 间 中 找到 一 个 适当 的 位 置 。 
1 于 各 个 vmalloc 子 区 域 之 间 需 要 插入 1 页 (警戒 页 ) 作为 安全 际 ， 内 核 首 先 适当 提高 需要 分 配 























后 一 个 函数 是 负责 实际 工作 的 __get_vm_area_node 函 数 的 前 端 。 根 据 子 区 域 的 









































struct vm struct * get vm area node(unsigned long size, unsigned long flags, 


{ 


unsigned long start, unsigned long end, int node) 


struct wm struct *p, “tmp, *area; 


size 


/* 


大 


党 这 


1 总 是 


= PAGE_ALIGN (size); 


是 分 配 一 个 警戒 页 


size += PAGE_SIZE; 


start 和 和 end 参数 分 别 由 调用 者 设置 为 vMALLOC _START 和 VMALLOC - 
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接 下 来 循环 裔 历 vmlist 的 所 有 表 元 素 ， 直 至 找到 一 个 适当 的 项 。 


mm/vmalloc.c 
本 己基 








(p = &vmlist; (tmp = *p) != NULL ;p = &tmp->next) { 


if ((unsigned long)tmp->addr < addr) { 
if((unsigned long)tmp->addr + tmp->size >= addr) 
addr = ALIGN(tmp->size + 
(unsigned long)tmp->addr, align); 
continue; 
} 
if ((size + addr) < addr) 
Gato Out 
If (size + addr <= (unsigned long)tmp->addr) 
goto found; 
addr = ALIGN(tmp->size + (unsigned long)tmp->addr, align); 
if (addr > end -size) 
gdto Out; 


如 果 sizetagqar 不 大 于 当前 检查 区 域 的 起 始 地 址 (保存 在 tmp->addar), 那么 内 核 就 找到 了 一 个 合 


适 的 位 置 。 接 下 来 用 适当 的 值 初始 化 新 的 链表 元 素 ， 并 添加 到 vmlist 链 表 。 





mm/vmalloc.c 
found: 






































area->next = *p; 
*p = area; 


area->flags = flags; 


area->addr 
area->size 


(void *)addr; 
size; 


area->pages = NULL; 
area->nr_pages = 0; 
area->phys_addr = 0; 


return areas 
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如 果 没 有 找到 适当 的 内 存 区 ， 则 返回 NULL 指 针 表 示 失 败 。 
remove_vm_area 消 数 将 一 个 现存 的 子 区 域 从 vmalloc 地 址 空间 删除 。 


<vmalloc.h> 
struct vm _ struct *remove_vm areal(void *addr); 


该 函数 需要 待 删除 子 区 域 的 虚拟 起 始 地 址 作为 一 个 参数 。 为 找到 该 子 区 域 ， 内 核 必须 依次 扫描 



























































vmlist 的 链表 元 素 ， 直 至 找到 匹配 者 。 接 下 来 将 对 应 的 vm_area 实 例 从 链表 删除 。 
e0U000D0 
vmalloc 发 起 对 不 连续 的 内 存 区 的 分 配 操作 。 该 函数 只 是 一 个 前 端 ， 为 _vmalloc 提 供 适 当 的 参 























_vma 


数 ， 后 者 直接 调用 _ vmalloc_node。 相 关 的 代码 流程 图 见 图 3-39。 











分 配 必要 
数量 的 页 帧 -| alloc pages_node | 


返回 地 址 














图 3-39 ”vmalloc 的 代码 流程 图 


E，get_vm_area 在 vmalloc 地 址 空间 中 找到 一 个 适当 的 区 域 。 接 下 来 从 物理 
区 域 中 ， 分 配 虚拟 内 存 的 工作 就 完成 了 。 



































实现 分 为 3 部 分 。 首 多 
内 存 分 配 各 个 页 ， 最 后 将 这 些 页 连续 地 映射 到 vmalloc 




































































这 里 不 给 出 完整 的 代码 了 ， 其 中 包含 了 无 趣 的 安全 检查 。" 我 们 比较 感 兴趣 的 是 物理 内 存 区 域 的 
分 配 (忽略 没 有 足够 物理 内 存 页 可 用 的 可 能 性 )。 

mm/vmalloc.c 

void *_ vmalloc area node(struct vm struct *area, gfp_t gfp_ mask, 





pgprot_t prot, int node) 
{ 
for (i = 0; i < area->nr pages; i++) { 


if (node < 0) 
area->pages[i] = alloc page (gfp_ mask); 


else 
area->pages[i] = alloc pages node (node, gfp _ mask, 0); 


IE (map_vm areal(area, prot, &pages)) 

















G@ 但 这 并 不 意味 着 读者 应 该 在 自己 的 代码 中 逃避 安全 检查 ! 
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} 


区 

















和 





IE 
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内 存 取 自 





goto fail; 
return area->addr; 





4 点 的 伙伴 系统 移 除 。 在 调 


如 果 显 式 指定 了 分 配 页 帧 的 结 点 ， 则 内 核 调 月 
前 结 点 分 配 页 帧 。 


分 配 的 页 从 相关 乡 














有 alloc_pages_node。 厂 则 ， 使 











时 ，vmalloc 将 gfp_mask 设 置 为 GCFP_KF 


jalloc_page 从 当 





RNEL 

















A 











__GFP_HIGHMEM， 内 核 通 过 该 参数 指示 内 存 
已 经 在 上 文 给 出 : 低 端 内 存 域 的 页 帧 更 为 宝贵 ， 
内 存 域 的 页 帧 完全 可 以 满 














伙伴 系统 ，] 























物 到 


速 缓存 刷 上 


理子 系统 尽 可 





Jgfp mask 设 置 为 GFP_KF 
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户 
BB 








系统 尽 可 能 从 ZON 
因此 不 应 该 浪费 到 vmalloc 的 








E_ HIGHMEM 





























RNEL | _ GFP_ HIGHMEM, 

















能 从 ZONE_HIGHMEM 分 配 页 帧 。 


其 原因 





我 们 已 经 知道 。 








内 存 域 分 配 页 帧 。 
分 配 中 ， 


因此 内 核 指示 内 存 












































在 此 使 
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本 
le 
加 昌 间 辣 浊 加 间 加 和 








内 核 调用 map_vm_area 将 分 散 的 物 到 
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-上 























存 页 ， 在 各 级 页 



































义 是 特定 于 体系 结 





HH 
Ls 





也 可 能 是 空 


2. 备 选 映射 方法 


除了 vmalloc 之 外 ， 还 有 


















































构 的 。 取 决 了 
对 flush_cache_al1 的 调用 〈 如 果 没 有 函数 可 以 选 


过 程 ，IA-32 就 是 这 样 。 


录 / 页 表 中 分 配 
了 些 体系 结构 在 修改 页 表 后 需要 刷 出 CPU 高 速 缓存 。 
六 不 同 的 CPU 类 型 ， 其 中 可 
择 性 














十 











了 As 









































折 需 的 


目录 : 





内 存 页 连续 映射 至 
页 / 表 项 。 
因此 内 核 调用 了 flush_cache_vmap， 其 定 
出 高 速 缓存 的 底 
区 域 )， 如 果 CPU 不 依赖 于 高 








| 虚拟 的 vmalloc 区 域 。 





分 





函数 遍历 分 配 的 














能 包括 


了 于 刷 
虚拟 映射 




















地 刷 出 








岂 方 法 可 以 创建 虚拟 连续 映射 。 这 
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已 











慨 汇编 语句 ， 


都 基于 上 文 讨论 的 _vmalloc 函 









































数 或 使 用 非常 类 似 的 机 制 ( 在 这 里 不 讨论 )。 
口 vmalloc_32 的 工作 方式 与 vmalloc 相 同 ， 但 会 确保 所 使 用 的 物理 内 存 总 是 可 以 用 普通 32 位 指 
针 寻 址 。 如 果 某 种 体系 结构 的 寻 址 能 力 超出 基于 字 长 计算 的 范围 ， 那 么 这 种 保证 就 很 重要 。 
例如 ， 在 启用 了 PAE 的 IA-32 系 统 上 ， 就 是 如 此 。 
口 vmap 使 用 一 个 page 数 组 作为 起 点 ， 来 创建 虚拟 连续 内 存 区 。 与 vmalloc 相 比 ， 该 函数 所 用 的 
物理 内 存 位 置 不 是 隐 式 分 配 的 ， 而 需要 先行 分 配 好 ， 作 为 参数 传递 。 此 类 映射 可 通过 vm_map 


月 































































































实例 中 的 vm_MaP 标 志 辨别 。 
口 不 同 于 上 述 的 所 有 映射 方法 ，ioremap 是 一 个 特定 于 处 理 器 的 函数 ,必须 在 所 有 体系 结构 上 实 
现 。 它 可 以 将 取 自 物理 地 址 空间 、 由 系统 总 线 用 于 1/O 操 作 的 一 个 内 存 块 ， 映 射 到 内 核 的 地 址 
空间 中 
该 函数 在 设备 驱动 程序 中 使 用 很 多 , 可 将 用 于 与 外 设 通 信 的 地 址 区 域 暴露 给 内 核 的 其 他 部 分 使 用 
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然 也 
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括 其 本 身 )。 


3. 释放 内 存 

















有 





个 函数 




















上 于 释放 














vmap 或 loremap 创 建 的 虹 


于 问 内 核 释 放 内 存 ，vfr 
里 。 






























































这 两 个 函数 都 会 归结 到 __vunmap。 


于 释放 vmalloc 和 vmalloc_32 分 配 的 





区 域 ， 而 vunmap 
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mm/vmalloc.c 
void _ vunmap(void *addr, int deallocate pages) 


adqr 表 示 要 释放 的 区 域 的 起 始 地 址 ，deallocate_pages 指 定 了 是 和 否 将 与 该 区 域 相关 的 物理 内 存 
页 返回 给 伙伴 系统 。vfree 将 后 一 个 参数 设置 为 1， 而 vunmap 设 置 为 0， 因 为 在 这 种 情况 下 只 删除 映射 ， 
而 不 将 相关 的 物理 内 存 页 返回 给 伙伴 系统 。 图 3-40 给 出 了 __vunmap 的 代码 流程 图 。 














































































































remove_vm area 





remove_vm_ area 


unmap_vm area 


设置 了 aeallocate_pages? 不 | 


释放 内 核 数据 结构 | 
图 3-40”__vunmap 的 代码 流程 医 


不 必 明 确 给 出 需要 释放 的 区 域 长 度 ， 长 度 可 以 从 vmlist 中 的 信息 导出 。 因 此 ”vunmap 的 第 一 个 
任务 是 在 ”remove_vm_area (由 remove_vm_area 在 完成 锁定 之 后 调用 〉 中 扫描 该 链表 ， 以 找到 
相关 项 。 

unmap_vm_area 使 用 找到 的 vm_area 实 例 ， 从 页 表 删 除 不 再 需要 的 项 。 与 分 配 内 存 时 类 似 ， 该 函 
数 需 要 操作 各 级 页 表 ， 但 这 一 次 需要 删除 涉及 的 项 。 它 还 会 更 新 CPU 高 速 缓存 。 

如 果 _vunmap 的 参数 aeallocate_pages 设 置 为 1 (在 vfree 中 ) ， 内 核 会 遍历 area->pages 的 所 
有 元 素 ， 即 指 问 所 涉及 的 物理 内 存 页 的 page 实 例 的 指针 。 然 后 对 每 一 项 调用 __free_page， 将 页 释放 
到 伙伴 系统 。 

最 后 ， 必 须 释 放 用 于 管理 该 内 存 区 的 内 核 数 据 结构 。 
3.5.8 ”内 核 映射 

尽管 vmalloc 函 数 族 可 用 于 从 高 端 内 存 域 向 内 核 映 射 页 帧 (这 些 在 内 核 空间 中 通常 是 无 法 直接 看 
到 的 )， 但 这 并 不 是 这 些 函 数 的 实际 用 途 。 重 要 的 是 强调 以 下 事实 : 内 核 提 供 了 其 他 函数 用 于 将 
ZONE_HIGHMEM 页 帧 显 式 映射 到 内 核 空间 ， 这 些 函 数 与 vnalloc 机 制 无 关 。 因 此 ， 这 就 造成 了 混乱 。 
. 持久 内 核 映 射 
如 果 需 要 将 高 端 页 帧 长 期 映射 《作为 DODDD ， 到 内 核 地 址 空间 中 ， 必 须 使 用 kmap 函 数 。 需 要 映 
射 的 页 用 指向 page 的 指针 指定 ， 作 为 该 函数 的 参数 。 该 函数 在 有 必要 时 创建 一 个 映射 ( 即 ， 如 果 该 页 
确实 是 高 端 页 )， 并 返回 数据 的 地 址 。 
如 果 没 有 局 用 高 端 文 持 ， 该 函数 的 任务 就 比较 简单 。 在 这 种 情况 下 ， 所 有 页 都 可 以 直接 访问 ， 因 
此 只 需要 返回 页 的 地 址 ， 无 需 显 式 创 建 一 个 映射 。 
如 果 确 实 存在 高 端 页 ， 情 况 会 比较 复杂 。 类 似 于 vmalloc， 内 核 首 先 必 须 建 立 高 端 页 和 所 映射 到 
的 地 址 之 间 的 关联 。 还 必须 在 虚拟 地 址 空间 中 分 配 一 个 区 域 以 映射 页 帧 ， 最 后 ， 内 核 必 须 记录 该 虚拟 
区 域 的 哪些 部 分 在 使 用 中 ， 哪 些 仍然 是 空闲 的 。 
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e00U00 

在 3.4.2 节 中 讨论 过 ， 内 核 在 IA-32 平 台 j 
FIXADDR_START。 该 区 域 用 于 持久 映射 。 不 

pkmap_count (在 mm/highmem.c 定 义 ) 


上 在 vmallo 
同体 系 结 


= 
候 一 他 





























构 使 有 


区 域 之 后 分 配 了 一 个 
的 方案 是 类 似 的 。 


订正 大 


,AST_PKMAP 的 整数 数组 ， 其 中 每 个 元 素 都 对 


区 域 ， 从 PKMAP_BASE 到 





C 




















应 于 一 个 持久 映射 页 。 它 实际 上 是 被 映射 页 的 一 个 使 用 
使 用 该 页 的 次 数 加 1。 如 果 计 数 器 值 为 2， 则 内 核 中 只 有 
用 。 一般 地 说 ,计数器 值 为 x 代表 内 核 中 有 n-1 处 使 用 该 
通常 的 使 用 计数 器 一 检 
联 的 页 已 经 映射 ， 但 由 于 CPU 的 TLB 没 有 
一 个 不 正确 的 地 址 。 

内 核 利 用 下 列 数据 结构 ， 来 建立 物 ] 


mm/highmem.c 

struct page_ address map { 
struct page *page; 
void *virtual; 
struct list_ head list; 























和 









































更 新 而 无 法 使 
























































Ef，0 意 味 着 相关 的 页 没有 使 月 











计数 器 ， 语 义 不 太 常见 。 该 计数 器 计算 了 内 核 
一 处 使 用 该 映射 页 。 计 数 器 值 为 5 表示 有 4 处 使 
页 。 

日。 计数 器 值 1 有 特殊 语义 。 这 表示 该 位 置 关 
目 ， 此 时 访问 该 页 ， 或 者 失败 ， 或 者 会 访问 到 















































月 





蛙 内 存 页 的 page 实 例 与 其 在 虚 似 内 存 区 中 位 置 之 间 的 关联 : 
































该 结构 用 于 建立 page 一 virtual 的 映射 (该 结构 





此 得 名 )。page 是 一 个 指向 全 局 mem_map 数 组 

















中 的 page 实 例 的 指针 ，virtual 指 定 了 该 页 在 内 核 虚拟 





地 址 空间 中 分 配 的 位 置 。 





























吕 





为 便于 组 织 ， 映 射 保存 在 散 列表 中 ， 结 构 中 的 链 


实现 ,在 














元 素 用 于 建立 溢出 链表 ， 以 处 理 散 列 碰撞 。 























组 
该 散 列 表 通 过 page_address_htable 数 组 











中 的 page_slot， 根 据 page 实 例 确定 页 的 虚拟 地 址 。 
结构 确定 给 定 page 实 例 的 地 址 : 























mm/highmem.c 
void *page address (struct page *page) 


图 3-41 勾 画 了 上 述 数 据 结构 之 间 的 相互 关系 。 


口 struct page_address_ map 





— Dage_addqress_map->Virtual 


0 


| 2 


page_aqqress 是 一 个 前 端 函数 ， 使 用 


这 里 不 进一步 讨论 。 散 列 函数 是 mm/highmen.c 
上 述 数据 





虚拟 地 址 空间 


LAST_ 
PKMAP 





>> page_address_map->page 


a 





FIXMAP_ 
START 





和 


LAST_ 
PKMAP 








pkmap_count 








page_address_htable 

















用 于 管理 





图 3-41 持久 四 








Po Me 





射 的 数据 结构 
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euUUU00 

page_address 首 先 检 查 传递 进来 的 page 实 例 在 普通 内 存 还 是 在 高 端 内 存 。 如 果 是 前 者 ， 页 地 址 
可 以 根据 page 在 mem_map 数 组 中 的 位 置 计 算 。 对 于 后 者 ， 可 通过 上 述 散 列表 查找 虚拟 地 址 。 

euUUU0 

为 通过 page 指 针 建立 映射 ， 必 须 使 用 xnap 函 数 。" 它 只 是 一 个 前 端 ， 用 于 确认 指定 的 页 是 否 确实 
在 高 端 内 存 域 中 。 和 否则 ， 结 果 返 回 page_aqqress 得 到 的 地 址 。 如 果 确 实在 高 端 内 存 中 ， 则 内 核 将 工 
作 委 托 给 kmap_high， 该 函数 定义 如 下 : 


mm/highmem.c 
void fastcall *kmap_ high(struct page *page) 











































































































{ 
unsigned long vaddr; 
vaddr = (unsigned long)page address (page); 
if (!vaddr) 
vaddr = map_ new virtual (page); 
pkmap_count [PKMAP_NR (vaddr) ]++; 
return (void*) vaddr; 
} 


























上 文 讨论 的 page_adgdress 函 数 首先 检查 该 页 是 否 已 经 映射 。 如 果 它 不 对 应 到 有 效 地 址 ， 则 必须 
使 用 map_new_virtual 映 射 该 页 。 该 函数 将 执行 下 列 主要 的 步骤 。 

(1) 从 最 后 使 用 的 位 置 〈 保 存在 全 局 变量 last_plkmap_nr 中 ) 开始 ， 反 和 癌 扫 描 pkmap_count 数 组 ， 
直至 找到 一 个 空 亲 位置。 如 果 没 有 空 亲 位置， 该 函数 进入 睡眠 状态 ， 直 至 内 核 的 另 一 部 分 执行 解除 映 
射 操 作 腾 出 空位 。 
在 到 达 pkmap_count 的 最 大 索引 值 时 ， 搜 索 从 位 置 0 开 始 。 在 这 种 情况 下 ， 还 调 
flush_al1_zero_pkmaps 函 数 刷 出 CPU 高 速 缓存 〈 读 者 稍 后 会 看 到 这 一 点 )。 

(2) 修改 内 核 的 页 表 ， 将 该 页 映射 在 指定 位 置 。 但 尚未 更 新 TLB。 

(3) 新 位 置 的 使 用 计数 器 设置 为 1。 如 上 所 述 ， 这 意味 着 该 页 已 分 配 但 无 法 使 用 ， 因 为 TLB 项 未 更 
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(4) set_page_address 将 该 页 添加 到 持久 内 核 映 射 的 数据 结构 。 

该 函数 返回 新 映射 页 的 虚拟 地 址 。 

在 不 需要 高 端 内 存 页 的 体系 结构 上 “〔 或 没有 设置 CONFIG_HIGHMEM) ， 则 使 用 通用 版 本 的 kmap 返 
回 页 的 地 址 ， 且 不 修改 虚拟 内 存 。 


<highmem.h> 
static inline void *kmap (struct page *page) 





















































{ 

might_sleep(); 

return page_address (page); 
} 
e0000 
































用 kmap 了 映射 的 页 ， 如 果 不 再 需要 ， 必 须 用 kunmap 解 除 映射 。 照例 ,该 函数 首先 检查 相关 的 页 ( 
page 实 例 标 识 ) 是 否 确实 在 高 端 内 存 中 。 倘 若 如 此 ， 则 实际 工作 委托 给 mm/highmem.c 中 的 
kunmap_high, 该 函数 的 主要 任务 是 将 pkmap_count 数 组 中 对 应 位 置 在 计数 器 减 1 (我 不 会 讨论 细节 )。 





















































G@) 该 函数 不 仅 出 现在 arch/x86/mm/highmem 32.c 中 ， 还 出 现在 include/asm-ppc/highmem.h 和 include/asm- 
sparc/highmem.h 中 ， 定 义 儿 乎 相同 。 
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加 
国有 


本 


国有 村 








也 在 上 文 提 到 的 





始 搜索 空闲 


(1) flush_cache_kmaps 在 内 核 晓 





位 置 时 ， 总 是 调 
































射 上 执行 

















Flush_all_zero_pkmaps 是 最 终 释放 映射 的 关键 。 
] 该 函数 。 它 负责 以 下 3 个 操作 。 


制 出 《在 需要 显 式 刷 出 的 大 多 数 体系 结构 上 ， 将 使 











flush_cache_al1 刷 出 CPU 的 全 部 的 高 速 缓存 ) ， 因 为 内 核 的 全 局 页 表 已 经 修改 。 ?9 


(2) 扫描 整个 pkmap_count 数 组 。 计 数 器 值 为 1 的 项 设置 为 0， 从 页 表 删 除 相关 的 项 ， 最 后 市 





映射 。 


(3) 最 后 ， 使 用 flush_tlb_kernel_range 国 数 刷 吕 





2. 临时 内 核 映射 





刚才 


上 § 述 的 kmap 函 数 不 能 

















空闲 位 置 ， 




















该 函数 会 进入 睡眠 状态 ， 直 至 情 
行 是 原子 的 ， 逻 辑 上 称 为 kmap_atomic。 
因此 ， 它 对 本 




















重 眠 的 代码 。 


























的 差别 。 其 


void *kmap_atomic(struct page *page, 


page 是 一 个 指向 高 端 内 存 页 的 管 


原型 是 相同 的 。 





于 














<asm-arch/kmap_types.h> 


enum km _ type { 


KM_ BOUNCE_READ, 
KM_SKB_SUNRPC_DATA, 











KM_PTEO, 
KM_PTE1, 


KM_SOFTIRQ1, 
KM_TYPE_NR 


} 7; 





adqresses 数 组 中 。 准 确 的 位 置 


idx = 
vaddr 

















在 3.4.2 节 讨论 的 固定 映射 机 制 ， 使 得 可 
在 FIX_KMAP_BEGIN 和 FIX _KMAP_END 之 间 建 立 一 个 用 于 由 
























































所 有 与 PKMAP 区 : 
































P 断 处 理 程序 ， 大 为 已 

















形 有 所 改善 。 
该 函数 的 一 个 主 
民 快 就 需要 一 个 临 H 


大 


要 








村 页 的 简 














可 能 进入 睡眠 状态 。 如 果 pkmap 数 组 





此 内 核 提 供 了 
优点 是 它 比 普 








或 相关 的 TLB 项 。 








在 map_new_virtual 从 头 开 














Pn 





他 


余 葬 


没有 


一 个 备 选 的 映射 函数 ， 其 执 
通 的 kmap 快 速 。 但 它 0D 用 











短 代 码 ， 是 非常 理想 的 。 














tomic 的 定义 在 IA-32、PPC、Sparc32 上 是 特 半 


















































需要 根据 当 














type + KM TYPE NR*smp_processor id(); 


= fix to virt(FIX KMAP_BEGIN + idx); 











在 固定 





以 在 内 核 地 址 空间 





E 于 体系 结构 的 ， 


enum km type type) 


蛙 结 构 的 指针 ，type 定 义 了 所 需 的 映射 类 型 。” 












































映射 区 域 中 ， 系 统 中 的 每 个 处 








都 对 应 于 一 : 


根据 这 种 布 














中 这 是 一 
节 所 述 





页 ， 如 图 3-42 所 示 (KM_TYPI 
局 ， 我 们 很 清楚 函数 在 使 
能 建立 同样 类 型 的 映射 ， 履 盖 现 存 的 项 。 



































器 都 有 一 个 对 应 的 “窗口 ”。 

















BE_NR 不 是 一 个 独立 的 
jjkmapb_atomic 时 不 会 阻塞 。 如 果 发 生 阻 




















Fl 
TE 








但 这 3 种 实现 只 有 非常 








微 








访问 用 于 建立 原子 映射 的 内 存 。 可 以 
射 高 端 内 存 页 的 区 域 ， 该 
前 活动 的 CPU 和 所 需 映 射 类 型 计算 。 


区 域 位 于 fixeqd_ 


每 个 窗口 中 ， 每 种 映射 类 型 


























类 型 ， 只 用 于 表示 km_type 中 有 多 少 项 ) 。 

















， 那 么 男 一 个 进 





程 可 


个 代价 很 高 的 操作 ， 幸 运 的 是 许多 处 理 器 体系 结构 不 需要 该 操作 。 在 这 种 情况 下 ， 将 定义 为 空 操作 ， 如 3.7 


o 











@ 该 结构 的 内 容 依 不 同体 系 结构 而 不 同 ， 但 这 差别 是 无 关 紧要 的 ， 不 值得 描述 。 
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CPUn 


Bl 
1 = KM_BOUNCE_RERAD 
FIX_KMAP_BEGIN 2 = KM_SKB_SUNRPC_DRATRA，. . . FIX_KMAP_END 


图 3-42 ”利用 固定 映射 来 映射 高 端 内 存 页 


在 使 用 上 述 公式 计算 出 适当 的 索引 ， 找 到 相关 的 固定 映射 地 址 之 后 ， 内 核 上 只 需 相应 地 修改 页 表 ， 
出 TLB 使 页 表 修改 生效 。 
kunmap_atomic 函 数 从 虚拟 内 存 解除 一 个 现存 的 原子 映射 ， 该 函数 根据 映射 类 型 和 虚拟 地 址 ， 从 
| 除 对 应 的 项 。 
3. 没有 高 端 内 存 的 计算 机 上 的 映射 函数 
许多 体系 结构 不 支持 高 端 内 存 ， 因 为 不 需要 该 特性 ，64 位 体系 结构 就 是 如 此 。 但 为 了 在 使 用 上 述 
函数 时 不 需要 总 是 区 分 高 端 内 存 和 非 高 端 内 存 体系 结构 ， 内 核定 义 了 几 个 在 普通 内 存 实 现 兼 容 函数 的 
宏 〈 在 支持 高 端 内 存 的 计算 机 上 ， 如 果 停 用 了 高 端 内 存 ， 也 会 使 用 这 些 宏 )。 

<highmem.h> 

#ifdef CONFIG HIGHMEM 


























并 必 


Pc— 




















AT 
















































































#else 


static inline void *kmap (struct page *page) 
{ 

might_sleep(); 

return page_address (page); 
} 


#define kunmap (page) do { (void) (page); } while (0) 
#define kmap_atomic (page, idx) page _ address (page) 
#define kunmap_atomic(addr, idx) do { } while (0) 
#endif 


3.6 slab 分 配器 


每 个 C 程 序 员 都 熟悉 malloc， 及 其 在 C 标 准 库 中 的 相关 函数 。 大 多 数 程序 分 配 若 干 字 节 内 存 时 ， 
经 常会 调用 这 些 函 数 。 

内 核 也 必须 经 常 分 配 内 存 , 但 无 法 借助 于 标准 库 的 函数 。 上 面 描述 的 伙伴 系统 文 持 按 页 分 配 内 存 ， 
但 这 个 单位 太 大 了 。 如 果 需 要 为 一 个 10 个 字符 的 字符 串 分 配 空间 ， 分 配 一 个 4KiB 或 更 多 衬 间 的 完整 
页 面 ， 不 仅 浪 费 完全 不 可 接受 。 显 然 的 解决 方案 是 将 页 拆 分 为 更 小 的 单位 ， 可 以 容纳 大 量 的 小 
对 象 。 

为 此 必须 引入 新 的 管理 机 制 ， 这 会 给 内 核 带 来 更 大 的 开销 。 为 最 小 化 这 个 额外 负担 对 系统 性 能 也 
影响 ， 该 管理 层 的 实现 应 该 尽 可 能 紧凑 ， 以 便 不 要 对 处 理 器 的 高 速 绥 存 和 TLB 带 来 显著 影响 。 同 时 ， 
内 核 还 必须 保证 内 存 利用 的 速度 和 效率 。 不 仅 Linux， 而 且 类 似 的 UNIX 和 所 有 其 他 的 操作 系统 ， 都 需 
要 面 对 这 个 问题 。 经 过 一 定 的 时 间 ， 已 经 提出 了 一 些 或 好 或 坏 的 解决 方案 ， 在 一 般 的 操作 系统 文献 中 
都 有 讲解 ， 例 如 [Tan07]。 

此 类 提议 之 一 ,所 谓 slab 分 配 , 证 明 对 许多 种 类 工作 负荷 都 非常 高 效 。 它 是 由 Sun 公 司 的 一 个 雇员 
Jeff Bonwick， 在 Solaris 2.4 中 设计 并 实现 的 。 由 于 他 公开 了 其 方法 [Bon94] ， 因 此 也 可 以 为 Linux 实 
现 一 个 版 本 。 



















































































































































































































































































206 DD 30 0 


D000 





提供 小 内 存世 





常 分 配 并 释放 的 对 象 。 通 过 建 
举例 来 说 ， 为 管 
此 





也 是 如 此 。 
新 实例 〈 人 参见 第 8 章 ) 。 
内 核 趋 向 于 非常 有 规律 




















不 是 slab 分 配器 的 唯一 任务 。 








于 结构 上 的 特点 ， 它 也 用 















































类 型 





实例 占据 











向 卫 
块 保存 





在 一 个 内 部 列表 中 ， 





不 马上 返回 




















Yslab 缓 存 ， 内 核能 够 储备 一 些 对 象 ， 供 后 续 
生成 struct fs_struct 


村) 。 换 名 话说 ， 


与 进程 关联 的 文件 
的 内 存 块 同村 


给 伙 


全 有 








系统 数据 ， 内 核 必须 经 常 


需要 经 常 回 









































华 系统 。 在 请 求 为 该 类 对 象 分 本 














收 《在 进程 结束 
也 分 配 并 释放 大 小 为 sizeof{ffs_struct} 的 内 存 块 。slab 分 配器 将 释放 的 
新 实例 时 ， 会 使 用 


本 -一 
LD 














个 











最 近 释 放 的 内 存 块 。 这 有 
1 于 该 
slab 分 配器 还 有 两 个 
口 调用 伙伴 系统 的 
































存 块 仍然 是 “新 





上 寻 








个 优点 。 首 先 ， 























了 伙 介 





于 内 核 不 必 使 





























”的 ， 因 此 其 
更 进一步 的 好 处 。 



































些 资 源 对 用 户 空 i 


的 调 月 











司 进程 就 越 不 可 朋 

















尘 在 











如 果 数 提 
多 
向 ， 


局 存 




















将 页 划分 为 更 小 块 的 其 








伙伴 系统 直 




















和 2b 人、 
zs 
些 总 线 拥 
































所 示 。 


UUUUOUO0O0O00000 CP 





大 





为 不 同 

















[ 接 提供 的 页 中 ， 那 么 其 
也 分 配方 法 ， 也 有 同样 的 特 4 
1 于 这 种 地 址 分 布 ， 使 得 某 些 缓存 行 过 度 使 用 ， 
加 剧 这 种 不 利 情况 ， 
塞 ， 而 其 他 总 线 则 几乎 没 


的 内 存 
有 使 用 。 











系统 算法 ， 处 理 
仍然 驻 留 在 CPU 高 速 缓存 的 概率 较 高 。 


的 情况 下 减少 了 对 








时 间 











= 
总 是 





有 


US. 


HE 





现在 2 的 寡 次 的 整数 倍 


伙 人 


作 一 个 0 口 ， 主 要 针对 经 
昌 ， 即 使 在 初始 化 状态 ， 


的 





内 存 














| 





会 变 短 。 其 次 ， 


操作 对 系统 的 数据 和 指令 高 速 缓存 有 相当 的 影响 。 内 核 越 浪费 这 些 资 源 ， 这 
日 。 更 轻 量 级 的 slab 分 配器 在 可 能 
目 ， 有 助 于 防止 不 受 欢迎 的 缓存 “污染 ”。 


系统 





附近 《〈 许 



































其 他 的 则 





也 址 可 能 











正 )。 这 对 CPU 高 速 缓存 的 利用 











有 负 





晤 / 
素 0 





























多 处 二 





器 系统 可 
企 不 同 的 总 线 上 传输 ， 上 述 情况 会 导致 某 





通过 slabU 口 〈slab coloring)，slab 分 配器 能 够 均匀 地 分 布 对 象 ， 以 实现 均匀 的 缓存 利 


UOUO0O0000000000000000D0 








用 ， 如 下 


D0 











0D slab 


UUOOU000000000000000007I8000000000000 





UOUOU00D0 


UUUO0OU0OCSPU0UO0OU00 





UUOOOO0OO0O0O0000000 















































UOU00D0 














加 
























































为 较 大 的 组 ， 履 盖 一 个 或 多 个 连续 页 帧 。 这 
































slab 分 配器 由 何 得 名 ? 各 个 缓存 管理 的 对 象 ， 会 合 
种 组 称 作 slab， 每 个 缓存 由 几 个 这 种 slab 组 成 。 
3.6.1 备 选 分 配器 

尽管 slab 分 配器 对 许多 可 能 的 工作 负荷 都 工作 良好 ， 但 也 有 











果 某 些 计 算 机 处 于 当前 硬件 





尺度 的 边界 上 ， 


























入 式 系 统 ， 配 备 有 大 量 物 玉 
开发 者 称 ， 在 大 型 系统 上 仅 slab 的 数据 结构 就 需要 很 多 


可 能 成 为 一 个 问题 : 


统 来 说 ，slab 分 配器 代码 量 和 复杂 














性 都 太 高 。 


























GD slob 是 simple linked list of block 的 缩写 。 一 一 译 者 注 


E 此 类 情形 ， 在 内 核 版 本 2.6 玫 
口 slob 分 配器 进行 了 特别 优化 ， 以 便 减少 代码 量 。 它 围 




















上 





在 此 类 计算 机 上 使 用 slab 分 配 会 














< 全 
[到] 








些 情形 ， 它 无 法 提供 最 优 性 
8 现 一 些 问 题 : 微小 的 髓 
内 存 的 大 规模 并 行 系统 。 在 第 二 种 情况 下 ，slab 分 配器 所 需 的 大 量 元 数据 





能 。 如 





字 节 内 存 。 对 嵌入 式 系 


发 期 间 ， 增 加 了 slab 分 配器 的 两 个 替代 品 。 
绕 一 个 简单 的 内 存 块 链表 展开 











此 而 
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得 名 )。 在 分 配 内 存 时 ， 使 用 了 同样 简单 的 最 先 适 配 算法 。 
slob 分 配器 只 有 大 约 600 行 代码 ， 总 的 代码 量 很 小 。 事 实 上 ， 从 速度 来 说 ， 它 不 是 最 高 效 的 分 
配器 ， 也 肯定 不 是 为 大 型 系统 设计 的 。 
口 slub 分 配器 通过 将 页 帧 打包 为 组 ， 并 通过 struct page 中 未 使 用 的 字段 来 管理 这 些 组 ， 试 图 最 
小 化 所 需 的 内 存 开 销 。 读 者 此 前 已 经 看 到 ， 这 样 做 不 会 简化 该 结构 的 定义 ， 但 在 大 型 计算 机 
上 slub 比 slab 提 供 了 更 好 的 性 能 ， 说 明了 这 样 做 是 正确 的 。 
由 于 slab 分 配 是 大 多 数 内 核 配置 的 默认 选项 ， 我 不 会 详细 讨论 备 选 的 分 配器 。 但 有 很 重要 的 一 点 
需要 强调 , 内 核 的 其 余部 分 无 需 关注 底层 选择 使 用 了 哪个 分 配器 。 所 有 分 配器 的 前 端 接口 都 是 相同 的 。 
每 个 分 配器 都 必须 实现 一 组 特定 的 函数 ， 用 于 内 存 分 配 和 缓存 。 
口 kmalloc、_ kmalloc 和 kmalloc_node 是 一 般 的 (特定 于 结 点 ) 内 存 分 配 函 数 。 
口 kmem_cache alloc、kmem cache_alloc_node 提 供 〈 特 定 于 结 点 ) 特定 类 型 的 内 核 缓 存 。 
下 文 在 讨论 slab 分 配器 时 ， 会 讲解 这 些 函数 的 行为 。 使 用 这 些 标准 函数 ， 内 核 可 以 提供 更 方便 的 
函数 ， 而 不 涉及 内 存在 内 部 具体 如 何 管理 。 举 例 来 说 ，kcalloc 为 数组 分 配 内 存 ， 而 kzalloc 分 配 一 
个 填充 字 节 0 的 内 存 区 。 有 具体 情况 如 图 3-43 所 示 。 

















































































































































































































































































































一 般 内 核 代 码 














slab 、slob 或 
slub 分 配器 

















| 伙伴 系统 


物理 页 帧 


图 3-43 ”伙伴 系统 、 通 用 分 配器 和 二 者 到 一 般 内 核 代码 的 接口 之 间 的 关联 


普通 内 核 代 码 只 需要 包含 slab.nh， 即 可 使 用 内 存 分 配 的 所 有 标准 内 核 函 数 。 连 编 系统 会 保证 使 
编译 时 选择 的 分 配器 ， 来 满足 程序 的 内 存 分 配 请 求 。 

3.6.2 内核 中 的 内 存 管理 

内 核 中 一 般 的 内 存 分 配 和 释放 函数 与 C 标 准 库 中 等 价 函 数 的 名 称 类 似 ， 用 法 也 几乎 相同 。 

口 kmalloc(size,，flags) 分 配 长 度 为 size 字 节 的 一 个 内 存 区 ,并 返回 指向 该 内 存 区 起 始 处 的 一 
个 void 指针 。 如 果 没 有 足够 内 存 〈 在 内 核 中 这 种 情形 不 大 可 能 ， 但 却 始终 要 考虑 到 )， 则 结果 
为 NULL 指 针 。 
flags 参 数 使 用 3.5.4 节 讨论 的 GFP 常数， 来 指定 分 配 内 存 的 具体 内 存 域 ， 例 如 GFP_DMA 指 定 分 
配 适 合 于 DMA 的 内 存 区 。 

口 kfree (*ptr) 释 放 *ptr 指 问 的 内 存 
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与 用 户 空间 程序 设计 相 比 , 内 核 还 包括 percpu_， WA free 函 数 , 用 于 为 各 个 系统 CPU 
分 配 和 释放 所 需 内 存 区 (0 D 明确 地 用 于 当前 活动 CPU) 。 

kmalloc 在 内 核 源 代码 中 的 使 用 数 以 生计 ， 但 模式 都 是 相同 的 。 用 jamalloc 分 配 的 内 存 区 ， 首 先 
通过 类 型 转换 变 为 正确 的 类 型 ， 然 后 赋值 到 指针 变量 。 

info = (struct cdrom info *) kmalloc (sizeof (struct cdrom info), GFP_ KERNEL); 

从 程序 员 的 角度 来 看 ， 建 立 和 使 用 缓存 的 任务 不 是 特别 困难 。 必 须 首 先 用 kmem_cache_create 
建立 一 个 适当 的 缓存 ， 接 下 来 即 可 使 用 kmem_cache_alloc 和 kmem_cache_free 分 配 和 释放 其 中 包含 











的 对 象 。slab 分 配器 负责 完成 与 伙伴 系统 的 交互 ， 来 分 配 所 需 的 页 。 


所 有 活动 缓存 的 列表 保存 在 /proc/slabinfor 































































































































































































Ph (为 节省 空间 ， 















































下 文 的 输出 省 去 了 不 重要 的 部 








2 
wolfgang@meitner> cat /proc/slabinfo 
slabinfo - version: 2.1 
# name <active_ objs> <num objs> <objsize> <objperslab> <pagesperslab> : tunables 
<limit> <batchcount> <sharedfactor> : slabdata <active slabs> <num slabs> <sharedavail> 
nf_conntrack expect 0 0 224 18 1 : tunables 0 0 0 : slabdata 0 0 
UDPV6 16 16 960 41 : tunables 0 0 0 : slabdata 4 40 
TCPV6 19 20. 1792 42 : tunables 0 0 0 : slabdata 5 5 9 
xfs_inode 25721 25725 576 7 1 : tunables 00 0 : slabdata 3675 3675 0 
xfs_efi_item 44 44 352 11 1 : tunables 0 0 0 : slabdata 4 40 
xfs_efd_item 44 44 360 11 1 : tunables 000 : 
slabdata 4 4 0 
kmalloc-128 795 992 128 32 1 : tunables 0 0 0 : slabdata 中 注 BL 
kmalloc-64 19469 19584 64 64 1 : tunables 0 .00 : slabdata 306 306 0 
kmalloc-32 2942 2944 32 128 1 : tunables 0 0 0 : slabdata 3 23 0 
kmalloc-16 2869 3072 16 256 1 : tunables 0 0 0 : slabdata 12 2 “0 
kmalloc-8 4075 4096 8 512 1 : tunables 0 0 0 : slabdata 8 8 0 
kmalloc-192 2940 3276 192 21 1 : tunables 0 00 : slabdata 156 156 0 
kmalloc-96 754 798 96 421 tunables 0 0 0 slabdata 19 19 0 
输出 的 各 列 除 了 包含 用 于 标识 各 个 缓存 的 字符 中 名称 (也 确保 不 会 创建 相同 的 缓存 ) 之 外 ， 还 包 
含 下 列 信息 。 
口 缓存 中 活动 对 象 的 数量 。 
口 缓存 中 对 象 的 总 数 〈 已 用 和 未 用 )。 
口 所 管理 对 象 的 长 度 ， 按 字 节 计算 。 
口 一 个 slab 中 对 象 的 数量 。 
口 每 个 slab 中 页 的 数量 。 
口 活动 slab 的 数量 。 
口 在 内 核 决 定向 缓存 分 配 更 多 内 存 时 ， 所 分 配对 象 的 数量 。 每 次 会 分 配 一 个 较 大 的 内 存 块 ， 
减少 与 伙伴 系统 的 交互 。 在 缩小 缓存 时 ， 也 使 用 该 值 作为 释放 内 存 块 的 大 小 。 
除了 容易 识别 的 缓存 名 称 如 unix_sock( 用 于 UNIX 域 套 接 字 , 即 struct unix_sock 类 型 的 对 象 )， 
还 有 其 他 字段 名 称 kmalloc-size。 提供 DMA 内 存 域 的 计算 机 还 包括 用 于 DMA 分 配 的 缓存 ， 在 上 述 的 
例子 中 没有 。 这 些 是 kmalloc 国 数 的 基础 ， 是 内 核 为 不 同 内 存 长 度 提 供 的 slab 缓 存 ， 除 极 少 例外 ， 其 
GD 旧版 本 内 核 为 此 使 用 了 alloc_percpu 和 free_percpu 函 数 ， 但 这 些 函 数 不 支 持 CPU 热 插 拔 。 因 此 只 是 出 于 兼容 的 
原因 才 继 纪 ， 1 不 应 该 用 于 新 代码 中 。 
@ 如 果 在 编译 时 设置 了 coONFIG_DEBUG_SLAB 选 项 ， 则 会 输出 slab 分 配器 其 他 一 些 统计 数据 。 
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长 度 都 是 2 的 寡 次 ， 长 度 的 范围 从 2 二 32B 〈 用 于 页 大 小 为 4KiB 的 计算 机 ) 或 64B〈 所 有 其 他 计算 机 ) ， 
到 223B。 上 界 也 可 以 更 小 ， 是 由 KMALLOC_MAX_SITZE 设 置 ， 后 者 根据 系统 页 大 小 和 最 大 允许 的 分 配 阶 
计算 : 























<slab.h> 
#define KMALLOC_ SHIFT HIGH ( (MAX ORDER + PAGE SHIFT -1) <= 25 ? \ 
(MAX_ ORDER + PAGE_ SHIFT -1) : 25) 








#define KMALLOC_ MAX_SIZE (1UL << KMALLOC_ SHIFT_ HIGH) 
#define KMALLOC_ MAX ORDER (KMALLOC_SHIFT_ HIGH -PAGE_ SHIFT) 


每 次 调用 kmalloc 时 ， 内 核 找到 最 适合 的 缓存 ， 并 从 中 分 配 一 个 对 象 满足 请 求 ( 如 果 没有 刚好 适 
合 的 缓存 ， 则 分 配 稍 大 的 对 象 ， 但 不 会 分 配 更 小 的 对 象 ) 。 
在 实际 实现 中 ， 上 文中 的 slab 分 配器 和 缓存 之 间 的 差异 迅速 消失 ， 以 至 于 本 书后 文中 将 这 两 个 名 
司 用 作 同义词 。 在 讨论 slab 分 配器 的 实现 之 后 ，3.6.5 节 将 考察 Imalloc 的 细节 。 


3.6.3 slab 分 配 的 原理 


slab 分 配器 由 一 个 紧密 地 交织 的 数据 和 内 存 结构 的 网 络 组 成 ， 初 看 起 来 不 容易 理解 其 运作 方式 。 
因此 在 考察 其 实现 之 前 ， 重 要 的 是 获得 各 个 结构 之 间 关 系 的 概观 。 
基本 上 ，slab 缓 存 由 图 3-44 所 示 的 两 部 分 组 成 : 保存 管理 性 数据 的 缓存 对 象 和 保存 被 管理 对 象 的 


各 个 slab。 
目 中 | 


slab slab slab 
图 3-44 ”slab 分 配器 的 各 部 分 


每 个 缓存 只 负责 一 种 对 象 类 型 (例如 struct unix_sock 实 例 )， 或 提供 一 般 性 的 缓冲 区 。 各 个 组 
存 中 slab 的 数目 各 有 不 同 ， 这 与 已 经 使 用 的 页 的 数目 、 对 象 长 度 和 被 管理 对 象 的 数目 有 关 。3.6.4 节 将 
更 详细 地 描述 缓存 长 度 的 计算 方式 。 

另外 ， 系 统 中 所 有 的 缓存 都 保存 在 一 个 双 链 表 中 。 这 使 得 内 核 有 机 会 依次 遍历 所 有 的 缓存 。 这 是 
有 必要 的 ， 例 如 在 即将 发 生 内 存 不 足 时 ， 内 核 可 能 需要 缩减 分 配给 缓存 的 内 存 数量 。 
1. 缓存 的 精细 结构 
如 果 我 们 更 仔细 地 研究 缓存 的 结构 ， 就 可 以 注意 到 一 些 更 重要 的 细节 。 图 3-45 给 出 了 缓存 各 组 成 
了 分 的 概述 。 

除了 管理 性 数据 〈 如 已 用 和 空闲 对 象 或 标志 寄存 器 的 数目 )， 缓 存 结构 包括 两 个 特别 重要 的 成 员 。 
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要 届 


口 

















每 个 内 存 结 点 都 对 应 3 个 表 头 ， 用 于 组 织 slab 的 链表 。 第 1 个 链表 包含 完全 用 尽 的 slabp， 第 2 个 是 
分 空闲 的 slab， 第 3 个 是 空闲 的 slab。 





















struct 
kmem_cache 


指向 slab 中 对 象 的 
指针 构成 的 数组 























图 3-45 slab 缓存 的 精细 结构 


缓存 结构 指向 一 个 数组 ， 其 中 包含 了 与 系统 CPU 数目 相同 的 数组 项 。 每 个 元 素 都 是 一 个 指针 ， 指 
向 一 个 进一步 的 结构 称 之 为 0DDD (array cache) ， 其 中 包含 了 对 应 于 特定 系统 CPU 的 管理 数据 《就 

































































总 体 来 看 ， 不 是 用 于 缓存 )。 管 理性 数据 之 后 的 内 存 区 包含 了 一 个 指针 数组 ， 各 个 数组 项 指向 slab 中 未 





使 用 的 对 象 。 






































负 














为 最 好 地 利用 CPU 高 速 缓存 ， 这 些 per-CPU 指 针 是 很 重要 的 。 在 分 配 和 释放 对 象 时 ， 采 用 后 进 先 
出 原理 (LIFO，last in first out)。 内 核 假定 刚 释放 的 对 象 仍然 处 于 CPU 高 速 缓存 中 ， 会 尽 

它 《 响 应 下 一 个 分 配 请 求 )。 仅 当 per-CPU 缓 存 为 空 时 ， 才 会 用 slab 中 的 空闲 对 象 重 新 填充 它们 。 
这 样 ， 对 象 分 配 的 体系 就 形成 了 一 个 三 级 的 层次 结构 ， 分 配 成 本 和 操作 对 CPU 高 速 缓存 和 TLB 的 
1 面 影响 逐 级 升 高 。 















































快 再 次 分 配 


















































(1) 仍然 处 于 CPU 高 速 缓存 中 的 per-CPU 对 象 。 

(2) 现存 slab 中 未 使 用 的 对 象 。 

(3) 刚 使 用 伙伴 系统 分 配 的 新 slab 中 未 使 用 的 对 象 。 

2. slab 的 精细 结构 

对 象 在 slab 中 并 非 连续 排列 ， 而 是 按照 一 个 相当 复杂 的 方案 分 布 。 图 3-46 说 明了 相关 细节 。 

































































于 每 个 对 象 的 长 度 并 不 反映 其 确切 的 大 小 。 相 反 ， 长 度 已 经 进行 了 舍 入 ， 以 满足 某 些 对 齐 方式 














的 要 求 。 有 两 种 可 用 的 备 选 对 齐 方案 。 























口 slab 创 建 时 使 用 标志 SsLAB_HWCACHE_ALIGN, slab 用 户 可 以 要 求 对 象 按 硬件 缓存 行 对 齐 。 那么 会 
按照 cache_line_size 的 返回 值 进行 对 齐 ， 该 函数 返回 特定 于 处 理 器 的 L1 绥 存 大 小 。 















































如 果 对 象 小 于 缓存 行 长 度 的 一 半 ， 那 么 将 多 个 对 象 放 入 一 个 缓存 行 。 























口 如 果 不 要 求 按 硬件 缓存 行 对 齐 ， 那 么 内 核 保 证 对 象 按 BYTES_PER_WORD 对 齐 ， 该 值 是 表示 void 
指针 所 需 字 节 的 数目 。 






































在 32 位 处 理 











器 上 ，void 指 针 需 要 4 个 字 节 。 因 此 ， 对 有 6 个 字 节 的 对 象 ， 则 需要 8 = 2x4 个 字 节 ， 





15 个 字 节 的 对 象 需要 16=4x4 个 字 节 。 多 余 的 字 节 称 为 D DDDO。 
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色 空 间 



























































>| 对 象 长 度 | 





图 3-46 


填充 字 节 可 以 加 速 对 slab 中 对 象 的 访问 。 如 果 使 
内 存 访 问 都 会 更 快 。 这 弥补 了 使 用 填充 字 节 必然 导致 





slab 的 精细 结构 


对 齐 的 地 址 ， 那 么 在 几乎 所 有 的 体系 结构 上 ， 
需要 更 多 内 存 的 不 利 情况 。 





























管理 结构 位 于 每 个 slab 的 起 始 处 ， 保 存 了 所 有 的 管理 
其 后 面 是 一 个 数组 ， 每 个 〈 整 数 ) 数组 项 对 应 于 slab 中 的 一 个 对 象 。 只 有 在 对 象 0 口 分 配 时 ， 相 应 的 
数组 项 才 有 意义 。 在 这 种 情况 下 ， 它 指定 了 下 一 个 空 
使 用 链表 或 其 他 复杂 的 关联 机 制 ， 即 可 轻松 找到 当前 可 























还 保存 在 slab 起 始 处 的 管理 结构 中 ， 内 核 无 需 



































箱 对 象 的 索 纪 





EE 数据 (和 


于 对 齐 的 填充 字 贡 


























于 连接 缓存 链表 的 链表 元 素 〉。 
































|。 由 于 最 低 编 号 的 空闲 对 象 的 编号 























用 的 所 有 对 象 。” 数 组 的 最 后 一 项 总 是 
图 3-47 对 此 给 出 了 图 示 。 








个 结束 标记 ， 值 











为 BUFCTL_END。 





| | 管理 数组 | slab 对 象 | 
































Slab 


图 3-47 


空闲 对 象 的 管理 
































大 多 数 情况 下 ，slab 内 存 区 的 长 度 《〈 减 去 了 头 音 














管理 














整除 的 。 因 此 ， 内 核 就 有 了 一 些 多 余 的 内 存 ， 可 























齐 (下文 讨论 )。 



































取决 于 slab 的 长 度 和 已 用 对 象 的 数量 。 


管理 数据 可 以 放置 在 slab 自 身 , 也 可 以 放置 到 
相应 的 选择 标准 稍 后 讨论 。 管理 数据 和 slab 内 存 之 间 的 关联 很 容 

















以 
缓存 的 各 个 slab 成 员 会 指定 不 同 的 偏 移 量 ， 以 便 将 数据 定位 至 
空 闪 内存 是 不 同 的 。 在 计算 偏 移 量 时 ， 内 核 必须 考 








蔬 理 数据 〉 是 不 能 被 (可 能 填补 过 的 ) 对 象 长 度 
来 以 偏 移 量 的 形式 给 slab “着色 ” 如 上 文 所 述 。 














虑 其 他 的 对 章 因 





上 不 同 的 缓存 行 ， 因 而 slab 开 始 和 结束 处 的 





素 。 例 如 ,Ll 高 速 缓存 中 数据 的 对 





用 kmalloc 分 配 的 不 同 内 存 区 中 。 内 核 如 何 选择 ， 

















易 建 立 ， 因 为 slab 头 包含 了 一 个 指针 ， 指 向 slab 数 据 区 的 起 始 处 《无 论 管理 数据 是 否 在 slab 上 )。 


























图 3-48 给 出 了 管理 数据 不 在 slab 自 身 ( 按 医 
































GD sunOS 操 作 系 统 核心 中 slab 分 配器 的 原 有 实现 使 用 了 








加 这 样 做 ， 在 kmalloc 缓 存 初 始 化 时 需要 特别 小 心 ， 





天 | 


为 此 时 尚 无 法 调 











此 类 先 有 鸡 还 是 先 有 蛋 的 问题 ， 都 将 在 下 文 讨论 。 


个 链表 来 跟踪 空 





3-46 的 式样 )， 而 位 于 另 一 内 存 区 的 情形 。 


闲 对 象 。 

















kmalloc。 在 slab 初 始 化 过 程 中 ， 所 涉及 的 
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图 3-48 ”slab 首 部 位 于 slab 外 部 的 情形 
































最 后 ， 内 核 需 要 一 种 方法 ， 通 过 对 象 自身 即 可 识别 slab《〈 以 及 对 象 驻 留 的 缓存 )。 根 据 对 象 的 物理 
内 存 地 址 ， 可 以 找到 相关 的 页 ， 因 此 可 以 在 全 局 mem_map 数 组 中 找到 对 应 的 page 实 例 。 
我 们 已 经 知道 ，page 结 构 包 括 一 个 链表 元 素 ， 用 于 管理 各 种 链表 中 的 页 。 对 于 slab 缓 存 中 的 页 而 
言 ， 该 指针 是 不 必要 的 ， 可 用 于 其 他 用 途 。 
口 page->lru.next 指 向 页 驻 留 的 缓存 的 管理 结构 。 
口 page->lru.prev 指 向 保存 该 页 的 slab 的 管理 结构 。 
设置 或 读 取 slab 信 息 分 别 由 set_page_slab 和 get_page_slab 畏 数 完成 ， 带 有 _cache 后 缀 的 函数 
则 处 理 缓存 信息 的 设置 和 读 取 。 


mm/slab.c 
void page_set_cache(struct page *page, struct kmem cache *cache) 
struct kmem cache *page get_ cache(struct page *page) 






















































































































































































void page_ set_ slab(struct page *page, struct Slab *slab) 
struct Slab *page get_slabl(struct page *page) 


此 外 ， 内 核 还 对 分 配给 slab 分 配器 的 每 个 物理 内 存 页 都 设置 标志 PG_SLAB。 
3.6.4 ”实现 


为 实现 如 上 所 述 的 slab 分 配器 ， 使 用 了 各 种 数据 结构 。 尽 管 看 上 去 并 不 困难 ， 相 关 的 代码 并 不 总 
是 容易 阅读 或 理解 。 这 是 因为 许多 内 存 区 需要 使 用 指针 运算 和 类 型 转换 进行 操作 ， 这 些 可 不 是 C 语 言 
中 以 清晰 简明 著称 的 领域 。 由 于 slab 系 统 带 有 大 量 调试 选项 ， 所 以 代码 中 遍布 着 预 处 理 器 语句 。" 其 中 
一 些 如 下 列 出 。 
口 危险 区 (Red Zoning): 在 每 个 对 象 的 开始 和 结束 处 增加 一 个 额外 的 内 存 区 ， 其 中 填充 已 知 的 
字 节 模式 。 如 果 模 式 被 修改 ， 程 序 员 在 分 析 内 核 内 存 时 注意 到 ， 可 能 某 些 代码 访问 了 不 属于 
它们 的 内 存 区 。 
口 对 象 毒化 (Object Poisoning): 在 建立 和 释放 slab 时 ， 将 对 象 用 预定 义 的 模式 填充 。 如 果 在 对 
象 分 配 时 广 意 到 该 模式 已 经 改变 ， 程 序 员 就 知道 已 经 发 生 了 未 授权 访问 。 
为 简明 起 见 ， 我 们 把 注意 力 集中 在 整体 而 不 是 细节 上 。 我 们 在 下 文 不 使 用 上 述 选项 ， 只 讲解 一 个 
“纯粹 ”的 slab 分 配器 。 
1. 数据 结构 
每 个 缓存 由 kmem_cache 结 构 的 一 个 实例 表示 , 该 结构 在 mm/slab.c 中 定义 。 该 结构 在 内 核 中 其 他 
地 方 是 不 可 见 的 ， 因 为 它 定 义 在 一 个 .c 文 件 中 ， 而 不 是 头 文件 。 这 是 因为 ， 绥 存 的 用 户 无 须 详 细 了 解 
缓存 是 如 何 实现 的 。 将 Slab 缓存 视 为 通过 一 组 标准 函数 来 高 效 地 创建 和 释放 特定 类 型 对 象 的 机 制 ， 就 
足够 了 。 





















































































































































































































































































































































@ 要 启用 调试 ， 在 编译 时 必须 设置 CONFIG_DEBUG_SLAB 配 置 选 项 ， 但 这 会 显著 降低 分 配器 的 性 能 。 
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该 结构 的 内 容 如 下 : 


mm/slab.c 

struct kmem cache { 

/* 1) per-CPU 数 据 ， 在 每 次 分 配 / 释 放 期 间 都 会 访问 */ 
struct array_cache *array[NR_CPUS]; 

/* 2) 可 调整 的 缓存 参数 。 由 cache_chain_mutex 保 护 */ 
unsigned int batchcount; 
unsigned int limit; 
unsigned int shared; 




















unsigned int puffer_ size; 
u32 reciprocal buffer size; 


/* 3) 后 端 每 次 分 配 和 释放 内 存 时 都 会 访问 */ 








unsigned int flags; /* 常数 标志 */ 
unsigned int num; /* 每 个 slab 中 对 象 的 数量 */ 


/* 4) 缓存 的 增长 /缩减 */ 
/* 每 个 slab 中 页 数 ， 取 以 2 为 底数 的 对 数 */ 
unsigned int gfporder; 








/* 强制 的 GFP 标 志 ， 例 如 GFP_DMA */ 
gfp_t gfpflags; 








i 











size_t colour; /* 缓存 着 色 范 围 */ 
unsigned int colour_off; /* 着 色 偏 移 */ 
struct kmem cache *slabp_cache; 
unsigned int slab size; 

unsigned int dflags; /* 动态 标志 */ 








/* 构造 函数 */ 
void (*ctor) (struct kmem cache *, void *); 








/* 5) 缓存 创建 /删除 */ 
const char *name; 
struct list head next; 


/* 6) 统计 量 */ 


struct kmem list3 *nodelists{[MAX NUMNODES]; 
3 


这 个 元 长 的 结构 分 为 多 个 部 分 ， 如 源 代码 中 的 注释 所 示 。" 

开始 的 几 个 成 员 涉 及 每 次 分 配 期 间 内 核对 特定 于 CPU 数据 的 访问 ， 在 本 节 稍 后 讨论 。 

口 array 是 一 个 指向 数组 的 指针 ， 每 个 数组 项 都 对 应 于 系统 中 的 一 个 CPU。 每 个 数组 项 都 包含 了 
另 一 个 指针 ， 指 向 下 文 讨 论 的 array_cache 结 构 的 实例 。 

口 batchcount 指 定 了 在 per-CPU 列 表 为 空 的 情况 下 ， 从 缓存 的 slab 中 获取 对 象 的 数目 。 它 还 表示 

在 缓存 增长 时 分 配 的 对 象 数目 。 

口 1imit 指 定 了 per-CPU 列 表 中 保存 的 对 象 的 最 大 数目 。 如 果 超 出 该 值 ， 内 核 会 将 batchcount 个 
对 象 返回 到 slab 〈 如 果 接 下 来 内 核 缩减 缓存 ， 则 释放 的 内 存 从 slab 返 回 到 伙伴 系统 )。 
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3 了 slab 调 试 ， 该 结构 结束 处 是 男 一 部 分 由 内 核 收集 的 统计 信息 。 
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口 buffer_size 指 定 了 缓存 中 
口 假定 内 核 有 一 个 指针 指向 slab 中 

将 指针 指向 的 对 象 地 址 ， 减 去 slab 内 存 

长 度 。 考 虑 一 个 例子 ， 一 个 slab 
| 象 位 于 内 存 位 置 113 。 对 象 和 slab 起 始 处 之 间 的 
感 的 是 ， 在 某 些 较 古 老 的 计算 机 上 ， 除 法 比较 慢 。 
于 乘法 在 这 些 计 算 机 上 要 快 得 多 ， 


15/5=3。 遗 1 


A 了 
"Ee 
已 ] 








时 的 对 象 的 长 度 。? 











的 一 个 元 素 ， 而 需要 确定 对 应 的 对 象 索 引 。 最 容易 的 方法 是 ， 
区 的 起 始 地 址 ， 然 后 将 获得 的 对 象 偏 移 量 ， 除 以 对 象 的 











内 存 


























和 








道 ， 内 核 可 以 不 计算 c = A/B， 而 是 采 
的 方式 ， 后 者 涉及 的 两 个 函数 都 是 库 程 序 。 由 于 

















区 起 始 于 内 存 位 





因此 内 核 使 
移 位 。 尽 管 对 我 们 来 说 ， 数 学 细节 没什么 趣味 








100， 





每 个 对 象 需要 5 字 节 ， 上 文 所 述 的 







































































系统 处 理 器 都 提供 了 


mm/slab.c 
struct array_cache { 


] 


batchcount 和 1imit 的 语义 


的 默认 值 ， 月 





avail 保 存 了 当前 可 用 对 象 的 数 





int avail; 

TE Lm 
unsigned int batchcount; 
unsigned int touched; 
spinlock 七 lock; 

void *entry[]; 


unsigned 
unsigned 





已 经 在 











日 于 缓存 的 重新 填充 或 清空 。 
目 。 在 从 缓存 移 除 一 个 对 象 时 ，， 
时 ， 则 将 oucheq 设 置 为 0。 这 使 得 内 核能 够 确认 在 缓存 上 一 次 收缩 之 后 是 否 被 访问 过 ， 也 是 缓存 重要 



































性 的 





个 标志 。 最 后 


a 
个 成 员 是 一 个 


array_cache 实 例 之 后 缓存 中 的 各 个 对 象 而 已 。 


kmem_cache 和 第 3、 第 4 部 分 包含 了 管理 
访问 这 两 部 分 。 
口 nodelists 是 一 个 数组 ， 每 个 数组 I 





上 文 给 


擅 数 组 








> 一 




















Eslab 所 


熙 局 
TI 











页 对 














应 村 














在 形式 上 


其 吕 


的 
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省 且 


全 部 变量 ， 





并 没有 数组 : 














te 





扁 移 量 为 115-100=15， 因 | 





此 对 象 索 引 是 





所 谓 的 Newton-Raphson 方 法 ， 这 只 需要 乘法 
〈 可 以 在 任何 标准 教科 书 中 找到 ) ，1 
和 CcC = reciprocal divide(A, reciprocal value(B)) 
特定 slab 中 的 对 象 长 度 是 恒定 的 ， 内 核 可 以 将 
buffer_size 的 recpirocal 值 存储 在 recpirocal_buffer_size 中 ,该 值 可 以 在 后 续 的 除法 计 

算 中 使 用 
内 核对 每 个 














| 需要 知 








个 array_cache 实 例 。 该 结构 定义 如 下 : 


。kmem_cache_s 的 值 用 作 (通常 不 修改 ) per-CPU 值 


各 touched 设 置 为 1， 而 缓存 收缩 
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» Fa 





UD 








页 是 为 了 便于 访问 内 存 





在 填充 或 清空 per-CPU 绥 存 时 需要 











NAXE 
































struct kmem_1ist3 的 一 个 实 

下 文 讨论 。 

该 成 员 必须 置 于 结构 的 末尾 。 尽 管 它 

实际 可 用 的 结 点 数目 可 能 会 少 一些 。 因 
分 配 比 理论 上 更 少 的 内 存 ， 就 可 以 纵 ; 

无 法 做 到 这 一 点 。 





在 U 


MA 计算 机 上 ， 这 称 不 上 问题 ， 
口 f1ags 是 一 个 标志 寄存 器 ， 定 义 缓存 的 4 























而 该 数组 需要 的 项 数 也 会 变 少 ， 
或 该 数组 的 项 数 。 包 











大 











为 只 有 一 个 可 用 结 点 


襄 


o 





一 个 可 能 
列 ， 该 结构 中 有 3 个 slab 列 表 ( 完 全 用 


有 MAX_NUMNODES 项 ， 但 





内存 结 点 。 每 个 数组 项 都 包含 
尺 、 罕 闲 、 部 分 空 采 )， 在 


























在 NUMA 计 算 机 上 
内 核 在 运行 时 对 该 结构 














I 果 nodelists 放 置 在 该 结构 中 间 ， 就 
































slab 外 部 ， 则 置 位 cFLGS_OFF_SLAB。 



































GD 如 果 启 
了 额外 











的 填充 字 节 。 在 这 种 情况 下， 由 另 


了 slab 调 试 ，buffer_size 可 能 与 对 象 长 


全 局 性 质 。 当 前 只 有 





个 标志 位 。 如 果 管 理 结 构 存 储 在 

















度 不 同 ， 


天 | 




















为 (除了 





于 对 齐 的 填充 字 节 之 外 ) 每 个 对 象 都 加 入 











个 变量 来 表示 对 象 的 真 








[人 反 。 
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所 有 slabj 








NUMA 计 算 机 相关 ， 








口 objsize 是 缓存 中 对 象 的 长 度 ， 包 括 用 于 对 齐 目的 的 所 有 填充 字 节 。 


口 num 保 存 了 可 以 放 入 slab 的 对 象 的 最 大 数目 。 






































口 free_1imit 指 定 I 过 后 空闲 对 象 数 的 上 限 〈 如 果 在 正常 运行 期 间 无 需 收 缩 缓 存 ， 


那么 空闲 对 象 的 数目 可 能 超出 该 值 ) 。 
用 于 管理 slab 链 表 和 个 独立 的 数据 结构 中 ， 定 义 如 下 : 


























mm/slab.c 


struct kmem list3 { 
struct list_head slabs_partial; /* 首先 是 部 分 空闲 链表 ， 以 便 生 成 性 能 

list_ head slabs_full; 

list_ head slabs_free; 


struct 
struct 















































浊 











unsigned long free objects; 
unsigned int free limit; 
unsigned int colour_next; /* 各 结 点 缓存 着 色 */ 








spinlock 七 List_lock'; 

struct array_cache *shared; /* 结 点 内 共享 */ 
struct array_cache **alien; 在 其 他 结 点 上 Wh 
unsigned long next reap; /* 无 需 锁定 即 可 更 新 */ 


















































int free_touched; /* 无 需 锁定 即 可 更 新 */ 
}3 
台 3 个 表 头 的 语义 ， 在 前 文 已 经 解释 过 。free_objects 表 示 slabs_partial 和 slabs 
PP 空闲 对 象 的 总 数 。 











好 的 汇编 代码 */ 


_free 的 


free_touched 表 示 缓 存 是 否 是 活动 的 。 在 从 缓存 获取 一 个 对 象 时 ， 内 核 将 该 变量 的 值 设置 为 1 。 

































































在 缓存 收缩 时 ， 该 值 重 置 为 0。 但 内 核 只 有 在 free_touchegd[ [ 设置 为 0 时 ， 才 会 收缩 缓存 。 
示 内 核 的 另 一 部 分 刚 从 该 缓存 获取 对 象 ， 此 时 收缩 是 不 合适 的 。 








因为 1 表 








加 





D0000000000 perCPUd 0 touched 








next_reap 定 义 了 内 核 在 两 次 尝试 收缩 缓存 之 间 ， 必 须 经 过 的 时 间 间 隔 。 其 想法 是 防止 
的 缓存 收缩 和 
统 上 使 用 ， 我 们 不 会 进 一 

















1 于 频繁 














free_limit 指 定 了 所 有 slab 上 容许 未 使 用 对 象 的 最 大 数目 。 
该 结构 结束 于 指向 array_cache 实 例 的 指针 ， 这 些 是 由 各 结 点 内 部 共享 或 源 自 其 他 结 点 。 这 与 
































增长 操作 而 降低 系统 性 能 ， 这 种 操作 可 能 在 某 些 系统 负荷 下 发 生 。 该 技术 只 在 NUMA 系 
































但 为 简明 起 见 ， 我 们 不 会 详细 讨论 。 
kmem_cache 的 第 3 部 分 包含 用 于 增长 〈 和 收缩 ) 缓存 的 所 有 变量 。 























口 gfporder 指 定 了 slap 包 含 的 页 数目 以 2 为 底 的 对 数 ， 换 名 话说 ，slab 包 含 2” ”页 。 


口 3 个 colour 成 员 包 含 了 slab 着 色相 关 的 所 有 数据 。 























colour 指 定 了 颜色 的 最 大 数目 ，colour_next 则 是 内 核 建立 的 下 一 个 slab 的 颜色 。 但 要 注意 ， 
该 值 指 定 为 kmem_list3 的 一 个 成 员 。colour_off 是 基本 偏 移 量 乘 以 关 色 值 获得 的 引 






















































































色 对 偏 移 
量 。 这 也 是 用 于 NUMA 计 算 机 ，UMA 系 统 可 以 将 colour_next 保 存在 struct kmem_cache 中 。 
但 将 下 一 个 颜色 放置 在 特定 于 结 点 的 结构 中 ， 可 以 对 同一 结 点 上 添加 的 slab 顺 序 着 色 ， 
的 CPU 高 速 缓存 有 好 处 。 
实 


对 本 地 


实例 一 一 如 果 有 5 种 可 能 的 颜色 (0, 1, 2, 3, 4)， 而 偏 移 量 单位 是 8 季节， 内核 可 以 使 用 下 列 偏 移 


























GD 指 array_cache 结 构 的 touched 成 员 。 一 一 译 者 注 








量 值 : 0x8= 0，1x8 = 8，2x8=16，3x8=24，4x8= 32 字 节 。 
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3.6.4 节 考察 了 内 核 确定 slab 颜 色 的 方式 。 此 外 要 注意 到 ， 内 核 源 代码 中 colour 的 拼写 与 本 书 相 
反 ， 不 过 从 英 式 英 语 的 角度 来 看 ， 是 正确 的 。 

口 如 果 slab 头 部 的 管理 数据 存储 在 slab 外 部 ， 则 slabp_cache 指 向 分 配 所 需 内 存 的 一 般 性 缓存 。 

如 果 slab 头 部 在 slab 上 ， 则 slabp_cache 为 NULIL 指 针 。 

口 sflags 是 另 一 个 标志 集合 ， 描 述 slab 的 “动态 性 质 ”， 但 当前 没有 定义 标志 。 

口 ctor 是 一 个 指针 ， 指 向 在 对 象 创建 时 调用 的 构造 函数 。 该 方法 在 诸如 C++ 和 Java 之 类 的 面 癌 对 

象 编程 语言 中 为 大 家 所 熟知 。 以 前 的 内 核 版 本 确实 也 提供 了 指定 一 个 额外 的 析 构 函数 的 功能 ， 

但 由 于 没有 使 用 的 缘故 ， 该 特性 已 经 在 内 核 版 本 2.6.22 开 发 期 间 撤 销 。 
struct kmem_cache 的 第 5 和 最 后 一 部 分 (统计 数据 字段 ， 我 们 对 此 不 感 兴趣 ) 由 另外 两 个 成 员 

组 成 。 

口 name 是 一 个 字符 串 ， 包 含 记 

使 用 。 

口 next 是 一 个 标准 的 链表 元 素 , 用 于 将 kmem_cache 的 所 有 实例 保存 在 全 局 链表 cache_chain 上 。 
2. 初始 化 
初 看 起 来 ，slab 系 统 的 初始 化 不 是 特别 麻烦 ， 因 为 伙伴 系统 已 经 完全 启用 ， 内 核 没有 受到 其 他 特 

别 的 限制 。 尽 管 如 此 ， 由 于 slab 分 配器 的 结构 所 致 ， 这 里 有 一 个 0 DD 的 问题 。” 

为 初始 化 slab 数 据 结构 ， 内 核 需 要 若干 远 小 于 一 整 页 的 内 存 块 ， 这 些 最 适合 由 kmalloc 分 配 。 这 

里 是 关键 所 在 : 只 在 slab 系 统 已 经 启用 之 后 ， 才 能 使 用 kmalloc。 

更 确切 地 说 , 该 问题 涉及 kmalloc 的 per-CPU 绥 存 的 初始 化 ,在 这 些 缓存 能 够 初始 化 之 前 , kmalloc 

必须 可 以 用 来 分 配 所 需 的 内 存 空间 ， 而 kmalloc 自 身 也 正 处 于 初始 化 的 过 程 中 。 换 名 话说 ，kmalloc 

只 能 在 kmalloc 已 经 初始 化 之 后 初始 化 ， 这 是 个 不 可 能 的 场景 。 因 此 内 核 必 须 借 助 一 些 技巧 。 
kmem_cache_init 函 数 用 于 初始 化 slab 分 配器 。 它 在 内 核 初始 化 阶段 (start_kernel) 、 伙 伴 系 

统 启用 之 后 调用 。 但 在 多 处 理 器 系统 上 ， 启 动 CPU 此 时 正在 运行 ,而 其 他 CPU 尚未 初始 化 。 

kmem_cache_init 采 用 了 一 个 多 步骤 过 程 ， 逐 步 激活 slab 分 配器 。 
(1) kmem_cache_init 创 建 系 统 中 的 第 一 个 slab 缓 存 ， 以 便 为 kmem_cache 的 实例 提供 内 存 。 为 此 ， 

内 核 使 用 的 主要 是 在 编译 时 创建 的 静态 数据 。 实 际 上 ， 一 个 静态 数据 结构 (initarray_cache) 用 作 

per-CPU 数 组 。 该 缓存 的 名 称 是 cache_cache。 
(2) kmem_cache_init 接 下 来 初始 化 一 般 性 的 缓存 ， 用 作 kmalloc 内 存 的 来 源 。 为 此 ， 针 对 所 需 

的 各 个 缓存 长 度 ， 分 别 调用 kmem_cache_create。 该 函数 起 初 只 需要 cache_cache 绥 存 已 经 建立 。 但 

在 初始 化 per-CPU 缓 存 时 ， 该 函数 必须 借助 于 kmalloc， 这 尚且 不 可 能 。 

为 解决 该 问题 ， 内 核 使 用 了 g_cpucache_up 变 量 ， 可 接受 以 下 4 个 值 (NONE、PARTIAL_AC、 

PARTIAL_L3、FULL)， 以 反映 kmalloc 初 始 化 的 状态 。 

最 初 内 核 的 状态 是 NONE。 在 最 小 的 kmalloc 绥 存 ( 在 4KiB 内 存 页 的 计算 机 上 提供 32 字 节 内 存 块 ， 

在 其 他 页 长 度 的 情况 下 提供 64 字 节 内 存 块 。 现 有 各 种 分 配 长 度 的 定义 请 参见 3.6.5 节 ) 初始 化 时 ， 再 次 

将 一 个 静态 变量 用 于 per-CPU 的 缓存 数据 。 
g_cpucache_up 中 的 状态 接 下 来 设置 为 PARTIAL_AC， 意 味 着 array_cache 实 例 可 以 立即 分 配 。 
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的 名 称 。 例 如 ， 在 列 出 /proc/slabinfo 中 可 用 的 缓存 时 ， 会 
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QD 所 谓 鸡 和 蛋 的 问题 ， 是 指 : 茶 事 的 发 生 依赖 男 一 事件 的 发 生 ， 后 者 又 同样 依赖 前 者 。 例 如 ， 如 果 为 初始 化 A， 必 
须 先 有 B， 但 初始 化 B 时 ， 又 必须 先 有 A。 其 原型 是 一 个 古老 的 问题 ， 是 先 有 鸡 ， 还 是 先 有 蛋 ? 如 果 读 者 是 科学 家 ， 
也 可 以 使 用 术语 0D0DODDODO (causality dilemma)， 表 达 的 意思 相同 ， 只 是 听 起 来 有 学 问 得 多 …… 
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如 果 初 始 化 的 长 度 还 足够 分 配 kmem_1ist3 实 例 ， 则 状态 立即 转变 为 PARTIAL_L3。 否 则 ， 只 能 等 下 一 
个 更 大 的 缓存 初始 化 之 后 才 变 更 。 

剩余 kmalloc 组 存 的 per-CPU 数 据 现在 可 以 用 kmalloc 创 建 ， 这 是 一 个 arraycache_init 实 例 , 只 
需要 最 小 的 kmalloc 内 存 区 。 


mm/slab.c 
struct arraycache_init { 
struct array_cache cache; 
void * entries [BOOT CPUCACHE ENTRIES]; 


























下 

(3) 在 kmem_cache_init 的 最 后 一 步 ， 把 到 现在 为 止 一 直 使 用 的 数据 结构 的 所 有 静态 实例 化 的 成 
员 ， 用 jamalloc 动 态 分 配 的 版 本 替换 。g_cpucache_up 的 状态 现在 是 FULL， 表 示 slap 分 配器 已 经 就 绪 ， 
可 以 使 用 。 

3. 创建 缓存 
创建 新 的 slab 绥 存 必须 调用 kmem_cache_create。 该 函数 需要 很 多 参数 。 


mm/slab.c 

struct kmem cache * 

kmem cache create (const char *name, size t size, size _t align, 
unsigned long flags, 
void (*ctor) (struct kmem cache *, void *)) 


除了 可 读 的 name 随 后 会 出 现在 /proc/slabinfo 以 外 ， 该 函数 需要 被 管理 对 象 以 字 节 计 的 长 度 ， 
在 对 齐 数据 时 使 用 的 偏 移 量 (align, 几乎 所 有 的 情形 下 都 是 0) ,flags 中 是 一 组 标志 , 而 ctor 和 dtor 
中 是 构造 / 析 构 函数 。 

创建 新 缓存 是 一 个 元 长 的 过 程 ，kmem_cache_create 的 代码 流程 图 如 图 3-49 所 示 。 


参数 有 效 性 
计算 对 齐 值 


确定 slab 头 的 存储 位 置 



























































































































































calculate_slab_order 

















用 cache_estimate 从 代 计 算 缓 存 长 度 








计算 颜 





色 











enable_cpucache do_tune_cpucache 





将 缓存 插入 到 cache_chain 中 | 














图 3-49 ”kmem_cache_create 的 代码 流程 图 


其 中 进行 了 几 个 参数 检查 ， 以 确保 没有 指定 无 效 值 《 例 如 ， 比 处 理 器 字 长 更 短 的 对 象 长 度 ， 没 有 
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名 字 的 slab， 等 等 )， 然 后 才 执行 第 一 个 重要 的 步 又， 计算 对 齐 所 需 的 填充 字 节 数 。 首 先 ， 对 象 长 度 向 
上 舍 入 到 处 理 器 字 长 的 倍数 : 
mm/slab.c 


kmem cache 七 * 
kmem_ cache_ create (...) { 




















if (size & (BYTES_PER WORD-1)) { 
size += (BYTES_PER_ WORD-1); 
size &= ~ (BYTES_PER_ WORD-1); 
} 
对 象 对 齐 〈 在 align 中 ) 通常 也 是 基于 处 理 器 的 字 长 。 但 如 果 设 置 了 SLAB_HWCACHE_ALIGN 标 志 ， 
则 内 核 按照 特定 于 体系 结构 的 函数 cache_1ine_size 给 出 的 值 ， 来 对 齐 数据 。 内 核 还 尝试 将 尽 可 能 
的 对 象 填充 到 一 个 缓存 行 中 , 只 要 对 象 长 度 允 许 ,， 则 会 一 直 尝 试 将 对 齐 值 除 以 2。 因 此 , 会 有 2、4、6… 
个 对 象 放 入 一 个 缓存 行 ， 而 不 是 只 有 一 个 对 象 。 
mm/slab.c 
/* 1) 体系 结构 推荐 : */ 
if (flags & SLAB HWCACHE ALIGN) { 
/* 默认 对 齐 值 ， 由 特定 于 体系 结构 的 代码 指定 。 _ 
* 如 果 一 个 对 象 比较 小 ， 则 会 将 多 个 对 象 挤 到 一 个 缓存 行 中 。 
Wh 
ralign = cache line size(); 


while (size <= ralign/2) 
ralign /= 2; 
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} else { 
ralign = BYTES_PER WORD; 
} 


内 核 也 考虑 到 下 述 事实 : 某 些 体系 结构 需要 一 个 最 小 值 作为 数据 对 齐 的 边界 ， 由 ARCH_SLAB_ 
MINALIGN 定 义 。 用 户 所 要 求 的 对 齐 也 可 以 接受 。 
mm/slab.c 
/* 2) 体系 结构 强制 的 最 小 对 齐 值 */ 
if (ralign < ARCH _ SLAB MINALIGN) { 
ralign = ARCH_ SLAB MINALIGN; 





















































} 
/* 3) 调用 者 强制 的 对 齐 值 */ 
if (ralign < align) { 
ralign = align; 


皇储 最 后 计算 出 的 对 齐 值 。 */ 


) 
align = ralign; 
































在 数据 对 齐 值 计算 完毕 之 后 ， 分 配 struct kmem_cache 的 一 个 新 实例 (为 执行 该 分 配 ， 提 供 了 一 
个 独立 的 slab 缓 存 ， 名 为 cache_cache )。 
确定 是 否 将 slab 头 存储 在 slab 之 上 《参见 3.6.3 节 ) 相对 比较 简单 。 如 果 对 象 长 度 大 于 页 帧 的 1/8， 
则 将 头 部 管理 数据 存储 在 slab 之 外 ， 否 则 存储 在 slab 上 。 






























































mm/slab.c 
if (size >= (PAGE_ SIZE>>3)) 
* 对 象 长 度 比较 大 , 那么 最 好 将 slab 管 理 数 据 放置 在 slab 之 外 (能 够 更 好 地 填充 实际 对 象 )。 
Ww 


flags |= CFLGS_OFF_SLAB; 
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size = ALIGN(size, align); 


在 kmem_cache_create 调 用 时 显 式 设置 CFLGS_OFF _SLAB， 那 么 对 较 小 的 对 象 ， 也 可 以 将 slab 头 
存储 在 slab 之 外 。 

最 后 ， 增 加 对 象 的 长 度 size， 直 至 对 应 到 上 文 计 算 的 对 齐 值 。 

到 目前 为 止 ， 我 们 只 定义 了 对 象 的 长 度 ， 而 没有 定义 slab 的 长 度 。 因 此 在 下 一 步 中 ， 会 尝试 找到 
适当 的 页 数 用 作 slab 长 度 ， 不 太 小 ， 也 不 太 大 。slab 中 对 象 太 少 会 增加 管理 开销 ， 降 低 方 法 的 效率 ， 而 
过 大 的 slab 内 存 区 则 对 伙伴 系统 不 利 。 
内 核 试 图 通过 calculate_slab_order 实 现 的 迭代 过 程 ， 找 到 理想 的 slab 长 度 。 基 于 给 定 对 象 长 
度 ，cache_estimate 针 对 特定 的 页 数 ， 来 计算 对 象 数目 、 浪 费 的 空间 、 着 色 所 需 的 空间 。 该 函数 会 
循环 调用 ， 直 至 内 核对 结果 满意 为 止 。 
通过 系统 地 不 断 摸索 ，cache_estimate 找 到 一 个 slab 布 局， 可 以 由 下 列 要 素 撒 述 。size 是 对 象 
长 度 ，gfp_order 是 页 的 分 配 阶 ，num 是 slab 上 对 象 的 数目 ，wastage 是 该 分 配 阶 下 因 浪 费 而 不 可 用 的 
空间 数量 (当然 ， 总 是 有 wastage < size; 否则 ， 可 以 在 slab 上 在 放 一 个 对 象 ) 。heagd 指 定 了 slab 头 
需要 多 少 空间 。 该 布局 对 应 于 以 下 公式 ; 

PAGE_SIZE<<gfp_order = head + num*size + left_over 

如 果 slab 头 存储 在 slab 外 ， 则 headq 值 为 0， 因 为 无 需 为 头 部 分 配 衬 间 。 如 果 存 储 在 slab 上 ， 则 该 值 
计算 如 下 : 

head = sizeof (struct slab) + num*sizeof (kmem bufctl_ t) 

按 3.6.3 节 的 讨论 ， 每 个 slab 头 之 后 都 是 一 个 数组 ， 数 组 项 的 数目 与 slab 中 对 象 的 数目 相同 。 内 核 
利用 该 数组 来 查找 下 一 个 空闲 对 象 的 位 置 。 数 组 项 的 数据 类 型 为 kmem_bufct1_ 上， 该 类 型 不 过 是 普通 
的 unsigneq int 通 过 typedef 适 当 抽 象 的 结果 。 

对 象 数目 num 用 于 计算 slab 头 的 长 度 ， 而 slab 头 的 长 度 又 用 于 计算 slab 中 对 象 的 数目 ， 这 显然 又 是 
一 个 鸡 与 蛋 的 问题 。 内 核 解决 该 问题 的 方法 是 通过 系统 地 增加 对 象 数目 ， 来 检测 是 和 否 有 某 个 给 定 配置 
可 以 放 入 到 可 用 空间 中 。 
在 一 个 while 循 坏 中 不 断 调用 cache_estimate, 每 次 gfp_orgder 都 加 1。 因 此 是 从 一 个 页 帧 开始 ， 
每 次 倍增 slab 的 长 度 。 如 果 下 述 条 件 D 成 立 ， 则 内 核 认为 结果 是 满意 的 ， 即 结束 循环 。 

口 8 * left_ovezr 小 于 slab 的 长 度 ， 即 浪费 的 空间 小 于 1/8。 

口 gfp_order 大 于 或 等 于 slab_break_gfp_order。 如 果 计 算 机 主 内 存 容量 小 于 32 MiB, 则 slab_ 

break_gfp_order 的 值 为 BREAK_GFP_ORDER_LO = 1; 否则 其 值 为 BREAK_GFP_ORDER_HI =2。 

口 如 果 slab 头 的 管理 数据 存储 在 slab 之 外 ， 而 对 象 的 数目 大 于 保存 在 offslab_limit 的 值 。 

offslab_1imit 指 定 了 kmalloc 分 配 的 内 存 块 中 、 可 以 与 一 个 struct slab 实 例 共 同 存储 的 
kmem_bufct1_t 实 例 的 最 大 数目 。 如 果 slab 中 对 象 的 数目 超出 该 值 ， 则 无 法 分 配 所 需 的 空间 ， 
因此 需要 将 gfp_order 减 1， 章 新 计算 数据 ， 然 后 退出 循环 。 
当然 ， 内 核 总 是 确保 slab 的 空间 至 少 可 容纳 一 个 对 象 ， 因 为 没有 对 象 的 缓存 是 没有 意义 的 。 
slab 头 的 长 度 会 进行 伟人 入 ， 以 确保 头 之 后 的 各 个 数组 项 适当 对 齐 。 


mm/slab.c 
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slab_size = ALIGN(cachep->num*sizeof (kmem bufctl_ t) 
+ Sizeof (struct slab), align); 
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ALIGN (x，y) 是 内 核 提供 的 一 个 标准 宏 ， 计 算 足 以 容纳 对 象 x 的 空间 长 度 ， 同 时 要 求 该 空间 长 度 
是 align 的 整数 倍 。 表 3-9 给 出 了 计算 出 的 一 些 示 范 性 的 对 齐 值 。 


表 3-9 ”基于 4 字 节 和 8 字 节 边界 计算 的 示例 对 齐 值 
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对 象 长 度 x 对 章 齐 值 y ALIGN (x,y) 
1 4 8 
4 4 8 
5 8 8 
8 8 8 
9 12 16 
12 12 16 
13 16 16 
16 16 16 
17 20 24 
19 20 24 
如 果 slab 上 有 足够 空闲 空间 可 存储 slab 头 ， 那 么 即使 实际 应 该 存储 在 slab 之 外 ， 内 核 也 会 利用 这 个 
机 会 〈 将 其 存储 在 slab 上 ) 。cFLGS_oOFF_SLAB 标 志 会 删除 ，slab 头 将 存储 在 slab 上 ， 当 然 这 可 能 违背 了 
早先 的 决策 或 默认 设置 。 
下 列 步 又 用 于 对 slab 痢 色 : 
mm/slab.c 


Cachep->colour_off = cache line size(); 

/* 偏 移 量 必须 是 对 齐 值 的 倍数 。 */ 

if (cachep->colour_off < align) 
cachep->colour_off = align; 

Cachep->colour = left_over/cachep->colour_off; 














内 核 使 用 L1 绥 存 行 的 长 度 作为 偏 移 量 ， 该 值 可 通过 特定 于 体系 结构 的 函数 cache_line_size 确 
定 。 还 必须 保证 偏 移 量 是 所 用 对 齐 值 的 倍数 ， 否 则 就 没有 数据 对 齐 的 效果 。 
slab 的 颜色 数目 ( 即 ， 潜 在 的 不 同 偏 移 量 值 的 数目 )， 即 slab 上 的 浪费 空间 ( 称 之 为 left_over) 
除 以 颜色 偏 移 量 (colour_off) 的 商 ( 余 数 略 去 )。 
网 如 ， 在 比较 老 的 IA-32 计 算 机 上 ， 对 于 管理 长 度 为 256 字 节 对 象 、 按 SLAB_HWCACHE_ALIGN 的 要 
求 对 齐 到 人 硬件 缓存 行 的 缓存 ， 内 核 产生 的 结果 如 下 : 
口 一 个 slab 管 理 15 个 对 象 (num = 15); 
口 使 用 一 个 页 面 (gfp_order = 0); 
口 有 5 种 可 能 的 颜色 (colour = 5)， 每 种 颜色 使 用 32 字 节 的 偏 移 量 (colour_off = 32); 
口 slab 头 存储 在 slab 上 。 
我 们 已 经 处 理 了 slab 的 布 
要 做 。 
口 必须 产生 per-CPU 缓 存 。 该 任务 委托 给 snable_cpucache (这些 缓存 的 布局 和 结构 在 3.6.4 节 描 
述 )。 首 先 ， 内 核 根 据 对 和 象 长 度 定义 缓存 中 的 对 象 指针 的 数目 。 
0< size 三 256: 120 个 对 象 
256 < size 三 1024: 54 个 对 象 
1024< size 三 PAGE_SIZE: 24 个 对 象 
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， 但 在 lmem_cache_create 创 建新 的 slab 绥 存 时 ， 仍 然 有 两 件 事 ! 
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PAGE_SIZE < size: 8 个 对 象 
size> 131 072: 1 个 对 象 
为 各 个 处 理 器 分 配 所 需 的 内 存 : 一 个 array_cache 的 实例 和 一 个 指针 数组 ， 数 组 项 数目 
在 上 述 的 计算 中 给 出 ;并 初始 化 数据 结构 ， 这 些 任务 委托 给 ao_tune_cpucache。 我 们 特别 感 
兴趣 的 一 个 方面 是 ，batchcount 字 段 总 是 设置 为 缓存 中 对 象 数目 的 一 半 。 
DUOU0OUO0OU000U00000000000 
口 为 完成 初始 化 ， 将 初始 化 过 的 kmem_cache 实 例 添加 到 全 局 链表 ， 表 头 为 cache_chain， 定 义 
在 mm/slab.c 中 。 
4. 分 配对 象 
kmem_cache_alloc 用 于 从 特定 的 缓存 获取 对 象 。 类 似 于 所 有 的 malloc 函 数 ， 其 结果 可 能 是 指向 
分 配 内 存 区 的 指针 ， 也 可 能 分 配 失败 ， 返 回 NULL 指 针 。 该 函数 需要 两 个 参数 ， 用 于 获取 对 象 的 缓存 ， 
以 及 精确 描述 分 配 特 征 的 标志 变量 。 


<slab.h> 
void *kmem cache alloc (kmem cache t *cachep, gfp_t flags) 


3.5.4 节 提 到 的 任何 GFP_ 值 都 可 以 用 于 指定 标志 。" 

如 图 3-50 给 出 的 代码 流程 图 ，kmem_cache_alloc 基 于 参数 相同 的 内 部 函数 _cache_alloc， 后 
者 可 以 直接 调用 (采用 这 种 结构 ， 目 的 是 尽快 合并 kmalloc 和 kmem_cache_alloc 的 实现 ， 如 3.6.5 
节 所 示 )。 但 cache_allloc 还 只 是 一 个 前 端 函数 ， 上 只 执行 了 所 有 必要 的 锁定 操作 。 实 际 工作 委托 
给 ”cache alloc (4 个 下 划 线 )， 如 图 3-50 所 示 (实际 上 ，__cache alloc 和 ”cache alloc 之 
间 还 有 函数 do_cache_alloc， 但 只 用 于 NUMA 系 统 )。 


kmem_cache_alloc 











































































































































































































cache_alloc 


对 象 在 per-CPU 绥 存 中 ? 从 缓存 获取 对 象 


不 
cache alloc_ refill 









返回 对 象 

















各 










查找 对 象 ， 从 缓存 获取 


现 有 slab 中 的 空间 不 够 ? 





cache_grow 








| 返回 对 象 | 





图 3-50 ”kmem_cache_alloc 的 代码 流程 图 


图 3-50 清 楚 地 说 明了 ， 可 以 跟 循 下 面 列举 的 一 条 途径 完成 工作 。 第 一 个 使 用 更 为 频繁 也 更 方便 ， 
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Q@ 请 注意 ， 内 核 过 去 提供 了 一 组 名 称 不 同 的 常数 〈(sLAB_ATOMIC、SLAB_DMA 等 )， 但 数值 与 GFP_ 值 的 定义 相同 。 这 
些 在 内 核 版 本 2.6.20 开 发 期 间 已 经 撤销 ， 无 法 再 使 
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如 果 per-CPU 缓 存 中 有 空闲 对 象 ， 则 从 中 获取 。 但 如 果 其 中 的 所 有 对 象 都 已 经 分 配 ， 则 必须 重 讲 


吉 


[ah 
St 
































缓存 。 在 最 坏 的 情况 下 ， 可 能 需要 新 建 一 个 slab。 
euUUU00000 
如 果 在 per-CPU 组 在 中 有 对 象 ， 那 么 cache_alloc 检 查 相对 容易 ， 如 下 列 代码 片段 所 示 : 
mm/slab.c 
static inline void * cache alloc(kmem cache t *cachep, gfp_t flags) 


{ 
ac = ac_datal(cachep); 
if (likely(ac->avail)) { 
ac->touched = 1; 
objp = ac->entry[--ac->availl]; 
} 
else { 
objp = cache alloc refill(cachep, flags); 
} 


return objp; 




















cachep 是 一 个 指针 ， 指 向 缓存 使 用 的 kmem_cache 上 实例 。ac_qata 宏 通过 返回 cachep-> 
array[smp_processor id()]， 从 而 获得 当前 活动 CPU 相关 的 array_cache 实 例 。 
因为 内 存 中 的 对 象 紧 跟 array_cache 实 例 之 后 ， 内 核 可 以 借助 于 该 结构 末尾 的 伪 数 组 访问 对 象 ， 
而 无 需 指 针 运 算 。 通 过 将 ac->avail 减 1， 可 以 将 对 象 从 缓存 移 除 。 

e0000perCPUUD 

在 per-CPU 缓 存 中 没有 对 象 时 ， 工 作 负荷 会 加 重 。 该 情形 下 所 需 的 重新 填充 操作 由 cache_alloc 
refil1 实 现 ， 在 per-CPU 缓 存 无 法 直接 满足 分 配 请 求 时 ， 则 调用 该 函数 。 

内 核 现 在 必须 找到 array_cache->batchcount 个 未 使 用 对 象 重 新 填充 per-CPU 缓 存 。 首 先 扫描 所 
有 部 分 空闲 slab 的 链表 (slabs_partial) ， 然 后 通过 slab_get_obj 依 次 获取 所 有 的 对 象 ， 直 至 相应 
的 slab 中 没有 空闲 对 象 为 止 。 内 核 接 下 来 对 slabs_partial 链 表 中 的 所 有 其 他 slab 执 行 同 样 的 过 程 。 如 
果 仍 未 找到 所 需 数目 的 对 象 ， 内 核 会 般 历 slabs_free 链 表 中 所 有 未 使 用 的 slab 。 在 从 slab 获 取 对 象 时 ， 内 
核 还 必须 将 slab 放 置 到 正确 的 slab 链 表 中 (slabs_full 或 slabs_partial,， 取决 于 slab 已 经 完全 用 尽 还 
是 仍然 包含 一 些 空闲 对 象 )。 上 述 逻 辑 由 下 列 代 码 实现 : 


mm/slab.c 
static voidq *cache alloc refill (kmem cache t *cachep, gfp_t flags) 
{ 




















































































































































































































while (batchcount > 0) { 
/* ”选择 获取 对 象 的 slab 链 表 ( 首 先是 slabs_partial， 然 后 是 slabs_free) */ 




















slabp = list entry(entry, struct slab, list); 


while (slabp->inuse < cachep->num && batchcount--) { 
/* 获取 对 象 指针 */ 
ac->entry[lac->avail++] = slab get _ obj (cachep, slabp, 
node); 


} 
check_slabp (cachep, slabp); 


/* 将 slabp 移 动 到 正确 的 slab 链 表 :”*/ 
list dell(&slabp->list); 
If (slabp->free == BUFCTL_END) 
list add(&slabp->list, &13->slabs_full); 
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else 


list add(&slabp->list, &13->slabs_ partial); 


按 次 序 移 除 slab 中 对 象 的 关键 在 于 slab_get_obj: 


mm/slab.c 


static void *slab get obj (struct kmem cache *cachep, struct slab *slabp, 


int nodeid) 
{ 
void *objp = index_ to_obj(cachep, slabp, slabp->free); 
kmem bufctl1_t next; 


slabp->inuse++;}; 
next = slab bufctl(slabp) [slabp->freel]; 
slabp->free = next; 


return objp; 


} 


















































在 slabp->free， 而 下 一 个 空闲 对 象 的 索引 ， 则 保存 在 管理 数组 中 。 














回想 图 3-47 所 示 ， 内 核 在 跟踪 空闲 项 时 使 用 了 一 个 有 趣 的 系统 : 当前 考虑 的 空闲 对 象 的 索引 保存 


获取 对 应 于 给 定 索引 的 对 象 , 不 过 是 index_to_obj 执 行 的 一 些 简 单 指针 操作 而 已 。 slab_pbufct1 








是 一 个 宏 ， 返 回 一 个 指 问 slabp 之 后 的 kmem_bufct1l1 数 组 的 指针 。 




















我 们 回 到 cache_alloc_grow。 如 果 扫 描 了 所 有 的 slab 仍 然 没 有 找到 空 闪 对象， 那么 必须 使 用 








cache_grow 扩 大 缓存 。 这 是 一 个 代价 较 高 的 操作 ， 将 在 下 一 节 讲 述 。 
5. 缓存 的 增长 
图 3-51 给 出 了 cache_grow 的 代码 流程 图 
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cache_grow 





计算 偏 移 量 和 下 一 个 颜 


kmem_getpages alloc_pages_node 


alloc_slabmgt 
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| 
这 
党 
[ER 


设置 页 指针 


cache_init_objs 
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将 slab 添 加 到 缓存 











图 3-51 ”cache_grow 的 代码 流程 图 


kmem_cache_alloc 的 参数 也 会 传递 给 cache _growo。 从 还 可 以 明确 指定 一 个 
内 存 页 。 
首先 计算 颜色 和 偏 移 


mm/slab.c 
static int cache grow(struct kmem cache *cachep, 





各 








结 


点 , 用 于 从 中 分 配 新 的 
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gfp_t flags, int nodeid, void *objp) 
{ 
13 = cachep->nodelists[nodeid]; 
offset = 13->colour_ next; 
13->colour_next++; 
if (13->colour next >= cachep->colour) 
13->colour_next = 0; 
offset *= cachep->colour_off; 
} 


























































































































如 果 达 到 了 颜色 的 最 大 数目 ， 则 内 核 重新 开始 从 0 计数 ， 这 自动 导致 了 零 偏 移 。 

所 需 的 内 存 空间 是 使 用 kmem_getpages 辅 助 函 数 从 伙伴 系统 逐 页 分 配 的 。 该 函数 唯一 的 目的 就 是 
适当 的 参数 调用 3.5.4 节 讨论 的 alloc_pages_node 消 数 。 各 个 页 都 设置 了 PG_slab 标 志 位 , 表示 该 页 
属于 slab 分 配器 。 在 一 个 slab 用 于 满 是 短期 或 可 回收 分 配 时 , 则 将 标志 GFP_RECLAIMABLE 传 递 到 伙伴 














系统 。 回 想 3.5.2 节 
slab 头 部 管理 
函数 分 配 所 需 空 


x 
衬 国 。 









































的 内 容 ， 我 们 知道 
数据 的 分 配 没什么 趣味 。 如 果 slab 头 存储 在 slab 之 外 ， 
和 否则， 相应 的 空间 已 经 在 slabj 


EE 要 的 是 从 适当 

















slab 数 据 结 构 的 colouroff、s_mem 和 inuse 成 员 。 
接 下 来 ， 内 核 调用 slalb_map_pages 创 建 slab 的 各 页 与 slab 或 缓存 之 间 的 关联 。 该 函数 遍历 新 分 配 


的 所 有 page 实 例 , 分 别 调 月 


实例 的 1ru 成 员 : 


mm/slab.c 


static inline void page_ set cache(struct page *page, 


{ 


page->lru.next = 


} 


static inline void page_ set slabl(struct page *page, 


{ 


page->lru.preyv = 


了 


cache_init_objs 调 用 各 个 对 象 
部 分 使 用 了 该 选项 ， 这 方 
为 slab 人 至 今 完全 未 使 月 
个 数组 元 素 的 值 为 BUFCTL_END。 
初始 化 ， 可 以 添加 到 缓存 的 slabs_free 链 表 。 新 产生 的 对 象 的 数 














只 有 很 少 


数组 位 置 i 存 储 it1: 



































现在 slab 已 经 





[ 
完全 























因 




















6. 释放 对 象 


如 果 一 个 分 配 的 对 象 已 经 不 再 需要 ， 那 么 必须 使 用 lmnem_cache_free 返 


给 出 了 该 函数 的 代码 流程 图 。 





kmem_cache_freeY 即 调用 了 _cache_fr 
尺码 复制 ， 如 3.6.5 节 的 讨论 。 
类 似 于 分 配 ， 根据 per-CPU 组 存 的 状态 不 同 ， 有 两 
P 存 储 一 个 指向 缓存 中 对 象 的 指针 。 


的 

















低 于 多 许 的 限 4 














看 通 党 没什么 可 做 的 。 











中 空闲 对 象 的 数目 上 (cachep->free_objects)。 





的 迁移 列表 分 配 页 。 
则 调用 相关 的 














(struct list_ head *)cache; 


(struct list_ head *)slab; 


























GS 六 
? 参数 








接 传 递 过 去 。 其 原 











站， 则 在 其 























种 可 


选 的 操作 流程 。 














Ph 分配。 在 两 种 情况 下 ， 都 必须 


月 bage_set_cache 和 page_set_slab。 这 两 个 函数 如 下 操 


的 构造 器 函数 (假如 有 的 话 )， 初始 化 新 slab 中 的 对 象 。 因 
slab 的 kmem_bufct1 数 组 也 会 初始 化 ， 在 
肯 ， 下 一 个 空闲 的 对 象 总 是 下 一 个 对 象 。 根 据 ! 





加 




















用 适当 的 











alloc_slabmgmt 
值 初始 化 














和 (或 滥 


struct kmem cache *cache) 


struct slab *slab) 


























给 slab 分 配器 。 图 


]) pag 


为 内 核 
吐 例 ， 最 后 一 


也 加 到 缓存 


3-52 


因 也 是 防止 kfree 实 现 中 








如 果 per-CPU 组 存 中 的 对 象 
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per-CPU 数 组 中 
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将 对 象 加 入 缓存 





区 





Cache_flush_array 
free_block 


向 上 移动 剩余 的 缓存 项 




























图 3-52”kmem_cache_free 的 代码 流程 图 





mm/slab.c 
static inline void __ cache free(kmem cache t *cachep, void *objp) 
{ 
if (likely(ac->avail < ac->limit)) { 
ac->entry[lac->avail++] = objp; 
return; 
} else { 
cache_flusharray (cachep, ac); 
ac->entry[lac->avail++] = objp; 


» 
} 


否则 ， 必 须 将 一 些 对 象 (准确 的 数 array_cache->batchcount 给 出 ) 从 缓存 移 回 slab， 从 编 
号 最 低 的 数组 元 素 开 始 : 缓存 的 实现 依据 先进 先 出 原理 ， 这 些 对 象 在 数组 中 已 经 很 长 时 间 ， 因 此 不 太 
可 能 仍然 驻 留 在 CPU 高 速 缓存 中 。 
具体 的 实现 委托 给 cache_flusharray。 该 函数 又 调用 了 free_block， 将 对 象 从 缓存 移动 到 原来 
的 slab， 并 将 剩余 的 对 象 向 数组 起 始 处 移动 。 例 如 ， 如 果 缓 存 中 有 30 个 对 象 的 空间 ， 而 batchcount 为 
1$， 则 位 置 0 到 14 的 对 象 将 移 回 slab。 剩 余 编号 1 到 29 的 对 象 则 在 绥 存 中 向 上 移动 ， 现 在 占据 位 置 0 到 14。 

将 对 象 从 缓存 移 回 到 slab 是 有 益 的 ， 因 此 仔细 考察 一 下 free_block 是 值得 的 。 该 函数 所 需 的 参数 
是 缓存 的 kmem_cache_t 实 例 、 指 向 缓存 中 对 象 指 针 数 组 的 指针 、 表 示 数 组 中 对 象 数目 的 整数 和 内 存 
所 属 的 结 点 。 

该 函数 在 更 新 缓存 数据 结构 中 未 使 用 对 象 的 数目 之 后 ， 遍 历 ocopjpp 中 的 所 有 对 和 象 。 
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mm/slab.c 
static void free block (kmem cache t *cachep, void **objpp, int nr_objects, 
int node) 
人 
i1nt 3 


struct kmem list3 *]13; 


for (i = 0; i < nr_objects; i++) { 
void *objp = objpp[i]; 
struct slab *slabp; 


对 每 个 对 象 必须 执行 下 列 操作 : 


mm/slab.c 
slabp = virt_ to_slab(objp) 
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13 = cachep->nodelists[nodel; 

list_ dell(&kslabp->list); 

slab_put_obj (cachep, slabp, objp, node); 
slabp->inuse--;} 

13->free_objects++; 


在 确定 对 象 所 属 的 slab 之 前 ， 首 先 必须 调用 virt_to_page 找 到 对 象 所 在 的 页 。 与 slab 之 间 的 关联 
使 用 前 文 所 述 的 page_get_slab 确 定 。 

该 slab《〈 临 时 ) 从 缓存 的 链表 移 除 。slab_put_obj 反 映 了 在 空闲 链表 中 的 这 种 操作 : 用 于 分 配 的 
第 一 个 对 象 是 刚刚 删除 的 ， 而 列表 中 的 下 一 个 对 象 则 是 此 前 的 第 一 个 对 象 。 

此 后 ， 该 slab 重 新 插入 到 缓存 的 链表 中 : 

































































mm/slab.c 
/* 修正 slab 所 处 的 链表 */ 
if (slabp->inuse == 0) { 
if (13->free_ objects > 13->free limit) { 
13->free_objects -= cachep->num; 
slab_destroy(cachep, slabp); 
} else { 
list add(&slabp->list, &13->slabs_free); 
} 
} else { 
list add(&slabp->list, &13->slabs_partial); 
} 
} 
} 























如 果 在 删除 之 后 ,slab 中 的 所 有 对 象 都 是 未 使 用 的 (slab->inuse == 0), 则 将 slab 置 于 slabs_free 
表 中 。 





请 


DUOUU0OO0O0OUO0O0O000U00000000000 cachep->free_limitUUUOUD 
0UU000slab destroyl] UD slabUDUUOUDO 
如 果 slab 同 时 包含 使 用 和 未 使 用 对 象 ， 则 插入 到 slabs_partial 链 表 。 
7. 销毁 缓存 
如 果 要 销毁 只 包含 未 使 用 对 象 的 一 个 缓存 ， 则 必须 调用 kmem_cache_gdestroy 函 数 。 该 函数 主要 
在 删除 模块 时 调用 ， 此 时 需要 将 分 配 的 内 存 都 释放 。?” 
于 该 函数 的 实现 没什么 新 东西 ， 下 面 我 们 只 是 概述 一 下 删除 缓存 的 主要 步骤 。 
口 依次 扫描 slabs_free 链 表 上 的 slab。 首先 对 每 个 slab 上 的 每 个 对 象 调用 析 构 器 函数 , 然后 将 Slab 

的 内 存 空 间 返 回 给 伙伴 系统 。 

口 释放 用 于 per-CPU 绥 存 的 内 存 空间 。 
口 从 cache_cache 链 表 移 除 相 关 数 据 。 


3.6.5 ”通用 缓存 


如 果 不 涉 及 对 象 缓存 ， 而 是 传统 意义 上 的 分 配 / 释 放 内 存 ， 则 必须 调用 kmalloc 和 kfree 孙 数 。 这 
个 函数 ， 相 当 于 用 户 空间 中 C 标 准 库 malloc 和 free 函 数 的 内 核 等 价 物 。® 




































































































































































G@) 这 不 是 强制 性 的 。 如 果 模 块 需要 获取 持久 内 存 ， 在 和 印 载 后 一 直 保存 到 下 一 次 装载 时 〈 当 然 ， 需 要 假定 系统 在 此 期 
间 没 有 重启 )， 它 可 以 保留 一 个 缓存 ， 以 便 重用 其 中 的 数据 。 
@) 在 用 户 空间 程序 中 使 用 printk、kmalloc 和 kfree， 显 然 是 与 内 核 程序 设计 打交道 过 多 的 标志 。 
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我 已 经 提 过 几 次 , kmalloc 和 kfree 实 现 为 Slab 分 配器 的 前 端 








因此 我 们 只 简单 讨论 一 下 其 实现 。 
1. Imalloc 的 实现 











kmalloc 的 基础 是 一 个 数组 ， 其 中 是 一 些 分 别 用 于 不 同 内 存 长 度 的 slab 缓 存 。 数 组 项 是 cache_ 


sizes 的 实例 ， 该 数据 结构 定义 如 下 : 


<slab_def.h> 
struct cache_sizes { 
size_t cs_size; 
kmem cache _t *cs_cachep; 
kmem _ cache t *cs_ dmacachep; 
#ifdef CONFIG ZONE_DMA 
struct kmem cache *cs_dmacachep; 
#endif 
} 





, 其 语义 尽 可 能 地 模仿 malloc/free。 





cs_size 指 定 了 该 项 负责 的 内 存 区 的 长 度 。 每 个 长 度 对 应 于 


访问 的 内 存 。 








个 slap 缓 在, 其 中 之 一 提供 适合 DMA 





静态 定义 的 malloc_sizes 数 组 包括 了 所 有 可 用 的 长 度 , 基本 上 都 是 2 的 寡 次 , 介 乎 2 =32 和 2”= 














33 554 432 之 间 ， 最 大 值 依赖 于 KMALLOC_MAX_SIZE 的 设 

































































， 如 前 文 所 述 。 

















mm/slab.c 
static struct cache_sizes malloc_sizes[] = { 
define CACHE(x) { .cs_size = (x) }， 
if (PAGE_SIZE == 4096) 
CACHE (32) 
endif 
CACHE (64) 
if L1_ CACHE _ BYTES < 64 
CACHE (96) 
endif 
CACHE (128) 
if L1_ CACHE BYTES < 128 
CACHE (192) 
endif 
CACHE (256) 
CACHE (512) 
CACHE (1024) 
CACHE (2048) 
CACHE (4096) 
CACHE (8192) 
CACHE (16384) 
CACHE (32768) 
CACHE (65536) 
CACHE (131072) 
#if KMALLOC MAX SIZE >= 262144 
CACHE (262144) 
#endif 
#if KMALLOC MAX SIZE >= 524288 
CACHE (524288) 
#endif 
#if KMALLOC MAX SIZE >= 33554432 
CACHE (33554432) 
CACHE (ULONG_ MAX) 


总 有 一 个 缓存 ， 其 分 配 的 内 存 的 长 度 ， 可 以 达到 unsigned 1ong 变 量 所 能 表示 的 最 大 值 。 但 该 组 








228 D30 0U0D0D000 














存 〈 与 所 有 其 他 缓存 相反 ) 不 会 预先 填充 ， 这 使 得 内 核 确 保 每 次 分 配 大 量 内 存 时 都 使 用 新 分 配 的 内 存 
页 。 因 为 达到 此 长 度 的 分 配 可 能 请 求 系统 的 整个 内 存 ， 为 此 设置 缓存 没什么 用 处 。 但 内 核 使 用 的 这 种 
方法 ， 确 保 在 系统 内 存 足 够 的 情况 下 ， 可 以 分 配 非 常 巨 大 的 内 存 。 
指向 对 应 缓存 的 指针 没有 初始 值 。 在 kmem_cache_init 进 行 初始 化 时 ， 同 时 会 对 这 些 指 针 赋 值 。 
kmalloc 定 义 在 <slab_def.h>,， 该 函数 首先 检查 是 否 用 常数 来 指定 所 需 分 配 内 存 的 长 度 。 在 这 种 
情况 下 ， 所 需 的 缓存 可 以 在 编译 时 静态 确定 ， 这 可 以 提高 速度 。 否 则 ， 该 函数 调用 __kmalloc 查 找 长 
度 匹 配 的 组 在。 后 者 是 _dqo_kmalloc 的 前 端 ， 提 供 参 数 转换 功能 。 


mm/slab.c 
void *_ do kmalloc(size t size, gfp_t flags) 
{ 
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kmem_ cache_t *cachep; 

cachep = __ find general cachep (size, flags); 

if (unlikely (ZERO_OR_ NULL PTR (cachep))) 
return NULL; 

return ._ cache alloc(cachep, flags); 


} 

在 、 fina_general_cachep 找 到 适当 的 缓存 后 〈 过 历 所 有 可 能 的 lmalloc 长 度 ， 找 到 一 个 匹配 的 
缓存 )， 主 要 的 工作 则 委托 给 上 文 讨论 过 的 _cache_alloc 函 数 完成 。 

2. kfree 的 实现 

kfree 同 样 易于 实现 : 


mm/slab.c 
void kfree(const void *objp) 


{ 








kmem_ cache _t *c; 
unsigned long flags; 


IE (unlikely (ZERO_OR_ NULL PTR (objp))) 
return; 

C = Virt_to_cache (objp)); 

_ cache freel(c, (void*)objp); 


} 
在 找到 与 内 存 指针 关联 的 缓存 之 后 ，kfree 将 实际 工作 移交 上 文 讨论 过 的 __cache_free 函 数 
完成 。 


3.7 ”处 理 器 高 速 缓 存 和 TLB 控制 


高 速 缓存 对 系统 总 体 性 能 十 分 关键 ， 这 也 是 内 核 尽 可 能 提高 其 利用 效率 的 原因 。 这 主要 是 通过 在 
内 存 中 巧妙 地 对 齐 内 核 数据 。 审 慎 地 混合 使 用 普通 函数 、 内 联 定义 、 宏 ， 也 有 助 于 从 处 理 器 汲取 更 高 
的 性 能 。 附 录 C 讨 论 的 编译 器 优化 也 相当 有 作用 。 

但 上 述 方面 上 只是 间接 地 影响 高 速 缓存 。 使 用 数据 结构 时 正确 对 齐 ， 确 实 对 高 速 缓存 有 影响 ， 但 这 
只 是 隐 式 的 ， 主 动 控制 处 理 器 高 速 缓存 并 不 必要 。 
尽管 如 此 ， 内 核 仍 然 提 供 了 一 些 命令 ， 可 以 直接 作用 于 处 理 器 的 高 速 缓存 和 TLB。 但 这 些 命令 并 
非 用 于 提高 系统 的 效率 , 而 是 用 于 维护 缓存 0 0 的 一 致 性 , 确保 不 出 现 不 正确 和 过 时 的 缓存 项 。 例如 ， 
在 从 一 个 进程 的 地 址 空间 移 除 一 个 映射 时 ， 内 核 负责 从 TLB 删 除 对 应 项 。 如 果 未 能 这 样 做 ， 那 么 在 先 
前 被 映射 占据 的 虚拟 内 存 地 址 添加 新 数据 时 ， 对 该 地 址 的 读 写 操作 将 被 重 定 问 到 物理 内 存 中 不 正确 的 
地 址 。 
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不 同体 系 结构 上 ， 高 速 缓存 和 TLB 的 硬件 实现 干 差 万 别 。 因 此 内 核 必 须 建立 TLB 和 高 速 缓存 的 一 

个 视图 ， 在 其 中 考虑 到 各 种 不 同 的 硬件 实现 方法 ， 还 不 能 忽略 各 个 体系 结构 的 特定 性 质 。 

口 TLB 的 语义 抽象 是 将 虚拟 地 址 转换 为 物理 地 址 的 一 种 机 制 。 
口 内 核 将 0DDD 视 为 通过 D 口 地 址 快速 访问 数据 的 一 种 机 制 ， 该 机 制 无 需 访 问 物理 内 存 。 数 
据 和 指令 高 速 缓存 并 不 总 是 明确 区 分 。 如 果 高 速 缓存 区 分 数据 和 指令 ， 那 么 特定 于 体系 结构 
的 代码 负责 对 此 进行 处 理 。 
实际 上 不 必要 为 每 种 处 理 器 类 型 都 实现 内 核定 义 的 每 个 控制 函数 。 如 果 不 需 要 某 个 函数 ， 其 调用 

可 以 将 换 为 空 操作 (do {} while (0)) ， 而 后 由 编译 器 优化 掉 。 对 于 高 速 绥 存 相 关 的 操作 来 说 ， 这 

种 情况 非常 常见 ， 因 为 上 文 提 到 ， 内 核 假定 寻 址 是 基于 虚拟 地 址 。 那 么 ， 对 于 按 物理 地 址 组 织 的 高 速 

缓存 来 说 ， 问 题 就 不 存在 ， 通 常 也 不 必要 实现 缓存 控制 函数 。 

内 核 中 各 个 特定 于 CPU 的 部 分 都 必须 提供 下 列 函 数 《〈《 即 使 只 是 空 操作 )， 以 便 控制 TLB 和 高 速 组 

存 。” 

口 flush_tlb all 和 flush_cache_all 刷 出 0 0D TLB/ 高 速 缓存 。 这 只 在 操纵 内 核 〈 而 非 用 户 空 

间 进 程 的 ) 页 表 时 需要 ， 因 为 此 类 修改 不 仅 影响 所 有 进程 ， 而 且 影 响 系 统 中 的 所 有 处 理 器 。 

口 flush tlb mm(struct mm_struct * mm) 和 flush_cache_mm 刷 出 所 有 属于 地 址 空间 mm 的 

TLB/ 高 速 缓存 项 。 

口 flush tlb range (Struct vm area struct * vma, unsigned long start, unsigned long 

end) 和 flush_cache_range (vma，start，eng) 刷 出 地 址 范围 ma->vm_mm 中 虚拟 地 址 start 

和 end 之 间 的 所 有 TLB/ 高 速 缓存 项 。 

口 flush tlb page(struct vm area struct * vma, unsigned long page) 和 flush cache_ 
page (vma，page) 刷 出 虚拟 地 址 在 Lpage，page + PAGE_sSIzE] 范围 内 所 有 的 TLB/ 高 速 绥 
存 项 。 

口 update mmu cache(struct vm area struct * vma, unsigned long address, pte_t pte) 
在 处 理 页 失效 之 后 调用 。 它 在 处 理 器 的 内 存 管 理 单元 MMU 中 加 入 信息 , 使 得 虚拟 地 址 adqqress 

页 表 项 pte 描 述 。 

仅 当 存 在 外 部 MMU 时 ， 才 需要 该 函数 。 通 常 MMU 集 成 在 处 理 器 内 部 ， 但 有 例外 情况 。 例 如 ， 
MIPS 处 理 器 具有 外 部 MMU。 

内 核对 数据 和 指令 高 速 缓存 不 作 区 分 。 如 果 需 要 区 分 ， 特 定 于 处 理 器 的 代码 可 根据 vm_area_ 
struct->flags 的 VM_EXEC 标 志 位 是 否 设置 ， 来 确定 高 速 缓存 包含 的 是 指令 还 是 数据 。 

flush_cache 和 flush_ tlb 函数 经 党 成 对 出 现 ， 例 如 ， 在 使 用 fork 复 制 进程 的 地 址 空间 时 。 

kernel/fork.c 

flush _ cache mm(oldmm); 


/* 操作 页 表 */ 
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fia lb_mm(olgdmm); 
操作 的 顺序 是 : 刷 出 高 速 缓存 、 操 作 内 存 、 刷 出 TLB 。 这 个 顺序 很 重要 ， 有 下 面 两 个 原因 。 
口 如 果 顺 序 反 过 来 ， 那 么 在 TLB 刷 出 之 后 、 正 确信 息 提 供 之 前 ， 多 处 理 器 系统 中 的 另 一 个 CPU 

可 能 从 进程 的 页 表 取 得 错误 的 信息 。 
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@ 无 论 TLB 是 完成 该 任务 的 唯一 硬件 资源 ， 还 是 有 其 他 的 选择 例如， 页 表 〉 可 用 ， 都 是 无 关 紧 要 的 。 
@ 下 列 描述 基于 David Miller [Mil] 在 内 核 源 代码 中 写 的 文档 。 
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口 在 刷 出 高 速 缓存 时 ， 某 些 体系 结构 需要 依赖 TLB 中 的 “虚拟 -> 物理 ”转换 规则 (具有 该 性 质 
的 高 速 缓存 称 之 为 0 DD )。flush_tlb_mm 必 须 在 flush_cache_mml| 执行, 以 确保 这 一 点 。 
有 些 控制 函数 明确 地 应 用 于 数据 高 速 绥 存 (flush_gdcache_...) 或 指令 高 速 缓存 (flush_ 
icache_...)。 
口 如 果 高 速 缓存 包含 几 个 虚拟 地 址 不 同 的 项 指向 内 存 中 的 同一 页 ， 可 能 会 发 生 所 谓 的 alias 问 题 ， 
flush_dcache_page (struct page * page) 有 助 于 防止 该 问题 。 在 内 核 向 页 缓存 中 的 一 页 写 
入 数据 ， 或 者 从 映射 在 用 户 空间 中 的 一 页 读 出 数据 时 ， 总 是 会 调用 该 函数 。 这 个 例 程 使 得 存 
在 alias 问 题 的 各 个 体系 结构 有 机 会 防止 问题 的 发 生 。 
口 在 内 核 癌 内 核 内 存 范 围 〈start 和 endq 之 间 ) 写 入 数据 ， 而 该 数据 将 在 此 后 作为 代码 执行 ， 则 
此 时 需要 调用 flush_icache_range (unsigned long start，unsigned long end)。 该 场 
景 的 一 个 标准 事例 是 向 内 核 载 入 模块 时 。 二 进 制 数据 首先 复制 到 物理 内 存 中 ， 然 后 执行 。 
flush_icache_range 确 保 在 数据 和 指令 高 速 缓存 分 别 实现 的 情况 下 ， 二 者 彼此 不 发 生 干 扰 。 
口 flush_icache user_range(*vma，*page，addr，len) 是 一 个 特殊 函数 ， 用 于 ptrace 机 制 。 
为 将 修改 传送 到 被 调试 进程 的 地 址 空间 ， 需 要 使 用 该 函数 。 
如 果 讨 论 高 速 绥 存 和 TLB 控 制 函数 的 实现 细节 ， 则 超出 了 本 书 的 范围 。 为 完全 理解 其 实现 细节 ， 
需要 太 多 与 底层 处 理 器 结构 相关 的 背景 知识 (以 及 所 涉及 的 微妙 问题 〉。 


3.8 小 结 


本 章 已 经 讨论 了 内 存 管理 的 许多 方面 。 我 们 的 注意 力 集中 在 物理 内 存 管理 方面 , 但 也 涵盖 了 月 
和 物理 内 存 之 间 通 过 页 表 发 生 的 关联 。 尽 管 在 这 个 领域 中 ， 就 Linux 支 持 的 各 种 不 同体 系 结构 而 言 ， 
特定 于 硬件 的 细节 差别 非常 大 ， 但 内 核 提供 了 独立 于 体系 结构 的 数据 结构 和 函数 ， 使 得 通用 代码 能 够 
操作 页 表 。 但 在 一 般 性 的 视图 启用 之 前 ， 还 需要 一 些 特定 于 体系 结构 的 代码 ， 该 代码 在 启动 过 程 期 间 
运行 。 
在 内 核 进 入 正常 运作 之 后 ， 内 存 管理 分 两 个 层次 处 理 。 伙 伴 系 统 负责 物理 页 帧 的 管理 ， 而 slab 分 
配器 则 处 理 小 块 内 存 的 分 配 ， 并 提供 了 用 户 层 malloc 函 数 族 的 内 核 等 价 物 。 
伙伴 系统 围绕 由 多 页 组 成 的 连续 内 存 块 的 拆 分 和 再 合并 展开 。 在 连续 内 存 区 变 为 空闲 时 ， 内 核 会 
自动 注意 到 这 一 点 ， 并 在 相应 的 分 配 请 求 出 现时 使 用 它 。 由 于 该 机 制 在 系统 长 时 间 运 行 后 ， 无 法 以 令 
人 满意 的 方式 防止 物理 内 存 碎片 发 生 ， 因 此 新 近 的 内 核 版 本 引入 了 反 碎 片 技术 。 它 一 方面 允许 按 页 的 
可 移动 性 将 其 分 组 ， 男 一 方面 增加 了 一 个 新 的 虚拟 内 存 域 。 二 者 的 实质 都 在 于 降低 在 大 块 内 存 中 间 分 
配 内存 的 几率 ， 以 避免 碎片 出 现 。 
slab 分 配器 在 伙伴 系统 之 上 实现 。 它 不 仅 允 许 分 配 任意 用 途 的 小 块 内 存 ， 还 可 用 于 对 经 常 使 用 的 
数据 结构 创建 特定 的 缓存 。 
内 存 管理 的 初始 化 很 有 挑战 性 ， 因 为 该 子 系统 自身 使 用 的 数据 结构 也 需要 内 存 ， 必 须 从 某 处 进行 
分 配 。 我 们 已 经 知道 ， 内 核 通过 引入 一 个 非常 简单 的 自 举 内 存 分 配器 解决 了 该 问题 ， 而 该 分 配器 将 在 
正式 的 分 配 机 制 启用 后 停 用 。 
我 们 在 本 章 主 要 讲解 物理 内 存 ， 但 下 一 章 将 讨论 内 核 如 何 管理 虚拟 地 址 空间 。 
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第 4 章 


进程 虚拟 内 存 








户 层 进 程 的 虚拟 地 址 空间 是 Linux 的 一 个 重要 抽象 : 它 向 每 个 运行 进程 提供 了 同样 的 系统 视 

图 ， 这 使 得 多 个 进程 可 以 同时 运行 ， 而 不 会 干扰 到 其 他 进程 内 存 中 的 内 容 。 此 外 ， 它 容许 
使 用 各 种 高 级 的 程序 设计 技术 ， 如 内 存 映射 。 在 本 章 中 ， 我 将 讨论 内 核 是 如 何 实现 这 些 概 念 的 。 这 同 
样 需要 考察 可 用 物理 内 存 中 的 页 帧 与 所 有 的 进程 虚拟 地 址 空间 中 的 页 之 间 的 关联 : DDDD Creverse 
mapping) 技术 有 助 于 从 虚拟 内 存 页 跟踪 到 对 应 的 物理 内 存 页 ， 而 0 DD DD (page faulthandling〉 则 允 
许 从 块 设 备 按 需 读 取 数 据 填 充 虚 拟 地 址 空间 。 






















































































4.1 简介 
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在 第 3 章 讨论 的 所 有 内 存 管理 方法 都 关注 物理 内 存 的 组 织 ， 或 者 内 核 的 虚拟 地 址 空间 的 管理 。 本 
节 考 察 内 核 用 于 管理 0 口 虚拟 地 址 空间 的 方法 。 其 中 一 些 方法 如 下 给 出 ， 由 于 种 种 原因 ， 这 比 内 核 地 
址 空间 的 管理 更 复杂 。 
口 每 个 应 用 程序 都 有 自身 的 地 址 空间 ， 与 所 有 其 他 应 用 程序 分 隔 开 。 
口 通常 在 巨大 的 线性 地 址 空间 中 ， 只 有 很 少 的 段 可 用 于 各 个 用 户 空间 进程 ， 这 些 段 彼此 有 一 定 
的 距离 。 内 核 需要 一 些 数据 结构 ， 来 有 效 地 管理 这 些 〈 随 机 ) 分 布 的 段 。 
口 地 址 空间 只 有 极 小 的 一 部 分 与 物理 内 存 页 直接 关联 。 不 经 常 使 用 的 部 分 ， 则 仅 当 必要 时 与 页 
帧 关联 。 
口 内 核 信任 自身 ， 但 无 法 信任 用 户 进程 。 因 此 ， 各 个 操作 用 户 地 址 空间 的 操作 都 伴随 有 各 种 检 
查 ， 以 确保 程序 的 权限 不 会 超出 应 有 的 限制 ， 进 而 危及 系统 的 稳定 性 和 安全 性 。 
口 fork-exec 模 型 在 UNIX 操 作 系 统 下 用 于 产生 新 进程 (在 第 2 章 描述 ) 。 如 果实 现 得 较为 粗 劣 ， 
该 模型 的 功能 并 不 强大 。 因 此 内 核 必须 借助 于 一 些 技巧 ， 来 尽 可 能 高 效 地 管理 用 户 地 址 空间 。 
下 文 讨论 的 大 多 数 想 法 都 基于 以 下 假定 ; 系统 有 一 个 内 存 管理 单元 MMU， 该 单元 支持 使 用 虚 和 
内 存 。 事 实 上， 所 有 “正常 ”的 处 理 器 都 是 如 此 。 但 在 Linux 内 核 2.5 开 发 期 间 ， 内 核 源 代码 添加 了 
个 不 提供 MMU 的 体系 结构 ， 即 V8$0E、H8300 和 m68knommu。 另 一 个 〈blackfin) 在 内 核 2.6.22 开 发 期 
间 添 加 。 下 文 考察 的 一 些 函 数 在 这 些 CPU 上 不 可 用 ， 相 应 的 接口 会 向 外 部 调用 者 返回 错误 信息 。 因 为 
底层 机 制 在 内 核 中 没有 实现 ， 而 由 于 缺乏 处 理 器 的 支持 ， 这 些 机 制 实际 上 是 无 法 实现 的 。 下 文 的 讲解 
只 针对 具有 MMU 的 计算 机 。 我 不 会 讨论 无 MMU 体 系 结构 的 奇异 之 处 ， 以 及 所 需 的 修改 。 


4.2 ”进程 虚拟 地 址 空间 


各 个 进程 的 虚拟 地 址 空间 起 始 于 地 址 09， 延伸 到 TASK_sIZE - 1， 其 上 是 内 核 地址 空间 。 在 IA-32 
系统 上 地 址 空间 的 范围 可 达 2”=4 GiB， 总 的 地 址 空间 通常 按 3:1 比 例 划分 ， 我 们 在 下 文中 将 关注 该 划 
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分 。 内 核 分 配 了 1 GiB， 而 各 个 用 户 空间 进程 可 用 的 部 分 为 3 GiB。 其 他 的 划分 比例 也 是 可 能 的 ， 但 正 
如 前 文 的 讨论 ， 只 能 在 非常 特定 的 配置 和 茶 些 工作 负荷 下 才 有 用 。 
与 系统 完整 性 相关 的 非常 重要 的 一 方面 是 ， 用 户 程序 只 能 访问 整个 地 址 空间 的 下 半 部 分 , 0DD 访 
问 内 核 部 分 。 如 果 没 有 预先 达成 “协议 ”， 用户 进 程 也 不 可 能 操作 男 一 个 进程 的 地 址 空间 ， 因 为 后 者 
的 地 址 空间 对 前 者 不 可 见 。 
无 论 当 前 哪个 用 户 进 程 处 于 活动 状态 ， 虚拟 地 址 空间 内 核 部 分 的 内 容 总 是 同样 的 。 取决 于 具体 的 
人 硬件， 这 可 能 是 通过 操作 各 用 户 进 程 的 页 表 ， 使 得 虚拟 地 址 空间 的 上 半 部 看 上 去 总 是 相同 的 。 也 可 能 
是 指示 处 理 器 为 内 核 提供 一 个 独立 的 地 址 空间 ， 了 映射 在 各 个 用 户 地 址 空间 之 上 。 读 者 可 以 回想 一 下 图 
1-3， 其 中 给 出 了 相关 的 图 示 。 

虚拟 地 址 空间 由 许多 不 同 长 度 的 段 组 成 , 用 于 不 同 的 目的 , 必须 分 别处 理 。 例 如 在 大 多 数 情况 下 ， 
不 允许 修改 text 段 ， 但 必须 可 以 执行 其 内 容 。 男 一 方面 ， 必 须 可 以 修改 映射 到 地 址 空间 中 的 文本 文件 
内 容 ， 而 不 能 允许 执行 其 内 容 。 因 为 这 没有 意义 ， 文 件 的 内 容 只 是 数据 ， 并 非 机 器 代码 。 


4.2.1 进程 地 址 空间 的 布局 


虚拟 地 址 空间 中 包含 了 若干 区 域 。 其 分 布 方式 是 特定 于 体系 结构 的 ， 但 所 有 方法 都 有 下 列 共 同 
成 分 。 
口 当前 运行 代码 的 二 进 制 代 码 。 该 代码 通常 称 之 为 text， 所 处 的 虚拟 内 存 区 域 称 之 为 text 段 。” 
口 程序 使 用 的 动态 库 的 代码 。 

口 存储 全 局 变量 和 动态 产生 的 数据 的 堆 。 
口 用 于 保存 局 部 变量 和 实现 函数 /过 程 调用 的 栈 。 
口 环境 变量 和 命令 行 参 数 的 段 。 
口 将 文件 内 容 映 射 到 虚拟 地 址 空间 中 的 内 存 映射 。 

可 忆 第 2 章 的 内 容 ， 系 统 中 的 各 个 进程 都 具有 一 个 struct mm_struct 的 实例 ， 可 以 通过 task_ 
struct 访 问 。 这 个 实例 保存 了 进程 的 内 存 管理 信息 : 


<mm_types.h> 
struct mm struct { 
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unsigned long (*get _ unmapped area) (struct file *filp, 
unsigned long addr, unsigned long len, 
unsigned long pgoff, unsigned long flags); 


unsigned long mmap_base; /* mmap 区 域 的 基地 址 */ 
unsigned long task_size; /* 进程 虚拟 内 存 空 间 的 长 度 */ 














unsigned long start code, end code, start data, end data; 
unsigned long start brk, brk, start_ stack; 
unsigned long arg_start, arg_end, env_start, env_end; 


可 执行 代码 占用 的 虚拟 地 址 空间 区 域 ， 其 开始 和 结束 分 别 通 过 start_code 和 end_code 标 记 。 类 
似 地 ，start_gdata 和 和 eng_data 标 记 了 包含 已 初始 化 数据 的 区 域 。 请 注意 ， 在 ELF 二 进 制 文件 映射 到 
地 址 空间 中 之 后 ， 这 些 区 域 的 长 度 不 再 改变 。 





































































































@@ 这 与 硬件 意义 上 的 段 0 [ ， 后 者 在 某 些 体系 结构 中 起 重要 作用 ， 充 当 独 立 的 地 址 空间 。 此 处 的 段 只 是 线性 地 址 空 
间 中 用 于 保存 数据 的 区 域 。 
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堆 的 起 始 地 址 保存 在 start_brk，brk 表 示 堆 区 域 当前 的 结束 地 址 。 尽 管 堆 的 起 始 地 址 在 进程 生 
命 周期 中 是 不 变 的 ， 但 堆 的 长 度 会 发 生变 化 ， 因 而 brk 的 值 也 会 变 。 
参数 列表 和 环境 变量 的 位 置 分 别 由 arg_start 和 arg_end、env_start 和 env_end 描 述 。 两 个 区 域 
都 位 于 栈 中 最 高 的 区 域 。 
mmap_base 表 示 虚 拟 地 址 空间 中 用 于 内 存 映 射 的 起 始 地 址 ， 可 调用 get_unmappedq_area 在 mmap 
区 域 中 为 新 映射 找到 适当 的 位 置 。 
task_size， 顾 名 思 义 ， 存 储 了 对 应 进程 的 地 址 空间 长 度 。 对 本 机 应 用 程序 来 说 ， 该 值 通常 是 
TASK_STZE。 但 64 位 体系 结构 与 前 辈 处 理 器 通常 是 二 进 制 兼容 的 。 如 果 在 64 位 计算 机 上 执行 32 位 二 进 
制 代码 ， 则 task_size 描 述 了 该 二 进 制 代码 实际 可 见 的 地 址 空间 长 度 。 
各 个 体系 结构 可 以 通过 几 个 配置 选项 影响 虚拟 地 址 空间 的 布局 。 
口 如 果 体 系 结构 想 要 在 不 同 mmap 区 域 布局 之 间作 出 选择 ， 则 需要 设置 HAVE_ARCH_PICK 
MMAP_LAYOUT， 并 提供 arch_pick_mmap_layout 函 数 。 
口 在 创建 新 的 内 存 映 射 时 ， 除 非 用 户 指 定 了 具体 的 地 址 ， 否 则 内 核 需要 找到 一 个 适当 的 位 置 。 
如 果 体 系 结构 自身 想 要 选择 合适 的 位 置 ， 则 必须 设置 预 处 理 器 符号 HAVE_ARCH_UNMAPPED 
AREA， 并 相应 地 定义 arch_get_unmapped_area 函 数 。 
口 在 寻找 新 的 内 存 映射 低 端 内 存 位 置 时 ， 通 常 从 较 低 的 内 存 位 置 开 始 ， 逐 渐 向 较 高 的 内 存 地 址 
搜索 。 内 核 提供 了 默认 的 函数 arch_get_unmapped_area_topdowm 用 于 搜索 ， 但 如 果 某 个 体 
系 结构 想 要 提供 专门 的 实现 ， 则 需要 设置 预 处 理 器 符号 HAVE_ARCH_GET_UNMAPPED_ARER。 
口 通常 ， 栈 自 顶 向 下 增长 。 具 有 不 同 处 理 方式 的 体系 结构 需要 设置 配置 选项 CONFIG_STACK_ 
GROWSUP。" 
最 后 ， 我 们 需要 考虑 进程 标志 PF_RANDOMIZE。 如 果 设 置 了 该 标志 ， 则 内 核 不 会 为 栈 和 内 存 映 射 
的 起 点 选择 固定 位 置 , 而 是 在 每 次 新 进程 启动 时 随机 改变 这 些 值 的 设置 。 这 引入 了 一 些 复杂 性 , 例如 ， 
使 得 攻击 因 缓 冲 区 溢出 导致 的 安全 漏洞 更 加 困难 。 如 果 攻 击 者 无 法 依靠 固定 地 址 找到 栈 ， 那么 想 要 构 
建 恶 意 代 码 ， 通 过 缓冲 器 溢出 获得 栈 内 存 区 域 的 访问 权 ， 而 后 恶意 操纵 栈 的 内 容 ， 将 会 困难 得 多 。 
图 4-1 说 明了 前 述 的 各 个 部 分 在 大 多 数 体系 结构 的 虚拟 地 址 空间 中 的 分 布 情况 。 
text 段 如 何 映射 到 虚拟 地 址 空间 中 由 ELEF 标 准确 定 〈《 有 关 该 二 进 制 格式 的 更 多 信息 ， 请 参见 附录 
) 。 每 个 体系 结构 都 指定 了 一 个 特定 的 起 始 地址 : IA-32 系 统 起 始 于 0x08048000， 在 text 段 的 起 始 地 
址 与 最 低 的 可 用 地 址 之 间 有 大 约 128 MiB 的 间距 ， 用 于 捕获 NULL 指 针 。 其 他 体系 结构 也 有 类 似 的 缺口 : 
UltraSparc 计 算 机 使 用 0ox100000000 作 为 text 段 的 起 始点 ， 而 AMD64 使 用 ox0000000000400000。 堆 紧 
接着 text 段 开始 ， 向 上 增长 。 
栈 起 始 于 sTACK_TOP， 如 果 设 置 了 PF_RANDOMIZE， 则 起 始点 会 减少 一 个 小 的 随机 量 。 每 个 体系 
结构 都 必须 定义 STACK_TOP， 大 多 数 都 设置 为 TASK_sIZzE， 即 用 户 地 址 空间 中 最 高 的 可 用 地 址 。 进 程 
的 参数 列表 和 环境 变量 都 是 栈 的 初始 数据 。 
书 于 内 存 上 映射 的 区 域 起 始 于 mm_struct->mmap_base， 通 常设 置 为 TASK_UNMAPPED_BASE， 每 个 
体系 结构 都 需要 定义 。 几 乎 所 有 的 情况 下 ， 其 值 都 是 raAsK_SITZE/3。 要 注意 ， 如 果 使 用 内 核 的 默认 配 
置 ， 则 mmap 区 域 的 起 始点 不 是 随机 的 。 
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Q 当前 只 有 PA-Risc 处 理 器 需要 该 选项 。 因 而 内 核 中 的 常数 对 自 底 向 上 增长 的 栈 有 一 点 轻视 的 趋向 ， 但 PA-Risc 代 码 
对 此 相当 不 满 ， 我 们 可 以 从 include/asm-parisc/a.out.h 和 看 出 这 一 点 : /* XXX: STACK_TOP actually should 
be STACK_BOTTOM for parisc. * prumpf *\ 有 趣 的 是 prumpf 不 是 表示 不 满 的 标志 ， 而 是 一 个 开发 者 Philipp Rumpf 
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的 缩写 。 





































































































































































































































































































































































































































































































234 0U40 0000050 
50020000IIIIGG TASK_SIZE 
V7 万 ”和 PY STACK_TOP-randomized variable 
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| 纪 2 和 4 已 用 
不 不 
和 
2AAAAALAOALAL mm->mmab_base (TASK UNMAPPED SIZE) 
秘 
2 2 ; HH 7 
Text 
图 4-1 ”进程 的 线性 地 址 空间 的 组 成 
如 果 计 算 机 提供 了 巨大 的 虚拟 地 址 空间 ,那么 使 用 上 述 的 地 址 空间 布局 会 工作 得 非常 好 。 但 在 32 
位 计算 机 上 可 能 会 出 现 问题 。 考 虑 IA-32 的 情况 : 虚拟 地 址 空间 从 0 到 0xc0000000， 每 个 用 户 进 程 有 
3 GiB 可 用 。TASK_UNMAPPED_BASE 起 始 于 0x4000000， 即 1 G 记 处 。 糖 糕 的 是 ， 这 意味 着 堆 只 有 1 GiB 
空间 可 供 使 用 ， 继 续 增 长 则 会 进入 到 mmap 区 域 ， 这 显然 不 是 我 们 想 要 的 。 
问题 在 于 ， 内 存 映 射 区域 位 于 虚拟 地 址 空间 的 中 间 。 这 也 是 在 内 核 版 本 2.6.7 开 发 期 间 为 I[A-32 计 
算 机 引入 一 个 新 的 虚拟 地 址 空间 布局 的 原因 【经 典 布局 仍然 可 以 使 用 )。 新 的 布局 如 图 4-2 所 示 。 
TASK_SIZE 
FHNSTACK_ TOP-randomized variable 
AAA 间 阶 
I 已 
上 随机 仿 移 
mm->mmap_base 
pe 80000 
图 4-2 mmap 区 域 自 顶 向 下 扩展 时 ，IA-32 计 算 机 上 虚拟 地 址 空间 的 布局 
其 想法 在 于 使 用 固定 值 限制 栈 的 最 大 长 度 。 由 于 栈 是 有 界 的 ， 因 此 安置 内 存 映 射 的 区 域 可 以 在 栈 
末端 的 下 方 立 即 开始 。 与 经 典 方法 相反 ， 该 区 域 现在 是 0D DO 扩展 。 由 于 堆 仍 然 位 于 虚拟 地 址 衬 间 
中 较 低 的 区 域 并 向 上 增长 ， 因 此 mmap 区 域 和 堆 可 以 相对 扩展 ， 直 至 耗 尽 虚拟 地 址 空间 中 剩余 的 区 域 。 
为 确保 栈 与 mmap 区 域 不 发 生 冲 突 ， 两 者 之 间 设 置 了 一 个 安全 际 。 
4.2.2 ”建立 布局 
在 使 用 loagd_elf_pbinary 装 载 一 个 ELF 二 进 制 文件 时 ,将 创建 进程 的 地 址 空间 ， 而 exec 系 统 调用 
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刚好 使 用 了 该 函数 。 加 载 ELF 文 件 涉及 大 量 纷 索 复 杂 的 技术 细节 ， 与 我 们 的 主旨 关系 不 大 ， 因 此 图 4-3 
给 出 的 代码 流程 图 主要 关注 建立 虚拟 内 存 区 域 所 需 的 各 个 步骤 。 






















load elf binary 





如 果 需 要 则 设置 PF_RANDOMIZE 





arch pick mmap_layout 





setup_ arg_ pages 





图 4-3 ”loaqd_elf_pinary 的 代码 流程 图 


如 果 全 局 变量 randomize_va_space 设 置 为 !， 则 启用 地 址 空间 随机 化 机 制 。 通常 情况 下 都 是 局 
用 的 ， 但 在 Transmeta CPU 上 会 停 用 ， 因 为 该 设置 会 降低 此 类 计算 机 的 速度 。 此 外 ， 用 户 可 以 通过 
/proc/sys/kernel/randomi ze_va_space 停 用 该 特性 。 

选择 布局 的 工作 由 arch_pick_mmap_layout 完 成 。 如 果 对 应 的 体系 结构 没有 提供 一 个 具体 的 函 
数 ， 则 使 用 内 核 的 默认 例 程 ， 按 如 图 4-1 所 示 建 立地 址 空间 。 但 我 们 更 感 兴趣 的 是 ，IA-32 如 何在 经 典 
布局 和 新 的 布局 之 间 选 择 : 


arch/x86/mm/mmap_32.c 
void arch pick _mmap_1ayout (struct mm _ struct *mm) 
















































































































































































{ 
/* 
/* ”如 果 设 置 了 personality 比 特 位 ， 或 栈 的 增长 不 受 限制 ， 则 回 退 到 标准 布局 : 
6 
if (sysctl_legacy va_layout || 
(current->personality & ADDR_ COMPAT_ LAYOUT) || 
current->signal->rlim[RLIMIT_ STACK] .rlim cur == RLIM INFINITY) 
{ 
mm->mmap_base = TASK UNMAPPED_ BASE; 
mm->get_unmapped area = arch get_ unmapped area; 
mm->unmap_area = arch unmap_area; 
} else { 
mm->mmap_base = mmap_base (mm); 
mm->get_unmapped _ area = arch get_ unmapped area topdown; 
mm->unmap_area = arch unmap_area topdown; 
} 
} 




















如 果 用 户 通 过 /proc/sys/kernel/legacy_va_layout 给 出 明确 的 指示 ， 或 者 要 执行 为 不 同 的 
UNIX 变 体 编译 、 需 要 旧 的 布局 的 三 进 制 文件 ， 或 者 栈 可 以 无 限 增长 (最 重要 的 一 点 ) ， 则 系统 会 选 
择 旧 的 布局 。 这 使 得 很 难 确定 栈 的 下 界 ， 亦 即 mmap 区 域 的 上 界 。 

在 经 典 的 配置 下 ，mmap 区 域 的 起 始点 是 TASK_UNMAPPED_BASE， 其 值 为 0x4000000， 而 标准 函数 
arch_get_unmapped_area (其 名 称 虽 然 带 有 arch， 但 该 函数 不 一 定 是 特定 于 体系 结构 的 ， 内 核 也 提 
供 了 一 个 标准 实现 ) 用 于 自 下 而 上 地 创建 新 的 映射 。 

在 使 用 新 布局 时 ， 内 存 映 射 自 项 向 下 增长 。 标准 函数 arch_get_unmapped_area_topdown〔 我 不 
会 详细 描述 ) 负责 该 工作 。 更 有 趣 的 问题 是 如 何 选择 内 存 映射 的 基地 址 : 


arch/x86/mm/mmap_32.c 
#define MIN_GAP (128*1024*1024) 
#define MAX GAP (TASK_SIZE/6*5) 
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static 


{ 


} 


inline unsigned long mmap_ basel(struct mm struct *mm) 


unsigned long gap = current->signal->rlim[RLIMIT STACK] .rlim cur; 
unsigned long random factor = 0; 


if (current->flags & PF_RANDOMIZE) 
random factor = get_ random int() % (1024*1024); 


if (gap < MIN_GAP) 
gap = MIN_GAP; 
else if (gap > MAX_ GAP) 
gap = MAX_GAP; 


return PAGE ALIGN(TASK_ SIZE -gap -random factor); 








可 以 根据 栈 的 最 大 长 度 ， 来 计算 栈 最 低 的 可 能 位 置 ， 用 作 mmap 区 域 的 起 始点 。 但 内 核 会 确保 栈 


至 少 跨越 128 





空间 不 被 栈 占据 。 




















MiB 的 空间 。 男 外 ， 如 果 指 定 的 栈 界 限 非常 巨大 ， 那 么 内 核 会 保证 至 少 有 一 小 部 分 地 址 























如 果 要 求 使 用 
内 核 会 确保 该 区 域 x 





初 看 起 来 , 读者 可 能 认为 64 位 体系 结构 的 情况 会 好 一 点 ， 因 为 不 需要 在 不 同 的 地 址 空间 布局 
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也 址 空间 随机 化 机 制 ， 上 述 位 置 会 减 去 一 个 随机 的 俩 移 
对 齐 到 页 帧 ， 这 是 体系 结构 的 要 求 。 


是 


， 最 大 为 1 MiB。 另 外 ， 
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进 











行 选 择 。 虚 拟 地 址 空间 是 如 此 巨大 ， 以 至 于 堆 和 mmap 区 域 的 碰撞 几乎 不 可 能 。 
但 从 AMD64 体 系 结构 的 arch_pick_mmap_layout 定 义 来 看 ， 此 中 会 出 现 另 一 个 复杂 情况 : 


arch/x86_64/mmap.c 
void arch pick mmap_layout (struct mm_struct *mm) 


{ 
#ifdef 


#endif 


} 
如 果 启 月 























CONFIG_IA32_EMULATION 
IE (current thread info()->flags & _TIF_IA32) 
return ia32 _ pick mmap_layout (mm); 





mm->mmap_base = TASK_ UNMAPPED_ BASE; 

if (current->flags & PF_ RANDOMIZE) { 
/* 最 初生 成 的 随机 偏 移 量 是 28 位 ， 因 为 mmap 基 地 址 必须 对 齐 到 页 ， 因 此 将 该 值 左 移 
* PAGE_SHIFT 们 《12 位 )， 最 后 的 偏 移 量 是 40 位 。 大 约 是 用 户 虚 拟 内 存 总 量 的 1/128 
* (总 量 为 47 位 ) */ 
unsigned rnd = get_random int() & Oxfffffff; 
mm->mmap_base += ((unsigned long)rnd) << PAGE SHIFT; 


















































} 
mm->get_unmapped_area = arch get_ unmapped area; 
mm->unmap_area = arch unmap._area; 








Tt 








相同 的 地 址 空间 。 因 此 ，ia32_pick_mmap_layout 用 于 为 32 位 应 用 程序 布置 地 址 空间 。 该 函数 实际 上 
是 IA-32 系 统 上 arch_pick_mmap_layout 的 一 个 相同 副本 ， 前 文 已 经 讨论 过 。 








月 对 32 位 应 用 程序 的 二 进 制 仿真 , 任何 以 兼容 模式 运行 的 进程 都 应 该 看 到 与 原始 计算 机 






















































































AMD64 系 统 上 对 虚拟 地 址 空间 总 是 使 用 经 典 布 局 ， 因 此 无 需 区 分 各 种 选项 。 如 果 设 置 了 PF 
RANDOMIZE 标 志 ， 则 进行 地 址 空间 随机 化 ， 变 动 原 本 固定 的 mmap_base。 
我 们 回 到 1loag_elf_binary。 该 函数 最 后 需要 在 适当 的 位 置 创建 栈 : 


<fs/binfmt_elf.c> 














static 


{ 




































































int load elf binary (struct linux binprm *bprm, struct pt_regs *regs) 
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retval = setup_arg pages (bprm, randomize_stack_ top(STACK_TOP), 
executable_stack); 


标准 函数 setup_arg_pages 即 用 于 该 目的 。 因 为 该 函数 只 是 技术 性 的 ， 我 不 会 详细 讨论 。 该 函数 
需要 栈 顶 的 位 置 作为 参数 。 栈 顶 由 特定 于 体系 结构 的 常数 sTACK_TOP 给 出 ， 而 后 调用 randomize_ 
stack_top， 确 保 在 启用 地 址 空间 随机 化 的 情况 下 ， 对 该 地 址 进行 随机 偏 移 。 


4.3 ”内 存 映 射 的 原理 


由 于 所 有 用 户 进程 总 的 虚拟 地 址 空间 比 可 用 的 物理 内 存 大 得 多 , 因此 只 有 最 常用 的 部 分 才 与 物理 
页 帧 关联 。 这 不 是 问题 ， 因 为 大 多 数 程序 只 占用 实际 可 用 内 存 的 一 小 部 分 。 我 们 考察 一 下 通过 文本 编 
辑 器 操作 文件 的 情况 。 通 常用 户 只 关注 文件 结尾 处 ， 因 此 尽管 整个 文件 都 映射 到 内 存 中 ， 实 际 上 只 使 
用 了 几 页 来 存储 文件 末尾 的 数据 。 至 于 文件 开始 处 的 数据 ， 内 核 只 需要 在 地 址 空间 保存 相关 信息 ， 包 
数据 在 磁盘 上 的 位 置 ， 以 及 需要 数据 时 如 何 读 取 。 

text 段 的 情形 类 似 ， 始 终 需 要 的 只 是 其 中 一 部 分 。 继 续 考 虑 文本 编辑 器 的 例子 ， 那 么 就 只 需要 加 
载 与 主要 编辑 功能 相关 的 代码 。 其 他 部 分 , 如 帮助 系统 或 所 有 程序 通用 的 Web 和 电子 邮件 客户 端 程序 ， 
只 会 在 用 户 明 确 要 求 时 才 加 载 。” 
内 核 必须 提供 数据 结构 ， 以 建立 虚拟 地 址 空间 的 区 域 和 相关 数据 所 在 位 置 之 间 的 关联 。 例如， 在 
映射 文本 文件 时 ,映射 的 虚 似 内 存 区 必须 关联 到 文件 系统 在 硬盘 上 存储 文件 内 容 的 区 域 . 如 图 4-4 所 示 。 
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虚拟 地 址 空间 硬盘 上 的 文件 
图 4-4 ”将 文件 映射 到 虚拟 内 存 中 


当然 , 给 出 的 图 示 是 简化 的 ， 因 为 文件 数据 在 人 硬盘 上 的 存储 通常 并 不 是 连续 的 ， 而 是 分 布 到 若干 
小 的 区 域 (在 第 9 章 会 讨论 ) 。 内 核 利 用 address_space 数 据 结构 了?， 提 供 一 组 方法 从 口 口 口 口 口 读 
数据 。 例 如 ， 从 文件 系统 读 取 。 因 此 adqdqress_space 形 成 了 一 个 辅助 层 ， 将 映射 的 数据 表示 为 连续 上 
线性 区 域 ， 提 供给 内 存 管理 子 系统 。 
按 需 分 配 和 填充 页 称 之 为 0 0 ODOD (demand paging)。 它 基于 处 理 器 和 内 核 之 间 的 交互 ， 使 用 
的 各 种 数据 结构 如 图 4-5 所 示 。 
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Q 我 假定 程序 所 有 的 部 分 都 存在 于 一 个 巨大 的 二 进 制 文件 中 。 当 然 ， 程 序 自 身 也 可 以 显 式 请 求 加 载 一 部 分 二 进 制 代 
码 ， 在 这 里 不 讨论 了 。 
@) 糟糕 的 是 ， 表 示 虚 拟 地 址 空间 的 数据 结构 ， 以 及 用 于 表示 数据 映射 方式 的 地 址 空间 对 应 的 结构 ， 名 称 相同 。 
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地 址 空间 中 的 区 域 


























后 备 
存储 器 


| | 未 映射 ， 使 用 中 物理 页 帧 


wh, 人 
虚拟 地 址 空间 [| 未 映射 ， 未 使 
图 4-5” 按 需 调 页 期 间 各 数据 结构 的 交互 
口 进程 试图 访问 用 户 地 址 空间 中 的 一 个 内 存 地 址 ， 但 使 用 页 表 无 法 确定 物理 地 址 (物理 内 存 中 
没有 关联 页 )。 
口 处 理 器 接 下 来 触发 一 个 缺 页 异常 ， 发 送 到 内 核 。 
口 内 核 会 检查 负责 缺 页 区 域 的 进程 地 址 空间 数据 结构 ， 找 到 适当 的 后 备 存储 器 ， 或 者 确认 该 访 
问 实际 上 是 不 正确 的 。 
口 分 配 物理 内 存 页， 并 从 后 备 存储 器 读 取 所 需 数据 填充 。 
口 借助 于 页 表 将 物理 内 存 页 并 入 到 用 户 进程 的 地 址 空间 ， 应 用 程序 恢复 执行 。 
这 些 操作 对 用 户 进 程 是 透明 的 。 换 名 话说 ， 进 程 不 会 注意 到 页 是 实际 在 物理 内 存 中 ， 还 是 需要 通 
过 按 需 调 页 加 载 。 


4.4 数据 结构 


我 们 知道 struct mm_struct 很 重要 ， 按 前 文 的 讨论 ， 该 结构 提供 了 进程 在 内 存 中 布局 的 所 有 必 
上 息 。 另 外 ， 它 还 包括 下 列 成 员 ， 用 于 管理 用 户 进程 在 虚拟 地 址 空间 中 的 所 有 内 存 区 域 。 


<mm_types.h> 
struct mm struct { 






























































































































































































































































了 























struct vm area_struct * mmap; /* 虚拟 内 存 区 域 列表 */ 
struct rb_root mm rb; 
struct vm area_struct * mmap_cache; /* 上 一 次 fingd_vma 的 结果 */ 


1 
以 下 章节 讨论 了 上 述 各 成 员 的 语义 。 
4.4.1 树 和 链表 


每 个 区 域 都 通过 一 个 vm_area_struct 实 例 描述 ， 进 程 的 各 区 域 按 两 种 方法 排序 。 

(1) 在 一 个 单 链表 上 (开始 于 mm_struct->mmap) 。 

(2) 在 一 个 红 黑 树 中 ， 根 结 点 位 于 mm_rb。 

mmap_cache 绥 存 了 上 一 次 处 理 的 区 域 。 其 语义 会 在 4.5.1 节 给 出 。 

DDD 是 一 种 二 又 查找 树 ， 其 结 点 标记 有 颜色 〔 红 或 黑 )。 它 们 具有 普通 查找 树 的 所 有 性 质 〈 因 | 
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此 扫描 特定 的 结 点 非常 高 效 )。 结 点 的 红 黑 标记 也 可 以 简化 重新 平衡 树 的 过 程 "不 熟悉 该 概念 的 读者 ， 
可 以 参考 附录 C， 其 中 描述 了 红 黑 树 的 结构 、 性 质 和 实现 。 

用 户 虚 拟 地 址 空间 中 的 每 个 区 域 始 和 结束 地 址 描述 。 现存 的 区 域 按 起 始 地 址 以 递增 次 序 被 归 
入 链表 中 。 扫 描 链 表 找 到 与 特定 地 址 关联 的 区 域 ， 在 有 大 量 区 域 时 是 非常 低 效 的 操作 (数据 密集 型 的 
应 用 程序 就 是 这 样 )。 因 此 vm_area_struct 的 各 个 实例 还 通过 红 黑 树 管理 ， 可 以 显著 加 快 扫描 速度 。 

增加 新 区 域 时 ， 内 核 首 先 搜索 红 黑 树 ， 找 到 刚好 在 新 区 域 之 前 的 区 域 。 因 此 ， 内 核 可 以 向 树 和 线 
性 链表 添加 新 的 区 域 ， 而 无 需 扫 描 链 表 〈 内 核 用 于 添加 新 区 域 的 算法 将 在 4.5.3 节 详细 讨论 )。 最 后 ， 
内 存 中 的 情况 如 图 4-6 所 示 。 请 注意 ， 树 的 表示 只 是 象征 性 的 ， 没 有 反映 真实 布局 的 复杂 性 。 


struct 
task_struct 
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管理 与 进程 关联 的 
vm_area_struct 实 例 
i 过 起 [struct vm_area_struct 




















图 4-6 ”将 vm_area_struct 实 例 与 进程 的 虚拟 地 址 空间 关联 


4.4.2 ”虚拟 内 存 区 域 的 表示 
每 个 区 域 表 示 为 vm_area_struct 的 一 个 实例 ， 其 定义 〈 简 化 形式 ) 如 下 : 


<mm_types.h> 

struct vm area_ struct { 
struct mm_struct * vm mm; /* 所 属地 址 空间 。 */ 
unsigned long vm_start; /* vm_mm 内 的 起 始 地 址 。 */ 
unsigned long vm_end; /* 在 vm_mm 内 结束 地 址 之 后 的 第 一 个 字 节 的 地 址 。 */ 


/* 各 进程 的 虚拟 内 存 区 域 链表 ， 按 地 址 排序 */ 


struct vm area _ struct *vm next; 






































pgprot_t vm_page_prot; /* 该 虚拟 内 存 区 域 的 访问 权限 。 */ 
unsigned long vm_flags; /* 标志 ， 如 下 列 出 。 */ 








struct rb node vm rb; 


/* 
对 于 有 地 址 空间 和 后 备 存储 器 的 区 域 来 说 ， 
shared 连 接 到 address_space->i_mmap 优 先 树 ， 
或 连接 到 基 挂 在 优先 树 结 点 之 外 、 类 似 的 一 组 虚拟 内 存 区 域 的 链表 ， 
或 连接 到 adqdqress_space->1i_mmap_nonlineatr 链 表 中 的 虚拟 内 存 区 域 。 */ 
union { 
struct { 
struct list_ head list; 
void *parent; /* 与 prio_tree_node 的 parent 成 员 在 内 存 中 位 于 同一 位 置 */ 
struct vm area_struct *head; 


















































G) 所 有 重要 的 树 操作 《〈 添 加、 删除 、 查 找 ) 都 可 以 在 COdog nn) 时间 内 完成 ， 其 中 n 是 树 中 结 点 数目 。 
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} vm_ set; 


struct raw_prio_ tree node prio tree node; 
} shared; 








/* 

* 在 文件 的 某 一 页 经 过 写 时 复制 之 后 ， 文 件 的 MAP_PRIVATE 虚 拟 内 存 区 域 可 能 同时 在 i_mmap 树 和 
*anon_vma 链 表 中 。MAP_SHARED 虚 拟 内 存 区 域 只 能 在 i_mmap 树 中 。 

* 匿 名 的 MAP_PRIVATE、 栈 或 brk 虚 拟 内 存 区 域 (file 指 针 为 NULL)〉 只 能 处 于 anon_vma 链 表 中 。 
































struct list_head anon_vma_node; /* 对 该 成 员 的 访问 通过 anon_vma->1lock 串 行 化 */ 
struct anon vma *anon vma; /* 对 该 成 员 的 访问 通过 page_table_lock 串 行 化 */ 














/* 用 于 处 理 该 结构 的 各 个 函数 指针 。 */ 


struct vm operations_struct * vm ops; 


/* 后 备 存储 器 的 有 关 信息 : */ 

unsigned long vm_pgoff; /* (vm_file 内 ) 的 偏 移 量 ， 单 位 是 PAGE_SIZE， 不 是 PAGE_CACHE_SIZE */ 
struct file * vm file; /* 映射 到 的 文件 (可 能 是 NULL) 。 */ 

void * vm private_ data; /* vm_pte【〔 即 共享 内 存 ) */ 
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各 个 成 员 的 语义 如 下 。 

口 vm_mm 是 一 个 反 向 指针 ， 指 向 该 区 域 所 属 的 mm_struct 实 例 。 

口 vm_start 和 vm_eng 指 定 了 该 区 域 在 用 户 空间 的 起 始 和 结束 地 址 。 

口 进程 所 有 vm_area_struct 实 例 的 链表 是 通过 vm_next 实 现 的 ， 而 与 纪 

vm_rp 实 现 。 

口 vm_page_prot 存 储 该 区 域 的 访问 权限 ， 由 3.3.1 节 讨论 的 常数 构成 ， 也 用 于 内 存 中 的 页 。 

口 vm_flags 是 描述 该 区 域 的 一 组 标志 。 我 将 在 下 文 讨论 可 以 设置 的 标志 。 

口 从 文件 到 进程 的 虚拟 地 址 空间 中 的 映射 ， 可 通过 文件 中 的 区 间 和 内 存 中 对 应 的 区 间 唯 一 地 确 
定 。 为 跟踪 与 进程 关联 的 所 有 区 间 ， 内 核 使 用 了 如 上 所 述 的 链表 和 红 黑 树 。 
但 还 必须 能 够 反 向 查询 : 给 出 文件 中 的 一 个 区 间 , 内 核 有 时 需要 知道 该 区 间 映 射 到 的 所 有 进程 。 
这 种 映射 称 作 口 口 口 口 (shared mapping)， 人 至 于 这 种 映射 的 必要 性 ， 看 看 系统 中 几乎 每 个 进程 
都 使 用 的 C 标 准 库 ， 读 者 就 知道 了 。 
为 提供 所 需 的 信息 ， 所 有 的 vm_area_struct 实 例 都 还 通过 一 个 0 DD 管理 ， 包 含 在 shared 成 
员 中 。 从 该 结构 成 员 的 复杂 定义 ， 读 者 容易 想象 到 ， 这 是 件 很 有 技巧 的 工作 ， 细 节 将 在 下 文 的 
4.4.3 节 讨论 。 

口 anon_vma_node 和 anon_vma 用 于 管理 源 自 匿名 映射 Canonymous mapping) 的 共享 页 。 指 问 相 

同 页 的 映射 都 保存 在 一 个 双 链 表 上 ，anon_vma_node 充 当 链 表 元 素 。 

有 若干 此 类 链表 ， 具 体 的 数目 取决 于 共享 物理 内 存 页 的 映射 集合 的 数目 。anon_vma 成 员 
个 指向 与 各 链表 关联 的 管理 结构 的 指针 ， 该 管理 结构 个 表 头 和 相关 的 锁 组 成 。 

口 vm_ops 是 一 个 指针 ， 指 向 许多 方法 的 集合 ， 这 些 方法 用 于 在 区 域 上 执行 各 种 标准 操作 。 


<mm.h> 
struct vm operations_struct { 
void (*open) (struct vm area struct * area); 
void (*close) (struct vm area_struct * area); 
int (*fault) (struct vm area_ struct *vma, struct vm fault *vmf); 
struct page * (*nopage) (struct vm area struct * area, unsigned long 
address, int *type); 





























| 加 























黑 树 的 集成 则 通过 
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@ 在 创建 和 删除 区 域 时 ， 分 别 调用 open 和 close。 这 两 个 接口 通常 不 使 用 ， 设 置 为 NULL 指 针 。 
@ 但 fault 是 非常 重要 的 。 如 果 地 址 空间 中 的 某 个 虚拟 内 存 页 不 在 物理 内 存 中 ， 自 动 触发 的 缺 
页 异常 处 理 程序 会 调用 该 函数 ， 将 对 应 的 数据 读 取 到 一 个 映射 在 用 户 地 址 空间 的 物理 内 存 
页 中 。 
和 nopage 是 内 核 原 来 用 于 响应 缺 页 异常 的 方法 ,不 如 fault 那 么 灵活 。 出 于 兼容 性 的 考虑 ,该 
成 员 仍然 保留 ， 但 不 应 该 用 于 新 的 代码 。 

口 vm_pgoffset 指 定 了 文件 映射 的 偏 移 量 , 该 值 用 于 只 映射 了 文件 部 分 内 容 时 (如 果 映 射 了 整个 
文件 ， 则 偏 移 量 为 0) 。 


国人 
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口 vm_file 指 向 file 实 例 ， 描 述 了 一 个 被 映 射 的 文件 (如 果 映 射 的 对 象 不 是 文件 ， 则 为 NULL 指 
针 ) 。 第 8 章 详细 地 讨论 了 file 结 构 。 

口 取决 于 映射 类 型 ，vm_private_qdata 可 用 于 存储 私有 数据 ， 不 由 通用 内 存 管 理 例 程 操 作 。 内 
核 上 只 确保 在 创建 新 区 域 时 该 成 员 初始 化 为 NULL 指 针 。 当 前 ， 只 有 少数 声音 和 视频 驱动 程序 使 
用 了 该 选项 。 
vm_flags 存 储 了 定义 区 域 性 质 的 标志 。 这 些 都 是 <mm.h> 中 声明 的 预 处 理 器 常数 。 
口 VM_READ、VM_WRITE、VM_EXEC、VM_SHARED 分 别 指 定 了 页 的 内 容 是 否 可 以 读 、 写 、 执 行 ， 或 
者 由 几 个 进程 共享 。 
口 VM_MAYREAD、VM_MAYWRITE、VM_MAYEXEC、VM_MAYSHARE 用 于 确定 是 否 可 以 设置 对 应 的 VM_x 
标志 。 这 是 mprotect 系 统 调用 所 需要 的 。 
口 VM_GROWSDOWN 和 VM_GROWSUP 表 示 一 个 区 域 是 否 可 以 向 下 或 加 上 扩展 (到 更 低 或 更 高 的 虚拟 地 
址 ) 。 由 于 堆 自 下 而 上 增长 ， 其 区 域 需要 设置 VM_GROWSUP。VM_GROWSDOWN 对 栈 设 置 ， 该 区 域 
自 顶 向 下 增长 。 
口 如 果 区 域 很 可 能 从 头 到 尾 顺 序 读 取 ， 则 设置 VM_sEo_READ。VM_RAND_READ 指 定 了 读 取 可 能 是 
随机 的 。 这 两 个 标志 用 于 “提示 ”内 存 管理 子 系统 和 块 设 备 层 ， 以 优化 其 性 能 〈 例 如 ， 如 果 
访问 是 顺序 的 ， 则 启用 页 的 预 读 。 第 8 章 详 细 讲解 了 该 技术 )。 
口 如 果 设 置 了 VvM_DONTCOPY， 则 相关 的 区 域 在 fork 系 统 调 用 执行 时 不 复制 。 
口 VM_DONTEXPAND 禁 止 区 域 通过 mremap 系 统 调用 扩展 。 
口 如 果 区 域 是 基于 某 些 体系 结构 支持 的 巨型 页 ， 则 设置 vM_HUGETLB 标 志 。 
口 VM_AccoUNT 指 定 区 域 是 否 被 归 入 overcommit 特 性 的 计算 中 。 这 些 特性 以 多 种 方式 限制 内 存 分 
配 (更 多 细节 请 参考 4.5.3 节 )。 
4.4.3 ”优先 查找 树 

DO0ODOD0 (priority search tree) 用 于 建立 文件 中 的 一 个 区 域 与 该 区 域 映 射 到 的 所 有 虚拟 地 址 空 
间 之 间 的 关联 。 为 理解 建立 该 关联 的 方式 ， 我 们 需要 介绍 内 核 的 一 些 数据 结构 ， 后 续 章 节 中 将 更 详细 
地 在 更 通用 的 上 下 文中 讨论 这 些 结构 。 

1. 附加 的 数据 结构 

每 个 打开 文件 (和 每 个 块 设备 ， 因 为 这 些 也 可 以 通过 设备 文件 进行 内 存 映 射 〉 都 表示 为 struct 
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file 的 一 个 实例 。 该 结构 包含 了 一 个 指向 0 DDU D 对 象 struct aqdress_space 的 指针 。 该 对 象 是 [] 
DDDD Cpriotree) 的 基础 ， 而 文件 区 间 与 其 映射 到 的 地 址 空间 之 间 的 关联 即 通过 优先 树 建立 。 这 两 
个 结构 的 定义 如 下 《只 给 出 此 处 讲解 所 需 的 结构 成 员 ) : 

<fs.h> 


struct address_space { 
struct inode *host; /* owner: inode, block device */ 















































struct prio_tree_root i_mmap; /* 私有 和 共享 映射 的 树 */ 
struct list_head i_mmap_nonlinear;/*VM_NONLINEAR 了 映射 的 链表 */ 











上 


<fs.h> 
struct file { 


struct address_space *f _ mapping; 
} 


此 外 ， 每 个 文件 和 块 设备 都 表示 为 struct inode 的 一 实例 。struct file 是 通过 open 系 统 调用 
打开 的 文件 的 抽象 ， 与 此 相反 ，inoqe 表 示 文 件 系统 自身 中 的 对 象 。 


<fs.h> 
struct inode { 









































struct address_space *i_ mapping; 

es 

请 注意 ,尽管 下 文 只 讨论 文件 区 间 的 映射 ， 但 实际 上 也 可 以 映射 不 同 的 东西 。 例 如 ， 直 接 映 射 裸 
(raw) 块 设备 上 的 区 间 ， 而 不 通过 文件 系统 迁 回 。 在 打开 文件 时 ， 内 核 将 file->f_mapping 设 置 到 
inode->i_mapping。 这 使 得 多 个 进程 可 以 访问 同一 个 文件 ， 而 不 会 直接 干扰 到 其 他 进程 inode 是 一 
个 特定 于 文件 的 数据 结构 ， 而 file 则 是 特定 于 给 定 进程 的 。 

这 些 数据 结构 彼此 关联 ， 图 4-7 给 出 了 内 存 中 各 个 结构 之 间 关 联 的 概述 。 请 注意 ， 图 中 树 的 对 
只 是 象征 性 的 ， 没 有 反映 实际 上 比较 复杂 的 树 的 布局 。 


ee Dstruct vm area_struct struct inode 
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和 mm_ struct 
i_mmap 














mm _ struct 





管理 与 文件 关联 的 各 个 


vm_area_struct 实 例 





图 4-7 ”借助 于 优先 树 ， 跟 踪 文 件 的 给 定 区 间 所 映射 到 的 虚拟 地 址 空间 
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给 出 struct address_space 的 实例 ， 内 核 可 以 推断 相关 的 ijnode， 而 后 者 可 用 于 访问 实际 存储 
文件 数据 的 后 备 存储 器 。 通 常 ， 所 述 的 后 备 存储 器 是 块 设备 ， 第 9 章 将 讨论 相关 细节 。4.6 节 和 第 16 章 
则 将 讨论 更 多 与 地 址 空间 相关 的 内 容 。 
在 这 里 只 要 知道 以 下 内 容 就 足够 了 : 地 址 空间 是 优先 树 的 基本 要 素 ， 而 优先 树 包 含 了 所 有 相关 
的 vm_area_struct 实 例 ， 描 述 了 与 inode 关 联 的 文件 区 间 到 一 些 虚 拟 地 址 空间 的 映射 。 由 于 每 
个 struct vm_area 的 实例 都 包含 了 一 个 指向 所 属 进程 的 mm_struct 的 指针 ， 关 联 就 已 经 建立 起 
来 了 ! 要 注意 ，vm_area_struct 还 可 以 通过 以 1_mmap_nonlineazr 为 表 头 的 双 链 表 与 一 个 地 址 
空间 关联 。 这 是 0DDDDD (nonlinear mapping) 所 需要 的 , 我 现在 暂时 忽略 该 内 容 。 我 们 将 在 4.7.3 
入 再 讲解 非 线 性 映射 。 
回忆 图 4-6 的 内 容 ， 其 中 示范 了 通过 链表 和 红 黑 树 组 织 vm_area_struct 实 例 的 方式 。 重 要 的 是 意 
识 到 ， 这 些 与 优先 树 管理 的 vm_area_struct 实 例 实际 上 是 0 DD 。 尽 管 对 内 核 而 言 ， 同 时 通过 两 个 
或 更 多 数据 结构 来 维护 vm_area_struct 实 例 没 有 任何 问题 ， 但 几乎 不 可 能 给 出 图 示 。 因 此 请 记 住 ， 
一 个 给 定 的 struct vm_area 实 例 ， 可 以 包含 在 两 个 数据 结构 中 。 一 个 建立 进程 虚拟 地 址 空间 中 的 区 
域 与 潜在 的 文件 数据 之 间 的 关联 ， 一 个 用 于 查找 映射 了 给 定 文件 区 间 的 所 有 地 址 空间 。 

2. 优先 树 的 表示 

优先 树 用 来 管理 表示 给 定 文件 中 特定 区 间 的 所 有 vm_area_struct 实 例 。 这 要 求 该 数据 结构 不 仅 
能 够 处 理 0 口 ， 还 要 能 处 理 0 口 口 文件 区 间 。 如 图 4-8 所 示 : 两 个 进程 将 一 个 文件 的 [7, 12] 区 域 映射 
到 其 虚拟 地 址 空间 中 ， 而 第 3 个 进程 映射 了 区 间 [10, 30]。 


进程 1 进程 2 
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图 4-8 ”多 个 进程 将 一 个 文件 的 相同 或 重 欠 区 域 映射 到 其 虚拟 地 址 空间 中 
EE 车 区 间 的 管理 称 不 上 是 个 问题 。 区 间 的 边界 提供 了 一 个 唯一 索引 ， 可 用 于 将 各 个 区 间 存 储 在 

个 唯一 的 树 结 点 中 。 我 不 会 详细 讨论 内 核 的 实现 方式 ， 因 为 这 与 基数 树 非常 相似 (更 多 细节 请 参 
见 附录 C)。 只 要 知道 ,如果 区 间 B、C 和 DD 完全 包含 在 男 一 个 区 间 A 中 ， 那 么 A 将 是 B、C 和 D 的 父 结 
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但 如 果 多 个 0 D 区 间 被 归 入 优先 树 ， 会 发 生 什么 情况 ?各 个 优先 树 结 点 表示 为 一 个 raw_prio_ 
tree_node 实 例 ， 该 实例 0 DODD 在 各 个 vm_area_struct 实 例 中 。 回 忆 前 文 ， 该 实例 与 一 个 vm_set 
实例 在 同一 个 联合 中 。 这 可 以 将 一 个 vm_set (进而 vm_area_struct) 的 链表 与 一 个 优先 树 结 点 关联 
起 来 。 图 4-9 说 明了 内 存 中 这 种 关联 的 具体 情况 。 
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prio_tree_ root 


raw_prio_tree node 












raw_ prio_ vm set 


tree_node vm set vm set vm set 


图 4-9 ”管理 共享 的 相同 映射 所 涉及 各 个 数据 结构 的 关联 


在 区 间 揪 入 到 优先 树 时 ， 内 核 进行 如 下 操作 。 

口 在 vm_area_struct 实 例 链 接 到 优先 树 中 作为 结 点 时 ，prio_tree_node 用 于 建立 必要 的 关联 。 
为 检查 是 否 树 中 已 经 有 同样 的 vm_area_struct,， 内 核 利 用 下 述 事实 。vm_set 的 parent 成 员 与 
prio_tree_node 结 构 的 最 后 一 个 成 员 是 相同 的 ， 这些 数 据 结构 可 据 此 进行 协调 。 由 于 parent 
在 vm_set 内 并 不 使 用 ， 内 核 可 以 使 用 parent != NULL， 来 检查 当前 的 vm_area_struct 实 例 
是 否 已 经 在 树 中 。 
prio_tree_node 的 定义 还 确保 了 在 share 联 合 内 部 的 内 存 布局 中 ，vmset 的 head 成 员 与 
prio_tree_node[| 重 毒 ， 因 此 二 者 尽管 在 同一 个 联合 之 中 ， 也 可 以 同时 使 用 。 

因此 内 核 使 用 vm_set .head 指 向 属于 一 个 共享 映射 的 vm_area_struct 实 例 列表 中 的 第 一 个 实 

例 。 

口 如 果 上 述 共享 映射 的 链表 包含 了 一 个 vm_area_struct， 则 vm_set.1list 用 作 表 头 ， 链 表 包 含 
所 有 涉及 的 虚拟 内 存 区 域 。 

4.5.3 节 将 详细 讨论 内 核 如 何 插 入 新 区 域 。 


4.5 对 区 域 的 操作 


内 核 提 供 了 各 种 函数 来 操作 进程 的 虚拟 内 存 区 域 。 在 建立 或 删除 映射 时 ， 创 建 和 删除 区 域 (以 及 
查找 用 于 新 区 域 的 适当 的 内 存 位 置 ) 是 所 需要 的 标准 操作 。 内 核 还 负责 在 管理 这 些 数据 结构 时 进行 优 
化 ， 如 图 4-10 所 示 。 



































































































































































































































































































































将 删除 的 











图 4-10 ”对 区 域 的 操作 

口 如 果 一 个 新 区 域 紧 接着 现存 区 域 前 后 直接 添加 (因此 也 包括 在 两 个 现存 区 域 之 间 的 情况 )， 内 
核 将 涉及 的 数据 结构 合并 为 一 个 。 当 然 ， 前 提 是 涉及 的 所 有 区 域 的 访问 权限 相同 ， 而 且 是 从 
同一 后 备 存储 器 映射 的 连续 数据 。 
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口 如 果 在 区 域 的 开始 或 结束 处 进行 删除 ， 则 必须 据 此 截断 现存 的 数据 结构 。 

口 如 果 删 除 两 个 区 域 [ 0 的 一 个 区 域 ， 那 么 一 方面 需要 减 小 现存 数据 结构 的 长 度 ， 另 一 方面 需 
要 为 形成 的 新 区 域 创建 一 个 新 的 数据 结构 。 

更 重要 的 一 个 标准 操作 是 搜索 与 用 户 空间 中 一 个 特定 虚拟 地 址 相关 的 区 域 。 在 解释 上 文 提 到 的 优 

化 之 前 ， 我 们 先 讨论 用 于 完成 该 工作 的 辅助 函数 。 

4.5.1 将 虚拟 地 址 关联 到 区 域 


通过 虚拟 地 址 ，fing_vma 可 以 查找 用 户 地 址 空间 中 结束 地 址 在 给 定 地 址 之 后 的 第 一 个 区 域 ， 即 
满足 addr < vm_area_struct->vm_end 条 件 的 第 一 个 区 域 。 该 函数 的 参数 不 仅 包 括 虚 拟 地 址 (adgr)， 
还 包括 一 个 指 问 mm_struct 实 例 的 指针 ， 后 者 指定 了 扫描 哪个 进程 的 地 址 空间 。 


<mm/mmap.c> 
struct vm area struct * find vma(struct mm struct * mm, unsigned long adqdqr) 






















































































































































































{ 
struct vm area_struct *vma = NULL; 
/* 首先 检查 缓存 。 */ 
/* 《缓存 命中 率 通 常 大 约 是 35%。 ) */ 
vma = mm->mmap_cache; 
if (!(vma && vma->vm end > addr && vma->vm start <= addr)) { 
struct rb node * rb_node; 
rb_node = mm->mm_rb.rb_node; 
vma = NULL; 
while (rb node) { 
struct vm area_struct * vma_tmp; 
vma_tmp = rb_entry(rb_ node, 
struct vm area_struct, vm rb); 
if (vma_ tmp->vm end > addr) { 
vma = vma_tmp; 
if (vma_ tmp->vm_ start <= addr) 
break; 
rb_node = rb node->rb_ left; 
} else 
rb_node = rb node->rb right; 
} 
if (vma) 
mm->mmap_cache = vma; 
} 
} 
return vma; 
} 

















内 核 首 先 检查 上 次 处 理 的 区 域 ( 现 在 保存 在 mm->mmap_cache) 中 是 否 包含 所 需 的 地 址 ， 即 是 和 否 
该 区 域 的 结束 地 址 在 目标 地 址 之 后 ， 而 起 始 地 址 在 目标 地 址 之 前 。 倘 阁 如 此 ， 内 核 不 会 执行 i£ 语 句 ， 
而 是 立即 将 指向 该 区 域 的 指针 返回 。 
否则 必须 逐步 搜索 红 黑 树 。rb_node 是 用 于 表示 树 中 各 个 结 点 的 数据 结构 。rpb_entry 用 于 从 结 点 
取出 “有 用 数据 ”在 这 里 是 vm_area_struct 实 例 )。 

树 的 根 结 点 位 于 mm->mm_rb.rb_node。 如 果 相 关 的 区 域 结束 地 址 大 于 目标 地 址 而 起 始 地 址 小 于 目 
标 地 址 , 内 核 就 找到 了 一 个 适当 的 结 点 , 可 以 退出 while 循 环 , 返回 指 问 vm_area_struct 实 例 的 指针 。 
否则 ， 再 继续 搜索 ; 
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口 如 有 果 当 前 区 域 结束 地 址 0 口 目标 地 址 ， 则 从 无 子 结 点 开始 ; 
口 如 果 当 前 区 域 的 结束 地 址 0 0 0 0 目标 地 址 ， 则 从 右 子 结 点 开始 。 
如 果树 根 结 点 的 子 结 点 为 NULL 指 针 ， 则 内 核 很 容易 判断 何 时 结束 搜索 并 
信息 。 
如 果 找 到 适当 的 区 域 ， 则 将 其 指针 保存 在 mmap_cache 中 ， 因 为 下 一 次 fing_vma 调 用 搜索 同一 个 
区 域 中 邻近 地 址 的 可 能 性 很 高 。 
fingd_vma_intersection 是 男 一 个 辅助 函数 , 用 于 确认 边界 为 start_addqr 和 end_adqr 的 区 间 是 
和 否 完全 包含 在 一 个 现存 区 域内 部 。 它 基于 findq_vma， 很 容易 实现 ， 如 下 所 示 : 
<mm.h> 
static inline 
struct vm area struct * find vma intersection(struct mm struct * mm, 


unsigned long start _addr, 
unsigned long end addr) 
























































NULL 指 针 作 为 错误 
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struct vm area_ struct * vma = find vma (mm,start_addr); 


IE (vma && end addr <= vma->vm_ start) 
vma = NULL; 
return vma; 


} 


4.5.2 ”区 域 合并 
在 新 区 域 被 加 到 进程 的 地 址 空间 时 ， 内 核 会 检查 它 是 否 可 以 与 一 个 或 多 个 现存 区 域 合并 ， 如 图 
4-10 所 示 。 
vm_merge 在 可 能 的 情况 下 ， 将 一 个 新 区 域 与 周边 区 域 合并 。 它 需要 很 多 参数 。 
mm/mmap.c 
struct vm area_struct *vma merge(struct mm _ struct *mm, 
struct vm area_struct *preyv, 
unsigned long addr, unsigned long end, unsigned long vm_ flags, 


struct anon vma *anon vma, struct file *file, 
pgoff_t pgoff, struct mempolicy *policy) 


























pgoff_t pglen = (end -addr) >> PAGE_ SHIFT; 
struct vm area struct *area, *next; 














mm 是 相关 进程 的 地 址 空间 实例 ， 而 prev 是 是 紧 接着 新 区 域 0 吕 的 区 域 。rb_parent 是 该 区 域 在 红 
黑 查 找 树 中 的 父 结 点 。 
addr、end 和 vm_flags 分 别 是 新 区 域 的 开始 地 址 、 结 束 地 址 、 标 志 。 如 果 该 区 域 属于 一 个 文件 此 
射 ， 则 file 是 一 个 指向 表示 该 文件 的 file 实 例 的 指针 。pgoff 指 定 了 映射 在 文件 数据 内 的 偏 移 量 
于 policy 参 数 只 在 NUMA 系 统 上 需要 ， 我 不 会 进一步 讨论 它 。 

实现 的 技术 细节 非常 简单 。 首 先 检查 确定 前 一 个 区 域 的 结束 地 址 是 否 对 应 于 新 区 域 的 起 始 地 址 。 
倘若 如 此 ， 内 核 接 下 来 必须 检查 两 个 区 域 ， 确 认 二 者 的 标志 和 上 映射 的 文件 相同 ， 文 件 映 射 内 部 的 偏 移 
量 符合 连续 区 域 的 要 求 ， 两 个 内 都 不 包含 匿名 映射 ， 而 且 两 个 区 域 彼此 兼容 。” 

通过 can_vma_merge_after 辅 助 函 数 完 成 检查 。 将 区 域 与 前 一 个 区 域 合 并 的 工作 看 起 来 如 下 所 示 : 
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Q 如 果 两 个 文件 映射 在 地 址 空间 中 连续 ， 但 在 文件 中 不 连续 ， 亦 无 法 合并 。 
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mm/mmap.c 
if (prev && prev->vm end == addr && 
can vma merge after(prev, vm flags, 
anon vma, file, pgoff)) { 








如 果 可 以 ， 内 核 接 下 来 检查 后 一 个 区 域 是 否 可 以 合并 。 


mm/mmap.c 














/* 

* OK， 前 一 个 可 以 合并 。 现在 我 们 可 以 合并 后 一 个 么 ? 
yh 

if (next && end == next->vm start && 


can vma_ merge before(next, vm flags, 
anon vma, file, pgoff+pglen) && 
is_mergeable anon vma (prev->anon_ vma, 
next->anon vma)) { 
vma_adjust (prev, prev->vm start, 
next->vm_end, prev->vm pgoff, NULL); 


} else 
vma_adjust (prev, prev->vm start, 
end, prev->vm pgoff, NULL); 


return prev; 





} 
与 前 一 例 相 比 ， 第 一 个 差别 是 使 用 can_vma_merge_before 来 检查 两 个 区 域 是 否 可 以 合并 ， 替 代 
了 can_vma_merge_after。 如 果 前 一 个 和 后 一 个 区 域 都 可 以 与 当前 区 域 合 并 ， 还 必须 确认 前 一 个 和 后 
一 个 区 域 的 匿名 映射 可 以 合并 ， 然 后 才能 创建 包含 这 3 个 区 域 的 一 个 单一 区 域 。 
在 两 种 情况 下 ， 都 调用 了 辅助 函数 vma_aqjust 执 行 最 后 的 合并 。 它 会 适当 地 修改 涉及 的 所 有 数 
据 结 构 ， 包 括 优先 树 和 vm_area_struct 实 例 ， 还 包括 释放 不 再 需要 的 结构 实例 。 


一 口 


4.5.3 插入 区 域 
insert_vm_struct 是 内 核 用 于 插入 新 区 域 的 标准 函 数 o 实 际 工 作 委 托 给 两 个 甫 助 区 | 数 ， 如 图 4-1 1 
给 出 的 代码 流程 图 所 示 。 
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find_vma_prepare 







图 4-11 ”insert_vm_struct 的 代码 流程 
首先 调用 finq_vma_prepare， 通 过 新 区 域 的 起 始 地 址 和 涉及 的 地 址 空间 (mm_struct)， 获 取 下 
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列 信息 。 














口 包含 该 区 或 
C 语 言 百 中 函数 只 











作为 结果 。 剩 余 的 信和 
查找 到 的 信息 足以 








作 之 后 ， 该 函数 将 实际 工作 委托 给 insert_vm_struct， 后 者 执行 3 个 插入 操作 ， 如 代码 流程 图 
口 _vma_link_ list 将 新 区 域 放置 到 进程 本 理 
find_vma_prepare 找 到 的 前 一 个 和 后 一 
新 区 城 连接 到 


口 顾名思义 ， 





口 前 一 个 区 域 的 vm_area_struct 实 例 。 


口 ( 红 黑 树 中 〉 保 存 部 








区 域 结 点 的 父 结 点 。 








自身 的 























红 黑 树 ) 叶 结 点 。 

一 个 值 ， 这 是 常识 ， 因 
通过 指针 参数 提供 。 
侦 用 vma_1ink 将 新 区 








驻 域 合 

















域 的 线性 链表 上 。 完 成 该 了 











vma_ Tink rp 将 











名 
vma_prio tree inser 


4.5.4 创建 区 域 








口 anon_vma_link 将 vm_area_struct 实 
最 后 ， vma_1link_file 将 相关 的 address 
该 区 域 添加 到 优 9 

















E 树 











在 向 数据 结构 插 





新 的 内 存 








Xl 


此 上 述 函 数 只 返回 了 一 个 指向 前 一 个 区 域 的 指针 














并 到 该 进程 现存 的 数据 结构 中 。 在 经 过 一 些 准 备 工 
































(0 
区 oo 


黑 树 的 数据 结构 中 。 

网 添加 到 匿名 映射 的 链表 ， 上 文 讨论 过 。 
space 和 映射 (如果 是 文件 映射 关联 起 来 ， 
FP， 对 多 个 相 
































区 域 的 处 理 如 上 所 述 。 





楂 








[ 作 ， 这 只 需 提 供 使 月 























区 域 之 前 ， 内 核 必须 确认 虚拟 地 址 空间 中 有 足够 的 空闲 空间 














给 定 长 度 的 区 域 。 该 工作 分 配给 gset_unmapped_area 辅 助 函 数 完 成 。 


mm/mmap.c 
unsigned long 


get_unmapped areals 


这 些 参数 都 是 自 





mm_struct 实 例 中 存 








可 











忆 4.2 节 的 内 容 ， 根 据 进程 





考虑 大 多 数 系统 上 采 





址 空 间 内 。 














truct file *file, 




















局， 会 选择 使 





虚拟 地 址 空 
示 准 函数 arch_get Rs 


arch -get unmapped_ ee 置 了 MAP_FIXI 


unsigned long addr, 
unsigned long len, unsigned long pgoff, unsigned long flags) 


明 的 。 我 们 对 该 函数 的 实现 没有 更 多 的 兴趣 了 ， 因 为 实际 工作 委托 给 当前 
嵌 的 特定 于 体系 结构 的 辅助 函数 。” 














Pan 

















al 











不 同 的 映射 函数 。 在 这 里 我 主 















































如 果 没 有 指定 区 域 位 置 ， 内 核 将 调 月 








的 可 用 区 域 。 如 果 指 

















存 区 域 重 登 。 如 果 帮 


mm/mmap.c 
unsigned long 


arch get unmapped areal(struct 
unsigned long 


{ 


struct mm_struct *mm = current->mm; 


重 谷 ， 则 将 该 地 址 作 




















定 了 一 个 特定 的 优先 选用 

















G 如 果 新 区 域 是 新 的 起 始 区 域 ， 或 者 该 地 址 空间 














树 中 的 信息 来 正确 














名 文件 也 可 以 具有 专用 























机 制 ， 以 便 直 接 操纵 显存 。 但 由 于 内 核 通常 使 用 标 











的 映射 函数 。 例 如 ， 帧 缓冲 〈frame-buffer) 代码 会 在 帧 缓冲 设备 文件 映射 到 内 存 中 


file *filp, 

































































有 arch_get_unmapped_area 在 进程 的 虚 似 内 存 区 中 查找 适当 
;国定 地 址 不 同 ) 地 址 ， 内 核 会 检查 该 
为 目标 返回 。 























unsigned long addr, 
len, unsigned long pgoff, unsigned long flags) 


ED 标志 ， 该 标志 表示 映射 将 在 固定 
会 确保 该 地 址 满足 对 齐 要求 〈 按 页 ) ， 而 且 所 要 求 的 区 间 完 全 在 可 用 

















区 域 是 否 与 现 











尚未 定义 区 域 ， 那 么 就 不 存在 前 一 个 区 域 ， 这 种 情况 下 将 使 























b= 











LE， 我 不 会 讨论 其 他 特定 的 例 程 。 

















村 全 
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if (addr) { 
addr = PAGE ALIGN (addr); 
vma = fingd vma (mm, addr); 
if (TASK_ SIZE -len >= addr && 
(!vma || addr + len <= vma->vm_ start)) 
return addr; 














和 否则， 内核 必须 志 历 进程 中 可 用 的 区 域 ， 设 法 找到 一 个 大 小 适当 的 空闲 区 域 。 这 样 做 时 ， 内 核 会 
仿 查 是 否 可 使 用 前 一 次 扫描 时 缓存 的 区 域 。 


mm/mmap.c 
if (len > mm->cached hole size) { 
start_addr = addr = mm->free _ area _ cache; 
} else { 
start_addr = addr = TASK_ UNMAPPED_ BASE; 
mm->cached_hole_size = 0; 





















































实际 的 遍历 ， 或 者 开始 于 虚拟 地 址 空间 中 最 后 一 个 “空洞 ”的 地 址 ， 或 者 开始 于 全 局 的 起 始 地 址 4 


TASK_UNMAPPED_BASE。 











mm/mmap.c 
full_search: 

















for (vma = find vma(mm, addr); ; vma = vma->vm next) { 
/* At this point: (!vma || addr < vma->vm end). */ 
if (TASK_ SIZE - len < addr) { 
* 开始 一 次 新 的 搜索 ， 以 防 错 过 某 些 空洞 。 
要 
if (start_addr != TASK_UNMAPPED_BASE) { 





addr = TASK UNMAPPED_ BASE; 
start_addr = addr; 
mm->cached_hole_ size = 0; 
goto full_search; 








} 
return -ENOMEM; 


if (!vma || addr + len <= vma->vm start) { 
Pa 
* 记 住 我 们 停止 搜索 的 位 置 : 
*/ 
mm->free_area_cache = addr + len; 
return addr; 


} 

if (addr + mm->cached hole size < vma->vm start) 
mm->cached hole_size = vma->vm start - addr; 

addr = vma->vm_endgd; 


} 
如 果 搜 索 持 i (TASK_SIZE)， 仍 然 没 有 找到 适当 的 区 域 ， 则 内 核 返 
个 -ENOMEM 错 误 。 错 误 必须 发 送 到 用 户 空 间 ， 且 由 相关 的 应 用 程序 来 处 理 。 该 错误 代码 表示 虚拟 地 址 
空间 中 可 用 内 存 不 足 ， 无 法 满足 应 用 程序 的 请 求 。 如 果 找 到 内 存 ， 则 返回 其 起 始 处 的 虚拟 地 址 。 
如 果 mmap 区 域 自 顶 癌 下 扩展 ， 那 么 分 配 新 区 域 的 函数 是 arch_get_unmapped_area_topdown， 
其 处 理 逻 辑 与 上 文 所 述 类 似 。 当 然 ， 搜 索 的 方向 相反 。 我 们 在 这 里 无 须 费 心 考 虑 实现 细节 。 
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4.6 地址 空间 











文件 的 内 存 映 射 可 以 认为 是 两 个 不 同 的 地 址 空间 之 间 的 映射 ， 以 简化 〈 系 统 ) 程序 员 的 工作 。 一 














个 地 址 空间 是 用 户 进程 的 虚拟 地 址 空间 ， 另 一 个 是 文件 系统 所 在 的 地 址 空 
在 内 核 创建 一 个 映射 时 , 必须 建立 两 个 地 址 空间 之 间 的 关联 , 以 支持 二 
vm_operations_struct 结 构 即 用 于 完成 该 工作 


读 取 已 经 映射 到 虚拟 地 址 空间 、 但 其 内 容 尚未 进入 物理 内 存 的 页 。 
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日。 
-者 以 读 写 请 求 的 形式 通信 。 


























， 我 们 在 4.4.2 节 已 经 熟悉 了 。 它 提供 了 一 个 操作 ， 来 





晶 该 操作 不 了 解 映射 类 型 或 其 性 质 的 相关 信息 。 由 于 存在 许多 种 类 的 文件 映射 (不 同类 型 文件 系 


统 上 的 普通 文件 、 设 备 文件 等 )， 因 此 需要 更 多 的 信息 。 实 际 上 ， 内 核 需要 更 详细 地 说 明 数 据 源 所 在 








的 地 址 空间 。 















































struct address_space 的 准确 定义 与 这 里 讲述 的 内 容 也 是 不 相关 的 








上 文 简 要 提 到 的 address_space 结 构 ， 即 为 该 目的 定义 , 包含 了 有 关上 映射 的 附加 信息 。 回 忆 图 4-7 
给 出 的 文件 、 地 址 空间 和 jinogde 之 间 的 关联 。 其 中 涉及 的 一 些 数据 结构 将 在 后 续 章节 解释 ， 因 此 在 这 
里 就 不 讨论 其 关系 了 。 我 们 只 是 明确 一 点 : 每 个 文件 映射 都 有 一 个 相关 的 aaqress_space 实 例 。 











并 将 在 第 16 章 更 详细 地 讨 





















































论 。 在 这 里 , 只 要 知道 每 个 地 址 空间 都 有 一 组 相关 的 操作 , 以 函数 指针 的 形式 保存 在 如 下 的 结构 中 ( 书 











中 只 转载 了 最 重要 的 项 )。 


<fs.h> 
struct address_space operations { 





int (*writepage) (struct page *page, struct writeback control *wbc); 


int (*readpage) (struct file *, struct Page *); 


/* 回 写 该 映射 的 一 些 脏 页 。 */ 


int (*writepages) (struct address_space *, struct writeback control *); 


/* 将 页 设置 为 脏 的 。 如 果 设 置 成 功 则 返回 true。 */ 
int (*set page dirty) (struct page *page); 





int (*readpages) (struct file *filp, struct address_space *mapping, 


struct list head *pages, unsigned nr _ pages); 
}; 
该 结构 的 详细 描述 也 可 以 在 第 16 章 找到 。 
































几 页 。 









































容 。 
口 set_page_dirty 表 示 一 页 的 内 容 已 经 改变 ， 即 与 块 设备 上 的 原始 

















口 readpage 从 潜在 的 块 设备 读 取 一 页 到 物理 内 存 中 。readpages 执 行 的 任务 相同 ， 但 一 次 读 取 








D writepage 将 一 页 的 内 容 从 物理 内 存 写 回 到 块 设备 上 对 应 的 位 置 ， 以 便 永久 地 保存 更 改 的 内 





内 容 不 再 匹配 。 























vm_operations_struct 和 address_space 之 间 的 联系 如 何 建立 ? 这 里 不 存在 将 一 个 结构 的 实例 


























分 配 到 另 一 个 结构 的 静态 连接 。 尽 管 如 此 ， 这 两 个 结构 仍然 使 用 内 核 为 vm_operations_struct 提 供 














的 标准 实现 连接 起 来 ， 几 乎 所 有 的 文件 系统 都 使 用 了 这 种 方式 。 


mm/filemap.c 

struct vm operations_struct generic file vm ops = { 
.fault = filemap_fault, 

} 




















filemap_fault 的 实现 使 用 了 相关 映射 的 readpage 方 法 ， 因 此 也 采 














和 用 了 上 述 的 address_space 
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概念 ， 读 者 在 第 8 章 的 概念 描述 中 会 看 到 。 
4.7 ”内 存 映射 


我 们 已 经 熟悉 了 内 存 映 射 相关 的 数据 结构 和 地 址 空间 操作 ， 在 本 节 中 ,我们 将 进一步 讨论 在 建立 
映射 时 内 核 和 应 用 程序 之 间 的 交互 。 就 我 们 所 知 ，C 标 准 库 提供 了 mmap 函 数 建立 映射 。 在 内 核 一 端 ， 
提供 了 两 个 系统 调用 mmap 和 mmap2。 某 些 体系 结构 实现 了 两 个 版 本 ， 例 如 IA-64 和 Sparc (64)， 其 他 的 
只 实现 了 第 1 个 AMD64) 或 第 2 个 (IA-32)。 两 个 函数 的 参数 相同 。 


asmlinkage unsigned long sys_mmap{2} (unsigned long addr, unsigned long len, 
unsigned long prot, unsigned long flags, 
unsigned long fd, unsigned long off) 


这 两 个 调用 都 会 在 用 户 虚拟 地 址 空间 中 的 pos 位 置 ， 建 立 一 个 长 度 为 len 的 映射 ， 其 访问 权限 通 
过 prot 定 义 。flags 是 一 个 标志 集 ， 用 于 设置 一 些 参 数 。 相 关 的 文件 通过 其 文件 描述 符 fd 标 识 。 

mmap 和 和 mmap2 之 间 的 差别 在 于 偏 移 量 的 语义 (off)。 在 这 两 个 调用 中 ， 它 都 表示 映射 在 文件 中 
始 的 位 置 。 对 于 mmap， 位 置 的 单位 是 字 节 ， 而 mmap2 使 用 的 单位 则 是 页 (PAGE_sIzE)。 因 此 即使 文件 
比 可 用 地 址 空间 大 ， 也 可 以 映射 文件 的 一 部 分 。 
通常 C 标 准 库 只 提供 一 个 函数 ， 由 应 用 程序 用 来 创建 内 存 映 射 。 接 下 来 该 函数 调用 在 内 部 转换 为 
适合 于 体系 结构 的 系统 调用 。 
可 使 用 munmap 系 统 调用 删除 映射 。 因 为 不 需要 文件 偏 移 量 ， 因 此 不 需要 munmap2 系 统 调 用 ， 只 需 
提供 映射 的 虚拟 地 址 。 


4.7.1 创建 映射 


mmap 和 mmap2 的 调用 语法 在 上 文 已 经 介绍 ， 因 此 我 只 简要 地 列 出 可 以 设置 的 最 重要 的 标志 。 
口 MAP_FIXED 指 定 除了 给 定 地 址 之 外 ,不 能 将 其 他 地 址 用 于 映射 。 如 果 没 有 设置 该 标志 ， 内 核 可 
以 在 受阻 时 随意 改变 目标 地 址 。 例 如 ， 在 目标 地 址 已 经 存在 一 个 映射 的 情况 (否则 ， 现 存 的 
映射 将 被 履 盖 )。 
口 如 果 一 个 对 象 ( 通 常 是 文件 ) 在 儿 个 进程 之 间 共 享 时 ， 则 必须 使 用 MAP_SHARED。 
口 MAP_PRIVATE 创 建 一 个 与 数据 源 分 离 的 私有 了 映射， 对 映射 区 域 的 写 入 操作 不 影响 文件 中 的 数 
据 。 
口 MAP_ANONYMOUS 创 建 与 任何 数据 源 都 不 相关 的 0 口 映射 ，fa 和 off 参 数 被 忽略 。 此 类 映射 可 用 
于 为 应 用 程序 分 配 类 似 malloc 所 用 的 内 存 。 
prot 可 指定 PROT_EXEC、PROT_READ、PROT_WRITE、PROT_NONE 值 的 组 合 ， 来 定义 访问 权限 。 并 
非 所 有 处 理 器 都 实现 了 所 有 组 合 ， 因 而 区 域 实际 授予 的 权限 可 能 比 指定 的 要 多 。 尽 管内 核 尽 力 设置 指 
定 的 权限 ， 但 它 只 能 保证 实际 设置 的 访问 权限 不 会 比 指定 的 权限 有 更 多 的 限制 。 
为 简明 起 见 ， 下 文 只 讨论 sys_mmap2 (sys_mmap 在 大 多 数 其 他 体系 结构 上 的 行为 是 类 似 的 : 最 终 
都 会 到 达 下 文 讨 论 的 ao_mmap_pgoff 函 数 )。 与 第 13 章 讨论 的 惯例 一 致 ， 该 函数 用 作 mmap2 系 统 调 用 的 
入 口 ， 其 实现 立即 将 工作 委托 给 do_mmap2。 内 核 在 其 中 提供 文件 描述 符 找 到 file 实 例 ， 以 及 所 处 理 
文件 的 所 有 特征 数据 《第 8 章 将 更 仔细 地 讲述 该 数据 结构 )。 剩 余 的 工作 委托 给 ao_mmap_pgoff。 
do_mmap_pgoff 是 一 个 体系 结构 口 的 函数 ， 定 义 在 mm/mmap.c。 图 4-12 给 出 了 相关 的 代码 
流程 图 。 
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D040 DUUD0UUDO 





do_mmap_pgoff 曾 经 是 





do_mmap_pgoff 




















已 经 有 现存 的 区 域 ? 


检查 内 存 限制 














创建 新 的 vm_area_struct 实 


例 | 









file->f_op->mmap 









设置 了 VM_LOCKED 标 志 ? 


返回 映射 的 起 始 地 址 





make_pages_present 















区 








4-12 do_mmap_pgoff 的 代 





人 码 流程 图 





内 核 中 最 长 的 函数 之 一 。 它 现在 


已 经 分 成 两 个 部 分 ， 但 仍然 相当 长 。 

















部 分 需要 彻底 检查 用 户 应 








| 各 



































部 分 对 于 


MAP_SHAR] 























calc_ vm prot bits 和 和 calc vm flag bits 


ED 映射 普 
首先 调用 4.5.4 节 
射 。 我 们 知道 ， 应 用 程序 可 以 对 映射 指定 固定 地 址 
将 系统 调用 





个 











从 一 般 意 义 上 理 


i 








解 所 涉及 的 机 制 没什么 价值 ， 

















文件 。 另 外 ， 为 避免 使 描述 过 了 





同 的 标志 集中 ， 在 后 续 的 操作 


mm/mmap.c 


最 有 趣 的 是 ， 内 核 在 从 当前 运行 进程 的 mm_struct 实 例 
直 为 0 或 VM_LOCK。 前 者 不 会 改变 结果 标志 得 
的 页 无 法 换 出 (页 交换 的 实现 在 第 18 章 讨论 )。 为 设置 def_flags 





vm flags = calc vm prot_ bits (prot) 
VM_MAYRI 

















志和 集中 。def_flags 的 


地 








见长， 














直 述 的 get_unmapped_area 














建议 一 


LA、 














PP 比较 易于 处 至 





(MAP_ 和 





| ca 





mm->def_flags 





序 传递 的 参数 ， 第 二 个 部 分 需要 考虑 大 量 特殊 情况 和 微妙 之 处 。 


数 , 在 虚拟 


人 









































我 们 只 考察 具有 代表 性 的 标准 情 
代码 流程 图 也 进行 了 相应 删 减 。 
电 址 空间 中 找到 一 个 适当 的 
地 址 或 由 内 核 选择 地 址 。 

P 指 定 的 标志 和 访问 权限 常数 合并 到 一 
PROT_ 标志 转换 为 前 级 vm_ 的 标志 )。 


况 : 




















域 用 于 上 





区 


于 












































lc_vm flag bits(flags) 








EAD | VM MAYWRITE | VM_ MAYEXEC; 
获得 aef_flags 之 后 ， 又 将 其 包含 到 标 
























































系统 调用 ， 使 用 上 述 机 制 防止 所 有 未 来 的 映射 被 换 出 ， 即 使 在 创建 
也 是 如 此 。 
在 检查 过 参数 并 设置 好 所 有 需要 的 标志 之 后 ， 剩 余 的 工 
在 4.5.3 节 已 经 熟悉 的 fingd_vma_prepa 
以 及 红 黑 树 中 结 点 对 应 的 数据 。 如 果 在 指定 的 映射 位 置 已 经 









































发， 而 VM_LOCK 意 味 着 随后 映射 
的 值 ， 进 程 必须 发 出 mlockall 
村 没有 显 式 指 定 vM_LocK 标 志 ， 





























入 了 我 们 





作 委 托 给 mmap_region。 其 中 调 


re 函数 ， 来 查找 前 一 个 和 后 一 个 区 域 的 vm_area_struct 实 例 ， 




















(将 在 下 一 节 描 述 )。 


























存在 一 个 映射 ， 则 通过 ao_munmap 删 除 它 








47 0000 253 























如 果 没 有 设置 MAP_NORESERVE 标 志 或 内 核 参数 sysctl_overcommit_memory" 设置 为 OVERCOMMIT_ 
NEVER〈 即 ， 不 允许 过 量 使 用 )， 则 调用 ”wm_enough_memory。 该 函数 选择 是 否 分 配 操作 所 需 的 内 存 。 
如 果 它 选择 不 分 配 ， 则 系统 调用 结束 ， 返 回 -ENOMEM。 

在 内 核 分 配 了 所 需 的 内 存 之 后 ， 会 执行 下 列 步骤 。 

(1) 分 配 并 初始 化 一 个 新 的 vm_area_struct 实 例 ， 并 插入 到 进程 的 链表 / 树 数据 结构 中 。 

(2) 用 特定 于 文件 的 函数 file->f_op->mmap 创 建 映射 。 大 多 数 文件 系统 将 generic_file_mmap 
用 于 该 目的 。 它 所 作 的 所 有 工作 ， 就 是 将 映射 的 vm_ops 成 员 设 置 为 generic_file_vm_ops。 

vma->vm_ops = &generic file vm ops; 

generic_file vm_ops 的 定义 在 4.5.3. 节 给 出 。 其 关键 要 素 是 Eilemap_fault， 在 应 用 程序 访问 
映射 区 域 但 对 应 数据 不 在 物理 内 存 时 调用 。filemap_fault 借 助 于 潜在 文件 系统 的 底层 例 程 取得 所 需 
数据 ， 并 读 取 到 物理 内 存 ， 这 些 对 应 用 程序 是 透明 的 。 换 句 话说 ， 映 射 数据 不 是 在 建立 映射 时 立即 读 
入 内 存 ， 只 有 实际 需要 相应 数据 时 才 进 行 读 取 。 

第 8 章 更 仔细 地 考察 了 filemap_fault 的 实现 。 

如 果 设 置 了 vM_LOCKED, 或 者 通过 系统 调用 的 标志 参数 显 式 传递 进来 , 或 者 通过 mlockall 机 制 隐 
式 设 置 ， 内 核 都 会 调用 make_pages_present 依 次 扫描 映射 中 各 页 ， 对 每 一 页 触发 缺 页 异常 以 便 读 入 
其 数据 。 当 然 ， 这 意味 着 失去 了 延 信 读 取 带 来 的 性 能 提高 ， 但 内 核 可 以 确保 在 映射 建立 后 所 涉及 的 页 
0 0 在 物理 内 存 中 。 毕 况 Vm_LocKED 标 志 用 来 防止 从 内 存 换 出 页 ， 因 此 这 些 页 必须 先 读 进来 。 

接 下 来 返回 新 映射 的 起 始 地 址 ， 完 成 系统 调用 。 

除了 上 述 的 操作 ，gdo_mmap_pgoff 在 代码 执行 路 径 中 的 不 同位 置 进行 了 儿 次 检查 (不 在 这 里 详细 

述 ) 。 如 果 某 一 次 检查 失败 ， 则 结束 操作 ， 系 统 调用 会 向 用 户 空 间 返 回 一 个 错误 代码 。 

口 统计 ， 即 内 核 维 护 了 进程 用 于 映射 的 页 数目 统计 。 由 于 可 以 限制 进程 的 资源 用 量 ， 内 核 必须 
始终 确保 资源 使 用 不 超出 允许 值 。 对 于 每 个 进程 可 以 创建 的 映射 ， 还 有 一 个 最 大 数目 的 限制 。 

口 还 必须 进行 广泛 的 安全 性 和 合理 性 检查 ， 以 防 应 用 程序 设置 无 效 参数 或 可 能 影响 系统 稳定 性 
的 参数 。 例 如 ， 映 射 不 能 比 虚 拟 地 址 空间 更 大 ， 也 不 能 扩展 到 超出 虚拟 地 址 空间 的 边界 。 


4.7.2 ”删除 映射 
从 虚拟 地 址 空间 删除 现存 映射 ， 必 须 使 用 munmap 系 统 调用 ， 它 需要 两 个 参数 :解除 映射 区 域 的 
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CD sysctl_overcommit_memory 可 以 借助 于 /proc/sys/vm/overcommit_memory 设 置 。 当 前 有 3 个 过 量 使 用 选项 。1 

允许 应 用 程序 分 配 与 所 要 数量 同样 多 的 内 存 ， 即 使 超出 系统 地 址 空间 所 允许 的 限制 。0 意 味 着 应 用 启发 式 过 量 使 
用 ， 可 用 页 的 数目 是 通过 计算 页 缓存 、 交 换 区 和 未 使 用 页 帧 的 总 数 而 得 到 ， 且 允许 分 配 少量 页 的 请 求 。2 表 示 严 
格 模式 ， 称 之 为 0D0DDDODO ， 其 中 允许 分 配 的 页 数 如 下 计算 ， 


allowed = (totalram pages -hugetlb 


































































































* sysctl_overcommit_ ratio / 100; 
allowed += total_swap_pages; 
这 里 sysct1l_overcommit_ratio 是 一 个 可 配置 的 内 核 参 数 ， 通 常设 置 为 50。 如 果 已 使 用 页 的 总 数 超出 所 述 计算 结 
果 ， 则 内 核 拒绝 继续 分 配 内 存 。 人 允许 一 个 应 用 程序 分 配 超出 理论 处 理 限 制 的 页 数 ， 有 什么 意义 么 ? 科学 计算 应 用 
有 时 需要 这 种 特性 。 一 些 应 用 程序 趋向 于 分 配 0 0 的 内 存 , 实际 上 并 不 需要 使 用 , 但 从 应 用 程序 作者 的 看 法 来 说 ， 
多 分 配 一 些 总 是 好 的 , 0 0 D DO 嘛 ! 如 果 内 存 的 确 从 不 使 用 ， 那 么 不 会 分 配 物理 页 帧 ， 也 没有 问题 。 显 然 这 种 程 
序 设计 风格 是 糟糕 的 惯例 ， 但 遗憾 的 是 ， 这 不 是 评估 软件 价值 的 标准 。 在 计算 机 科学 以 外 的 科学 界 ， 编 写 清洁 的 
尺码 通常 不 会 带 来 奖励 。 相 关 的 领域 中 ， 通 常 只 关注 程序 在 给 定 的 配置 下 能 够 正常 工作 ， 而 使 得 程序 未 来 仍然 可 
或 可 移植 的 工作 ， 看 起 来 不 能 提供 眼前 可 见 的 好 处 ， 通常 被 认为 是 没有 价值 的 。 

@ 使 用 security_vm_enough_memory， 后 者 调用 不 同 路 径 下 的 _vm_enough_memory， 这 取决 于 所 用 的 安全 框架 。 













































































































































































本 茎 

















































































































254 


U40 0U00D00 





起 始 地 址 和 长 度 。sys_munmap 是 该 系统 调用 的 入 
do_rmunmap 函 数 〈 进 一 步 的 实现 信息 在 相关 的 代码 流程 图 

















口 。 它 按 惯例 将 其 工 


























还 有 必要 再 
















unmap_region 
remove_vma_list 


图 4-13 ”qdo_munmap 的 代码 流程 图 


detach vmas_to_ be unmapped 









作 委托 给 定义 在 mm_mmap.c 中 的 
P 给 出 ， 如 图 4-13 )。 


内 核 首 先 必须 调用 fing_vma_prev， 以 找到 解除 映射 区 域 的 vm_area_struct 实 例 。 该 函数 的 操 
作 方 式 与 4.$.1 节 讨论 的 fina_vma 完 全 相同 ， 但 它 不 仅 会 找到 与 地 址 匹配 的 vm_area_struct 实 例 ， 还 





会 返回 指向 前 一 个 区 域 的 指针 。 

解除 映射 区 域 的 起 始 地 址 与 fing_vma_prev 找 到 的 
在 内 核 这 样 做 之 前 ， 首 先 必须 将 现存 的 映射 划分 为 几 个 部 分 。 
助 函 数 ， 我 不 会 讨论 其 内 容 











如 果 


而 不 是 整个 映射 区 域 。 
不 需要 解除 映射 ， 






































填充 它 ， 























如 果 
射 ， 





内 核 接 下 来 1 
操作 可 能 涉及 地 址 
域 ， 以 











两 端的 区 





























因此 需要 对 这 部 分 也 重复 





























站 保 只 影响 至 

















范围 已 经 全 部 涵盖 在 内 。 
该 函数 还 将 mmap 缓 存 设 置 为 N 
最 后 还 有 两 个 步骤 。 首 多 




















周 用 detach_vmas_ 






































首先 通过 split_vma 分 裂 出 来 。 这 是 
都 是 对 熟悉 的 数据 结构 进行 标准 操作 。 它 
校准 边界 。 新 的 区 域 捐 
解除 映射 的 部 分 区 域 的 来 端 与 原 区 域 未 端 
上 述 的 处 理 过 程 。 

to_be_unmapped， 列 出 所 有 需要 解除 映射 的 














已 只 是 分 配 





















































空间 中 的 任 





区 域 ， 很 可 能 影响 连续 几 个 
| 完整 的 区 域 。 


det ach_vmas_to_be_unmapped 会 遍历 vm_area_s 








该 结构 的 vm_next 成 员 在 此 处 小 









































司 ， 完 成 从 内 核 中 
































的 映射 将 文人 








如 果 需 要 将 文人 








ULL， 使 之 无 效 。 
调用 unmap_region 从 页 表 删 除 与 凤 
必须 确保 将 相关 的 项 从 TLB 移 
用 的 室 i 
4.7.3” 非 线性 映射 
按照 上 文 的 描述 ， 普 通 








个 辅 




















truct 实 例 的 线性 





区 域 起 始 地 址 不 同 ， 则 只 解除 部 分 映射 ， 


职 射 的 前 一 部 分 
因为 其 中 

















个 新 的 vm_area_struct 实 例 ， 


入 到 进程 的 数据 结构 中 。 








] 原 区 域 的 数据 





不 重合 , 那么 原 区 域 后 部 仍然 有 一 部 分 未 解除 映 








区 域 。 内 核 可 能 拆 分 这 一 系列 


表 ， 直 至 要 解除 映射 的 























F 中 一 个 连续 的 部 分 映 身 














性 





的 不 同 部 分 以 不 同 顺序 映射 到 虚拟 内 存 的 连续 区 域 中 ， 通 























， 用 于 将 解除 映 息 


到 虚拟 内 在 








常 必须 使 








区 域 。 由 于 解除 映射 























驻 域 中 首尾 




















也 址 





的 区 域 彼此 连接 起 来 。 
kg 射 相关 的 所 有 项 。 完 成 后 ， 内 核 还 


除 或 使 之 无 效 。 其 次 ， 用 remove_vma_list 释 放 vm_area_struct 实 例 
j 除 映射 的 工作 。 


bP 一 个 同样 连续 的 部 分 。 








用 几 个 映射 ， 从 消 
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耗 的 资源 来 看 ， 代 价 比 较 昂贵 (特别 是 需要 分 配 的 vm_area_struct 数 量 ) 。 实 现 同样 效果 "的 一 个 更 
简单 的 方法 是 使 用 非 线 性 映射 , 该 特性 在 内 核 版 本 2.5 开 发 期 间 引 入 ,内 核 提 供 了 一 个 独立 的 系统 调用 ， 
专门 用 于 该 目的 。 

mm/fremap.c 


long sys_remap_file pages (unsigned long start, unsigned long size, 
unsigned long prot, unsigned long pgoff, unsigned long flags) 









































该 系统 调用 允许 重 排 映 射 中 的 页 ,使 得 内 存 与 文件 中 的 顺序 不 再 等 价 。 实现 该 特性 0 0 移动 内 存 
中 的 数据 ， 而 是 通过 操作 进程 的 页 表 实现 的 

sys_remap_file_pages 可 以 将 现存 映射 (位 置 pgoff， 长 度 size) 移动 到 虚拟 内 存 中 的 一 个 新 
位 置 。start 标 识 了 移动 的 目标 映射 , 因而 必须 落 入 某 个 现存 映射 的 地 址 范围 中 。 它 还 指定 了 由 pgoff 
和 size 标 识 的 页 移动 的 目标 位 置 。 
在 换 出 非 线 性 映射 时 ， 内 核 必 须 确保 再 次 换 入 时 ,仍然 要 保持 原来 的 偏 移 量 。 完 成 这 一 要 求 所 需 
的 信息 存储 在 换 出 页 的 页 表 项 中 ， 再 次 换 入 时 必须 参考 相应 的 信息 ， 细 节 请 参考 下 文 的 讲述 。 但 该 信 
县 是 如 何 编码 的 呢 ? 其 中 使 用 了 下 面 两 个 部 分 。 

(1) 所 有 建立 的 非 线 性 映射 的 vm_area_struct 实 例 维 护 在 一 个 链表 中 ， 表 头 是 struct address_ 
space 的 i_mmap_nonlinear 成 员 。 链 表 中 的 各 个 vm_area_struct 实 例 可 以 采用 shared.vm_ set. 
1ist 作 为 链表 元 素 ， 因 为 在 标准 的 优先 树 中 不 存在 非 线性 映射 区 域 。 

(2) 所 述 区 域 对 应 的 页 表 项 用 一 些 特殊 的 项 填充 。 这 些 页 表 项 看 起 来 像 是 对 应 于 不 存在 的 页 ， 但 
中 包含 附加 信息 ， 将 其 标识 为 非 线性 映射 的 页 表 项 。 在 访问 此 类 页 表 项 描述 的 页 时 ， 会 产生 一 个 缺 
异常 ， 并 读 入 正确 的 页 。 

当然 ， 页 表 项 不 能 随意 修改 ， 而 必须 遵循 底层 体系 结构 规定 的 惯例 。 为 建立 非 线性 映射 页 表 项 ， 
需要 借助 特定 于 体系 结构 的 代码 ， 必 须 定义 如 下 3 个 函数 。 

(1) pgoff_to_pte 将 文件 偏 移 量 编码 为 页 号 ， 并 将 其 编码 为 一 种 可 以 存储 在 页 表 中 的 格式 。 

(2) pte_to_pgoff 可 以 解码 页 表 中 存储 的 编码 过 的 文件 偏 移 量 。 

(3) pte_file (pte) 检 查 给 定 的 页 表 项 是 否 用 于 表示 非 线 性 上 映射。 特别 地 ， 该 函数 使 得 在 缺 页 异 
第 发 生 时 ， 能 够 区 分 非 线性 映射 和 普通 换 出 页 的 页 表 项 。 

预 处 理 器 常数 PTE_FILE_MAX_BITS 表 示 页 表 项 中 有 多 少 个 比特 位 可 用 于 存储 文件 偏 移 量 , 由 于 页 
表 项 中 某 些 状态 位 是 体系 结构 所 需 或 用 于 区 分 换 出 页 ， 因 此 该 常数 通常 小 于 处 理 器 的 字 长 ， 这 导致 了 
文件 中 可 以 重 映射 的 范围 一 般 小 于 文件 长 度 的 最 大 值 。 
由 于 在 IA-64 上 非 驻 留 页 表 项 的 布局 不 受 任何 历史 原因 的 影响 ， 使 得 非 线 性 页 表 项 的 实现 方式 特 
别 简洁 ， 因 此 我 将 其 作为 例子 ， 如 图 4-14 所 示 。 
include/asm-ia64/pgtable.h 
define PTE FILE MAX_BITS 61 
define pte to pgoff(pte) ((pte val(pte) << 1) >> 3) 
define pgoff_to_ ptel(off) ((pte t) { ((off) << 2) | _PAGE_FILE }) 


交换 标识 符 长 64 位 。 比 特 位 0 必须 为 零 ， 因 为 该 页 不 在 内 存 中 。 比 特 位 1 代表 _PAGE_FILE， 表 明 
该 项 属于 一 个 非 线 性 映射 ,不 是 交换 标识 符 。 最 后 一 个 比特 位 ， 即 比特 位 63， 专 用 于 _PAGE_PROTNONE 
标志 位 。“ 因 此 ， 这 给 非 线 性 映射 中 页 偏 移 量 的 表示 ， 留 出 了 61 位 。 
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G) 看 上 去 对 非 线性 映射 似乎 没有 什么 需求 ， 但 有 些 巨 型 数据 库 使 用 此 类 操作 表示 数据 事务 。 
@) 该 比特 位 置 位 的 页 ， 相 当 于 标记 为 mmap 系 统 调 用 完全 不 可 访问 。 尽 管 这 种 页 不 需要 对 应 到 物理 页 帧 《既然 不 可 访问 ， 
从 页 读 取 / 向 页 写 入 什么 呢 ? )， 内 核 仍然 必须 以 某 种 方式 标记 人 禁止 访问 这 些 页 ， 前 述 的 比特 位 提供 了 这 种 功能 。 
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JNONLOYNd pvwd 




















pte_to_pgoff 首 先 
次 左 移 和 两 个 右 移 是 提取 在 位 置 [2, 62] 的 各 个 比特 
表 项 时 ， 内 核 需要 将 偏 移 量 左 移 到 起 始 于 比特 位 2 的 b 
将 该 页 表 项 标识 为 非 线性 映射 ， 而 不 是 普通 的 交换 标 
sys_remap_file pages 的 基本 步骤 可 以 概括 为 


sys_remap_file pages 


检查 标志 和 长 













































































讼 
Xx 





非 线 性 页 偏 移 量 


图 4-14 ”在 IA-64 系 统 上 页 表 项 中 表示 非 线 怕 
用 特定 于 体系 结构 的 代码 提供 的 pte_val, 所 


拉 的 一 个 简 六 
上 特 位 范 
识 符 。 


图 4-15 中 的 


3TId Sovad 
INSSdxd HOYd 





映射 
区 保存 在 页 表 项 中 。 进行 一 
方法 。 在 构建 表示 非 线性 映射 的 页 
围 中 ， 另 外 还 需要 确保 置 位 _PTE_FTLE 








PP 的 从 






























































尺码 流程 图 。 








未 设置 VM_NONLINEAR? | 











设置 VM_NONLINEAR | 
















populate_ range 


vma_prio_ tree remove 
vma_ nonlinear insert 








未 设置 MAP_NONBLOCK? make pages_ present 








区 


在 内 核 检 查 过 所 有 标志 并 确保 习 
vm_area_struct 实 例 。 如 果 目 标 区 域 此 
` 会 设置 vm_NONLINEAR 标 志 。 在 这 种 情况 下 ,需要 月 
射 ， 并 使 用 vma_nonlinear insert 将 其 插入 到 非 线 怕 
关键 的 步骤 是 设置 修改 过 的 页 表 项 。 辅 助 
mm/fremap.c 
static int populate range(struct mm struct 
unsigned long addr, unsigned long size, pg 


{ 








4-15 














ah 


新 出 
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int err; 











映射 由 vma 描 述 。 当 前 开始 于 页 偏 移 量 pgoff、 长 


于 这 可 能 涉及 多 个 页 ， 内 核 需要 遍历 所 有 页 ， 分 别 月 



































sys_remapb_file_pages 的 代码 流程 图 
射 的 范围 
前 没 有 进行 过 3 
月 vma :LO 
E 盈 
列 程 populate_range 














有 效 之 后 ， 通 过 fing_vma 选 
FE 线 性 旧 


P 目标 区 域 的 
射 ， 则 vm_area_struct->vm_flags 
E 树 移 除 该 线性 映 




















tree_remove 从 优 细 


射 的 列表 中 











负责 该 工作 : 


*mm, struct vm area_struct *vma, 
ff tt PIGff) 


tl 


度 为 length 的 区 域 ， 将 重新 映射 到 地 址 adar。 





























日 install_file_pte 设 置 新 页 表 项 : 
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mm/fremap.c 
do { 
err = install file pte(mm, vma, addr, pgoff, vma->vm page prot); 
if (err) 
return err; 





Size -= PAGE SIZE; 
addr += PAGE_SIZE; 
pgoff++; 

} while (size); 











return 0; 


} 
install_file_pte 首 先 用 zap_file_pte 删 除 所 涉及 的 现存 页 表 项 ， 然 后 使 用 辅助 函数 pgoff_ 
to_pte 构 建 一 个 新 项 ， 该 函数 将 给 定 的 文件 偏 移 量 编码 为 适用 于 页 表 项 的 一 种 格式 : 


mm/fremap.c 
static int instal1 file _ pte(struct mm struct *mm, struct vm area struct *vma, 


unsigned long addr, unsigned long pgoff, pgprot t prot) 
{ 
pte_t *pte; 


If (!pte none(*pte)) 
zap_pte(mm, vma, addr, pte); 
































set_pte_ at (mm, addr, pte, pgoff_ to pte(pgoff)); 
sys_remap_file_pages 的 最 后 一 步 是 读 入 映射 的 页 〈 在 需要 的 情况 下 才 会 读 入 ， 通 过 设置 
MAP_NONBLOCK 标 志 可 阻止 读 入 ) 。 这 是 使 用 make_present_pages 完 成 的 ， 该 函数 对 映射 中 的 每 一 页 
都 触发 缺 页 异常 ， 从 底层 块 设备 读 取 相应 的 数据 。 


4.8 反 向 映射 


内 核 利用 此 前 讨论 的 数据 结构 ， 可 以 建立 虚拟 和 物理 地 址 之 间 的 联系 (通过 页 表 )， 以 及 进程 的 
一 个 内 存 区 域 与 其 虚拟 内 存 页 地 址 之 间 的 关联 。 仍 然 缺 失 的 一 个 联系 是 ， 物 理 内 存 页 和 该 页 所 属 进程 
(或 更 精确 地 说 ， 所 有 使 用 该 页 的 进程 的 对 应 页 表 项 ) 之 间 的 联系 。 在 换 出 页 时 ， 刚 好 需要 该 关联 ( 参 
见 第 18 章 )， 以 便 更 新 所 有 涉及 的 进程 。 因 为 页 已 经 换 出 ， 必 须 在 页 表 中 标明 。 
在 这 里 ， 有 必要 区 分 两 个 相似 的 名 词 。 

(1) 在 映射 一 页 时 ， 它 关联 到 一 个 进程 ， 但 不 一 定 处 于 使 用 中 。 

(2) 对 页 的 0 0 次 数 表明 页 使 用 的 活跃 程度 。 为 确定 该 数目 ， 内 核 首先 必须 建立 页 和 所 有 使 用 者 
之 间 的 关联 ， 接 下 来 必须 借助 于 一 些 技巧 来 计算 出 页 使 用 的 活跃 程度 。 
于 此 第 一 个 任务 需要 建立 页 和 所 有 映射 了 该 页 的 位 置 之 间 的 关联 。 为 此 ,内核 使 用 一 些 附 加 的 数 
据 结构 和 函数 ， 采 用 一 种 0 DDD 方法 。” 
上 文 讨论 的 所 有 了 映射 操作 都 只 涉及 虚拟 内 存 页 ， 因 此 不 需要 《也 无 法 ) 建立 反 向 映射 。4.10 贡 中 
讨论 内 核 如 何 处 理 缺 页 异 帝 和 分 配 物理 内 存 页 保存 映射 数据 时 ， 也 会 提 及 对 逆向 映射 的 需求 。 






































































































































































































































































































































GD 逆向 映射 首先 在 内 核 版 本 2.5 开 发 期 间 引 入 。 也 有 独立 的 补丁 可 用 于 内 核 版 本 2.4， 但 从 未 包含 于 标准 的 源 代码 中 。 
如 果 没 有 该 机 制 ， 共 享 页 的 换 出 会 复杂 低 效 得 多 。 因 为 共享 页 必须 维护 在 特定 的 缓存 中 ， 直 至 内 核对 所 有 涉及 的 
进程 分 别 〈“ 并 独立 ) 地 选择 换 出 该 页 。 在 内 核 版 本 2.6 开 发 期 间 ， 逆 向 映射 算法 的 实现 也 经 历 了 大 量 修订 。 
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4.8.1 数据 结构 





内 核 使 用 了 简洁 的 数据 结构 ， 以 最 小 化 逆向 映射 的 管理 








了 一 个 用 于 实现 逆向 映射 的 成 员 。 


mm.h 
struct page { 





atomic_t _mapcount; 


Le 






































销 。page 结 构 〈 在 3.2.2 节 讨论 过 ) 包含 





/* 内 存 管 理子 系统 
* 已 经 映射 ， 还 


Wh 








中 映射 的 页 表 项 计数 ， 

















用 于 限制 逆向 映射 搜索 。 











用 于 表示 页 是 人 否 
























































































































































































































































mapcountD DDOD0D00000000000000000-10U00U00000U00 
DO000000000000000000000000000100000000U00 
D000000U00000U0U0U0 
显然 这 没有 多 少 帮助 ， 因 为 逆向 映射 的 目的 在 于 : 给 定 page 实 例 ， 找 到 所 有 映射 了 该 物理 内 存 页 
的 位 置 。 因 此 ， 还 有 两 个 其 他 的 数据 结构 需要 发 挥 作 和 。 
CD 优先 查找 树 中 柑 入 了 属于 非 匿 名 映射 的 每 个 区 域 。 
(2) 指 问 内 存 中 同一 页 的 匿名 区 域 的 链表 。 
于 建立 这 两 个 数据 结构 的 成 员 集成 在 vm_area_struct 中 ， 即 shared 联 合 以 及 anon_vma_node 
和 anon_vma。 为 让 读者 重新 整理 一 下 记忆 ， 我 复制 了 vm_area_struct 中 对 应 的 部 分 ， 如 下 所 示 : 
mm.h 


struct vm area struct { 


/* 
* 对 于 有 地 址 空 





* 或 连接 到 芒 挂 在 优先 树 结 点 之 外 、 类 似 的 一 组 虚拟 内 存 区 域 的 链表 ， 
* 或 连接 到 address_space->i_mmap_nonlinear 链 表 中 的 虚拟 内 存 区 域 。 








Eh 
union { 
struct { 


struct list head list; 
void *parent; /* 与 prio_tree_node 和 的 parent 成 员 在 内 存 中 位 于 同一 位 置 */ 


struct vm area_struct 


} vm_ set; 


*h 





ead; 





struct raw_prio tree node prio tree node; 


} shared; 
/* 


* 在 文件 的 某 一 页 经 过 写 时 复制 之 后 ， 文 件 
SHARED 语 
、 栈 或 brKk 虚 拟 内 存 区 域 





* 树 和 anon_vma 链 表 中 。MAP 
*MAP_PRIVATE 
4 








struct list_ head anon_vma_node; 
struct anon_vma *anon_vma; 


i 
内 核 在 实现 逆向 映射 时 采 








用 的 技巧 是 ， 








(file 指 人 


/* 对 该 成 
该 成 员 的 访 





/* 对 


不 直接 保存 页 和 术 








页 所 在 0 口 之 间 的 关联 。 包含 该 
结构 找到 。 




















的 MAP __ FRIVRTE 庶 拟 内 存 区 域 
虚拟 内 存 区 域 只 


只 能 


加 
由 








玄 页 的 所 有 其 他 区 域 〈 进 而 所 有 的 使 
该 方法 又 名 0 DOD DODDDODD (objectrbased reverse mapping )， 








E 在 i map 树 中 。 

















日 关 的 使 用 者 之 间 的 关联 ， 而 只 

















用 者 〉 都 可 


间 和 后 备 存储 器 的 区 域 来 说，shared 连 接 到 address_space->i_mmap 优 先 树 ， 


可 能 同时 在 i_mmap 
为 NULL) 只 能 处 于 anon_vma 链 表 中 。 











问 通过 anon_vma->1ock 串 行 化 */ 
问 通过 page_table_lLock 串 行 化 */ 


保存 页 和 





以 通过 刚才 提 到 的 数据 








大 








为 没有 存 











财 页 和 使 用 
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者 之 间 的 直接 关联 。 相 反 ， 在 两 者 之 间 插 入 了 男 一 个 对 象 “ 该 页 所 在 的 区 域 )。 
4.8.2 ”建立 逆向 映射 


在 创建 逆向 映射 时 ， 有 必要 区 分 两 个 备 选项 : 匿名 页 和 基于 文件 映射 的 页 。 这 是 可 以 理解 的 ， 因 
为 用 于 管理 这 两 种 选项 的 数据 结构 不 同 。 


































































































国 yongoguggoon 
国人 
加 加 eeisenel 


1. 匿名 页 

将 匿名 页 插入 到 逆向 映射 数据 结构 中 有 两 种 方法 。 对 新 的 匿名 页 必须 调用 page_aqq_new_ 
anon_trmap。 已 经 有 引用 计数 的 页 ， 则 使 用 page_adqq_anon_rmap。 这 两 个 函数 之 间 唯 一 的 差别 是 ， 
前 者 将 映射 计数 器 page->_mapcount 设 置 为 0 (提示 : 新 初始 化 的 页 mapcount 的 初始 值 为 -1) ， 后 者 
将 计数 器 加 1。 这 两 个 函数 都 并 入 __page_set_anon_rmap。 


mm/rmap.c 
void page_set_anon rmap(struct page *page, 
struct vm area_struct *vma, unsigned long address) 









































































































































{ 


struct anon_ vma *anon vma = vma->anon_vma; 


anon vma = (void *) anon vma + PAGE MAPPING ANON; 
page->mapping = (struct address_space *) anon vma; 


page->index = linear page_ index(vma, address); 

} 

anon_vma 表 头 的 地 址 在 加 上 PAGE_MAPPING_ANON 之 后 ， 保 存 到 page 实 例 的 mapping 成 员 中 。 这 
使 得 内 核 可 以 通过 检查 最 低位 来 区 分 匿名 页 和 普通 映射 的 页 : 如 果 为 0 (没有 设置 PAGE MAPPING_- 
ANON)， 则 为 普通 映射 ， 如 果 为 1 (PAGE_MAPPING_RANON 置 位 )， 则 为 匿名 页 。 回 忆 前 文 可 知 ， 该 技巧 
之 所 以 有 效 ， 是 因为 由 于 对 齐 ， 使 得 页 指针 的 最 低位 保证 为 零 。 

2. 基于 文件 映射 的 页 

此 类 型 的 页 非常 简单 ， 代 码 片段 如 下 所 示 : 


mm/rmap.c 
void page adqd file rmap(struct page *page) 
{ 





























































































































If (atomic_ inc and test(&page->_ mapcount)) 
inc_zone page_state(page, NR_FILE MAPPED); 














} 

基本 上 ， 所 需要 的 只 是 对 _mapcount 变 量 加 1 (原子 操作 并 更 新 各 内 存 域 的 统计 量 。 
4.8.3 ”使 用 逆向 映射 
在 第 18 章 讲解 页 交换 的 实现 之 前 ， 我 们 并 不 能 很 清楚 地 看 到 逆向 映射 真正 的 好 处 。 到 时 我 们 会 知 
道 ， 内 核定 义 了 try_to_unmap 函 数 ， 用 于 从 使 用 特定 物理 内 存 页 的 0 口 进程 的 页 表 删 除 该 页 。 显 然 ， 


这 只 能 通过 刚才 讲述 的 数据 结构 完成 。 虽 然 如 此 ， 其 实现 仍然 受到 页 交换 层 许多 细节 的 影响 ， 这 也 是 
我 不 打算 在 这 里 深入 讲述 try_to_unmap 工 作 机 制 的 原因 。 
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page_referenced 是 一 个 重要 的 函数 ， 很 好 地 使 用 了 逆向 映射 方案 所 涉及 的 数据 结构 。 它 统计 了 
最 近 0 DO 使 用 《〈 即 访问 ) 了 某 个 共享 页 的 进程 的 数目 ， 这 不 同 于 该 页 映射 到 的 区 域 数目 。 后 者 大 多 
数 情况 下 是 静态 的 ， 而 如 果 页 处 于 使 用 中 ， 前 者 很 快 会 发 生 改 变 。 
该 函数 相当 于 一 个 多 路 复 用 器 ， 对 匿名 页 调用 page_referencedq_anon， 而 对 基于 文件 映射 的 页 
调用 page_referenced_file。 分 别 调用 的 两 个 函数 ， 其 目的 都 是 确定 有 多 少 地 方 在 使 用 一 个 页 ， 但 
于 底层 数据 结构 的 不 同 ， 二 者 采用 了 不 同 的 方法 。 

我 们 首先 察看 处 理 匿名 页 的 函数 。 我 们 首先 需要 调用 page_1ock_anon_vma 辅 助 函 数 ， 找 到 引用 
了 某 个 特定 page 实 例 的 区 域 的 列表 按 前 一 节 的 讨论 ， 从 数据 结构 中 读 取 相关 信息 〉。 


<mm/rmap.c> 
static struct anon vma *page_ lock anon vma(struct page *page) 


{ 






































































































































































































































struct anon vma *anon vma = NULL; 
unsigned long anon mapping; 


anon mapping = (unsigned long) page->mapping; 
if (!(anon mapping & PAGE _ MAPPING ANON)) 
goto out; 
if (!page mapped (page)) 
goto Gut: 
anon vma = (struct anon vma *) (anon mapping -PAGE MAPPING ANON); 


return anon_vma; 





FF 述 代码 首先 使 用 我 们 现在 已 经 熟悉 的 技巧 〈 指 针 的 最 低位 必须 置 位 ) ， 判 晰 page->mapping 指 

针 实 际 上 是 否 指 问 一 个 anon_vma 实 例 。 在 确认 之 后 ，page_mapped 检 查 该 页 是 否 已 经 映射 (page-> 

_mapcount 必 须 大 于 等 于 0)。 倘 车 如 此 ， 该 函数 返回 一 个 指向 与 该 页 关联 的 anon_vma 实 例 的 指针 。 
page_referenced_anon 对 该 信息 的 用 法 如 下 : 


mm/rmap.c 
static int page referenced anon(struct page *page) 


{ 





















































unsigned int mapcount 
struct anon_vma *anon_vma; 
struct vm area_struct *vma; 
int referenced = 0; 


anon vma = page_lock_ anon vma (page); 
IE (!anon vma) 
return referenced; 


mapcount = page_mapcount (page); 
list_for each entry(vma, &anon vma->head, anon vma node) { 
referenced += page_ referenced one(page, vma, &mapcount); 
if (!mapcount) 
break; 


} 


return referenced; 


} 


在 找到 匹配 的 anon_vma 实 例 之 后 ， 内 核 遍 历 链表 中 的 所 有 区 域 ,分别 调 用 page_ 
referenced_one， 计 算 使 用 该 页 的 次 数 〈 在 系统 换 入 / 换 出 页 时 ， 需 要 作 一 些 校正 ， 但 与 这 里 的 内 容 
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无 关 ， 将 在 18.7 节 讨论 )。 对 所 有 区 域 调 用 page_referenceq_one 的 结果 需要 累加 起 来 ， 最 后 返 












































I 
o 








page_ref erenced_one 分 为 两 个 步 又 执行 其 任务 。 


(1) 找 至 





j 指 向 该 页 的 页 表 项 。 这 样 做 是 可 行 的 ， 因 为 page_referenced_one 的 参数 不 仅 包括 page 





实例 ， 还 有 相关 的 vm_area_struct。 虚 拟 地 址 空间 中 映射 该 页 的 可 以 根据 后 者 确定 。 
(2) 检查 页 表 项 是 否 设 置 了 _PAGE_ACCESSED 标 志 位 ， 然 后 清除 该 标志 位 。 每 次 访问 该 页 时 ,硬件 
会 设置 该 标志 【如果 特定 体系 结构 有 需要 ， 内 核 也 会 提供 额外 的 支持 ) 。 如 果 设 置 了 该 标志 位 ， 则 引 






















































































mm/rmap.c 
static int page referenced file(struct page *page) 


} 
内 核 












































计数 器 加 1;， 否则 不 变 。 因 此 经 常 使 用 的 页 引用 计数 较 高 ， 而 很 少 使 用 的 页 则 刚好 相反 。 因 此 内 核 
根据 引用 计数 ， 立 即 就 能 判断 某 一 页 是 否 重要 。 
在 检查 基于 文件 映射 的 页 的 引用 次 数 时 ， 采 用 的 方法 类 似 。 






























































mapcount = page mapcount (page); 
vma_prio_ tree foreach(vma, &iter, &mapping->i mmap, pgoff, pgoff) { 
if ((vma->vm flags & (VM_ LOCKED|VM MAYSHARE)) 
== (VM_LOCKED|VM MAYSHARE)) { 
referenced++; 
break; 
} 


referenced += page_referenced one(page, vma, &mapcount); 
if (!mapcount) 


break; 


return referenced; 














调用 vm_prio_t 








ree_foreach 裔 历 优先 树 中 所 存储 区 域 包 含 相关 页 的 所 有 结 点 。 与 前 述 情况 








相同 ， 仍 然 对 每 一 个 区 域 调用 了 page_referenced_one 汇 总 所 有 引用 。 如 果 页 锁定 在 内 存 中 (用 
VM LOCKED) 并 可 能 被 多 个 进程 共享 (VvM_MAYSHARE)， 那 么 引用 计数 值 会 进一步 加 1。 因 为 这 种 页 将 
不 会 换 出 ， 应 该 给 予 奖 励 。 


4.9” 堆 的 管理 










































































0 是 进程 中 用 于 动态 分 配 变量 和 数据 的 内 存 区 域 ， 堆 的 管理 对 应 用 程序 员 不 是 直接 可 见 的 。 因 为 
它 依赖 标准 库 提供 的 各 个 
内 核 之 间 的 经 典 接口 是 br 
使 用 了 一 种 组 合 方法 ， 使 





具有 某 些 优点 。 
= 



































堆 是 





个 连续 的 内 存 



































辅助 函数 《其 中 最 重要 的 是 malloc) 来 分 配 任意 长 度 的 内 存 区 。malloc 和 
k 系 统 调 用 , 负责 扩展 /收缩 堆 。 新 近 的 malloc 实 现 〈 诸 如 GNU 标 准 库 提供 的 ) 
用 brk 和 匿名 映射 。 该 方法 提供 了 更 好 的 性 能 ， 而 且 在 分 配 较 大 的 内 存 区 时 






















































































区 域 ， 在 扩展 时 自 下 至 上 增长 。 前 文 提 到 的 mm_struct 结 构 ， 包 含 了 堆 在 虚 














拟 地 址 空间 中 的 起 始 和 当前 结束 地 址 (start_brk 和 brk)。 








Qa 在 引 












































次 数 达 到 保存 在 mapcount 中 的 映射 数目 时 ， 内 核 将 结束 其 工作 ， 因 为 继续 搜索 是 没有 意义 的 。 对 每 个 映射 

















了 该 页 的 区 域 ，page_referenced_one 都 自动 地 将 mapcount 计 数 器 减 1。 








262 040 UUUUOUD 





<mm_types.h> 
Struet mm streuet 























{ 

0 unsigned long start brk, brk, start_ stack; 

}; 

brk 系 统 调用 只 需要 一 个 参数 ， 用 于 指定 推 在 虚拟 地 址 空间 中 新 的 结束 地 址 〈 如 果 堆 将 要 收缩 ， 









































当然 可 以 小 于 当前 值 )。 
照例 ，brk 系 统 调用 实现 的 入 口 是 sys_prk 函 数 ， 其 代码 流程 图 在 图 4-16 给 出 
































o 













检查 资源 限制 





将 brk 值 对 齐 到 页 





区 








是 否 增加 brk 值 ? 


















返回 新 的 prk 值 


泗 











find vma intersection 





返回 新 的 brk 信 | 





图 4-16 ”sys_brk 的 代码 流程 图 


brk 机 制 不 是 一 个 独立 的 内 核 概 念 ， 而 是 基于 匿名 映射 实现 ， 以 减少 内 部 的 开销 。 因 此 前 几 节 讨 
论 的 许多 用 于 管理 内 存 映射 的 函数 ， 都 可 以 在 实现 sys_brk 时 重用 。 

在 检查 过 用 作 brk 值 的 新 地 址 未 超出 堆 的 限制 之 后 ，sys_brk 第 一 个 重要 操作 是 将 请 求 的 地 址 按 
页 长 度 对 齐 。 

mm/mmap.c 

asmlinkage unsigned long sys_brk(unsigned long brk) 


{ 

























































































unsigned long rlim, retval; 
unsigned long newbrk, oldbrk; 
struct mm _ struct *mm = current->mm; 

















newbrk = PAGE _ALIGN (brk); 
oldbrk = PAGE_ ALIGN (mm->brk); 
该 代码 确保 brk 的 新 值 〈 原 值 也 同样 ) 是 系统 页 长 度 的 倍数 。 换 句 话 说， 一 页 是 用 brk 能 分 配 的 














最 小 内 存 区 域 。” 
在 需要 收缩 堆 时 将 调用 ao_munmap， 我 们 在 4.7.2 节 已 经 熟悉 该 函数 。 
<mm/mmap.c> 

/* 总 是 允许 缩减 brk。 */ 







































































Q 因此 在 用 户 空间 需要 另 一 个 分 配器 函数 ， 将 页 拆 分 为 更 小 的 区 域 。 这 是 C 标 准 库 的 任务 。 
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if (brk <= mm->brk) { 
if (!do munmap (mm, newbrk, oldbrk-newbrk)) 
goto set_brk; 
goto out; 
























































如 果 堆 将 要 扩大 ， 内 核 首 先 必须 检查 新 的 长 度 是 否 超 出 进程 的 最 大 堆 长 度 限制 。finad_vma_ 
intersection 接 下 来 检查 扩大 的 堆 是 否 与 进程 中 现存 的 映射 重合。 倘若 如 此 ， 则 什么 也 不 做 ， 立 即 
返回 。 


<mm/mmap.c> 
/* 检查 是 否 与 现存 的 mmap 了 映射 冲突 。 */ 
if (find vma_intersection(mm, oldbrk, newbrk+PAGE_ SIZE)) 
goto Out; 




































































否则 将 扩大 堆 的 实际 工作 委托 给 do_pbrk。 函数 总 是 返回 mm->pbrk 的 新 值 , 无 论 与 原 值 相 比 是 增 大 、 
缩小 、 还 是 不 变 。 
<mm/mmap.c> 
/* 可 以 ， 看 起 来 不 错 ， 不 要 担心 。*/ 
if (do_brk(oldbrk, newbrk-oldbrk) != oldbrk) 
goto out; 





























set_brk: 
mm->brk = brk; 
out: 
retval = mm->brk; 
return retval; 


} 
我 们 不 需要 单独 讨论 do_brk， 因 为 实质 上 它 是 do_mmap_pgoff 的 简化 版 本 , 没什么 新 东西 。 与 后 
者 类 似 ， 它 在 用 户 地 址 空间 中 创建 了 一 个 匿名 映射 ， 但 省 去 了 一 些 安全 检查 和 用 于 提高 代码 性 能 的 对 
特殊 情况 的 处 理 。 


4.10” 缺 页 异常 的 处 理 
在 实际 需要 某 个 虚拟 内 存 区 域 的 数据 之 前 ， 虚拟 和 物理 内 存 之 间 的 关联 不 会 建立 。 如 果 进 程 访问 


的 虚拟 地 址 空间 部 分 尚未 与 页 帧 关联 ， 处 理 器 自动 地 引发 一 个 缺 页 异常 ， 内 核 必须 处 理 此 异常 。 这 是 
内 存 管 理 中 最 重要 、 最 复杂 的 方面 之 一 ， 因 为 必须 考虑 到 无 数 的 细节 。 例如 ， 内 核 必须 确定 以 - 下 情况 。 

口 缺 页 异常 是 由 于 访问 用 户 地 址 空间 中 的 有 效 地 址 而 引起 ， 还 是 应 用 程序 试图 访问 内 核 的 受 保 
护 区 域 ? 

口 目标 地 址 对 应 于 某 个 现存 的 映射 吗 ? 

口 获取 该 区 域 的 数据 ， 需 要 使 用 何 种 机 制 ? 

图 4-17 给 出 了 内 核 在 处 理 缺 页 异常 时 ， 可 能 使 用 的 各 种 代码 路 径 的 一 个 粗略 的 概观 。 

按 下 文 的 讲述 ， 实 际 上 各 个 操作 都 要 复杂 得 多 ， 因 为 内 核 不 仅 要 防止 来 自用 户 空间 的 恶意 访问 ， 
还 要 注意 许多 细 枝 末节 。 此 外 ， 决 不 能 因为 缺 页 处 理 的 相关 操作 而 不 必要 地 降低 系统 性 能 。 
缺 页 处 理 的 实现 因 处 理 器 的 不 同 而 有 所 不 同 。 由 于 CPU 采用 了 不 同 的 内 存 管理 概念 ， 生 成 缺 页 异 
常 的 细节 也 不 太 相 同 。 因 此 ， 缺 页 异常 的 处 理 例 程 在 内 核 代 码 中 位 于 特定 于 体系 结构 的 部 分 。 
在 下 文中 , 我 们 的 详细 描述 限制 于 IA-32 体 系 结构 上 采用 的 方法 。 在 最 低 限 度 上 , 大 多 数 其 他 CPU 
的 实现 是 类 似 的 。 

























































































































































































































































































二 
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内 核 地 址 还 是 用 
户 空 间 地 址 ? 


































权限 够 吗 ? 段 错 误 


是 否 


处 理 请 求 | 段 错误 
按 需 调 页 /分 配 ， 页 交 
换 或 写 时 复制 
图 4-17 ”处 理 缺 页 异常 的 各 种 可 能 选项 
arch/x86/kernel/entry 32.S 中 的 一 个 汇编 例 程 用 作 缺 页 异常 的 入 口 ， 但 其 立即 调用 了 
arch/x86/mm/fault_32.c 中 的 C 例 程 qo_page_fault。 (大 多 数 CPU 对 应 的 特定 于 体系 结构 的 源 代 
码 中 ， 都 包含 一 个 同名 例 程 。”“) 图 4-18 给 出 了 该 例 程 的 代码 流程 图 。 


保存 异常 地 址 









































































































当前 处 于 中 断 处 理 程 
序 中 或 没有 下 义 ? 










fixup_ exception 












































i -和 vmalloc 处 理 程序 
日 二 核心 六 ! 























户 状态 访问 
奋 


fixup_exception 


不 成 功 


expand_stack 




























允许 读 访问 ， 
页 不 在 物理 内 存 中 


介 许 写 访 问 ， 
页 不 在 物理 内 存 

















不 允许 写 访 问 | | 不 允许 读 访问 








handle_ mm fault 














图 4-18 ”IA-32 处 理 器 上 do_page_fault 的 代码 流程 图 











GD 照例 , Sparc 处 理 器 是 例外 者 。 对 应 的 函数 名 称 分 别 是 do_sparc_fault (Sparc32)、do_sun4c_fault(Sparc32 sun4c) 
或 do_sparc64_fault (UltraSparc)。IA-64 系 统 上 使 用 ia64_do_page_fault。 

@ 要 注意 ，IA-32 和 AMD64 的 代码 将 在 内 核 版 本 2.6.25 统 一 ， 在 本 书 撰写 时 该 版 本 仍 处 于 开发 中 。 这 里 给 出 的 说 明 也 
适用 于 AMD64 体 系 结构 。 
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所 需 处 理 








的 情况 比较 复杂 ， 因 此 有 必要 非常 详细 地 考察 ao_page_fault 的 实现 。 















































该 例 程 需要 传递 两 个 参数 :发 生 异 常 时 使 用 中 的 寄存 器 集合 ,提供 异常 原因 信息 的 错误 代码 (long 





error_code)。 























目前 error_code 只 使 用 了 前 5 个 比特 位 (0、1、2、3、4)， 其 语义 将 在 表 4-1 中 给 出 。 


arch/x86/mm/fault_32.c 
fastcall void _ kprobes do page fault(struct pt_ regs *regs, 


{ 


比特 位 


unsigned long error_code) 


struct task_struct *tsk; 
struct mm_ struct *mm; 


struct vm area_struct * vma; 
unsigned long address; 
unsigned long page; 

int write, si_code; 

int faults 


/* 获取 地 址 */ 
address = read cr2(); 
表 4-1 IA-32 上 缺 页 异常 错误 代码 的 语义 
置 位 (1) 未 置 位 (0) 





0 


1 
2 
3 
4 


缺 页 保护 异常 〈 没 有 足够 的 访问 权限 ) 
读 访 问 写 访 问 

核心 态 用 户 状态 

表示 检测 到 使 用 了 保留 位 

表示 缺 页 异常 是 在 取 指 令 时 出 现 的 
































声明 很 多 供 后 续 使 用 的 变量 之 后 ， 内 核 在 aaqress 中 保存 了 触发 异常 的 地 址 。” 
arch/x86/mm/fault_32.c 








tsk = current; 


si_code = SEGV_MAPERR; 


~ 
当当 汪 


ss 








我 们 因 异 常 而 进入 到 内 核 虚 拟 内 存 空间 。 
参考 页 表 为 init_mm.pgd。 


要 注意 ! 对 这 种 情况 我 们 不 能 获取 任何 锁 。 
我 们 可 能 是 在 中 断 或 临界 区 中 ， 
只 应 当 从 主页 表 复 制 信息 ， 不 允许 其 他 操作 。 


下 述 代码 验证 了 异常 发 生 于 内 核 空间 (error_code & 4) == 0， 
而 且 异 常 不 是 保护 错误 (error_code & 9) == 






























































If (unlikely(address >= TASK_SIZE) ) { 
if (!(error_code & 0x0000000d) && vmalloc_ fault (address) >= 0) 
return; 
/* 

















Q 在 IA-32 处 理 器 上 ， 其 地 址 保存 在 寄存 器 CR2 中 ， 寄 存 器 的 内 容 通 过 reag_cr2 复 制 到 adgress。 我 们 对 具体 的 特定 
于 处 理 器 的 细节 不 感 兴趣 











200 


U40 0U0000 





如 果 地 


} 








* 不 要 在 这 里 获取 mm 信号 量 。 
* 如 果 修复 了 取 指 令 造成 的 缺 页 异常 ， 
4 

goto bad area nosemaphore; 




















则 会 进入 死 锁 。 














[超出 用 户 地 址 空 














此 该 进程 的 页 表 必 须 与 内 











间 的 范围 ， 则 表明 是 vmalloc 异 常 。 因 











页 表 中 的 信息 
这 样 做 。 换 人 句 
内 核 使 用 辅 





同 
































步 。 实 际 上 ， 只 有 访问 发 生 在 核心 态 ， 而 且 该 异常 不 是 
话说 ， 错 误 代 码 的 比特 位 2-、3、0 都 不 能 设置 。 
助 函数 vmalloc_fault 同 步 页 表 。 我 不 会 详细 地 给 出 其 
的 页 表 ( 在 IA-32 系 统 上 ， 这 是 内 核 的 主页 表 ) 复制 相关 的 项 到 当前 页 
则 内 核 调 用 fixup_exception， 作 为 试图 从 异常 恢复 的 最 后 尝试 ， 我 稍 
如 果 异 常 是 在 中 断 期 间或 内 核 线程 中 (参见 第 14 章 ) 触发 ， 也 没有 












































on) 














代码 ， 











因 










































































的 mm_struct 实 例 ， 则 内 核 会 跳 转 到 baq_area_nosemaphore 标 号 。 
arch/x86/mm/fault_32.c 


mm = 


/* 


* 如 果 我 们 是 在 中 断 期 间 ， 也 没有 


if 


(in atomic() 


tsk->mm; 
































| | !mm) 
goto bad area nosemaphore; 


bad area nosemaphore: 

















/* 
和 佛 


no_context: 


如 果 异 常 源 自用 户 空间 (error_code 的 比特 位 2 置 位 )， 则 返 


/* 准备 好 处 理 这 个 内 核 异常 了 吗 ? 


(fixup exception (regs)) 


工业 


用 户 状态 的 访问 导致 了 SITGSEGV */ 


(error code & 4) { 


户 上 下 文 ， 或 者 代码 处 于 原子 操作 范围 














force sig info fault (SIGSEGV, si code, address, tsk); 


return; 


4 


return; 























间 ， 则 Y 





周 








用 fixup_exception。 我 在 下 文 描述 该 函数 。 









































核 的 主 


保护 错误 触发 时 ， 才 能 允许 


为 该 函数 只 是 从 init 
长 。 如 果 其 中 没有 找到 
百 会 讨论 该 函数 。 


身 的 上 下 文 


匹配 项 ， 


因而 也 没有 独立 














内 ， 则 不 能 处 理 该 异常 。 

















如 果 异 常 并 非 出 现在 中 断 期 间 ， 也 有 相关 的 上 下 文 ,， 则 内 核 检 查 进 程 的 地 址 空间 是 否 包含 


址 所 在 的 








区 域 。 它 调 




















了 fing_vma 函 数 ， 我 们 在 4.5.1 节 已 经 知道 ， 该 函数 可 月 








arch/x86/mm/fault_32.c 


vma = 
全 站 


节 司 


1 和 


find_vma (mm, 
(!vma) 


address); 


goto bad area; 


(vma->vm_start <= address) 


goto good area; 


(!(vma->vm_flags & VM GROWSDOWN)) 


goto bad area; 





中 这 


日 于 完成 此 工作 。 


段 错误 。 但 如 果 有 异常 源 自 内 核 空 


异常 地 


是 通过 ! (error_code & 0x0000000d) 检 查 的 。 因 为 2"+22+23= 13 = 0xd， 所 以 比特 位 9、2、3 都 0 0 置 位 。 
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if (expand stack(vma, address)) 
goto bad area; 
在 内 核发 现 地 址 有 效 或 无 效 时 ， 会 分 别 跳 转 到 gooq_area 和 badq_area 标 号 。 
搜索 可 能 得 到 下 面 各 种 不 同 的 结果 。 
口 没有 找到 结束 地 址 在 aaqress 之 后 的 区 域 ， 在 这 种 情况 下 访问 是 无 效 的 。 
口 异常 地 址 在 找到 的 区 域内 ， 在 这 种 情况 下 访问 是 有 效 的 ， 缺 页 异常 由 内 核 负 责 恢复 。 
口 找到 一 个 结束 地 址 在 异常 地 址 之 后 的 区 域 ， 但 异常 地 址 0 0 该 区 域内 。 这 可 能 有 下 面 两 种 原 
因 。 
昌 该 区 域 的 VM_GROWSDOWN 标 志 置 位 。 这 意味 着 区 域 是 栈 , 自 顶 向 下 增长 。 接 下 来 调用 expana_ 
stack 适 当地 增 大 栈 。 如 果 成 功 ， 则 结果 返回 9，， 内 核 在 good_area 标 号 恢复 执行 。 否 则 ， 











认为 访问 无 效 。 
里 找到 的 区 域 不 是 栈 ， 访 问 无 效 。 
在 上 述 代码 之 后 ， 是 good_area 相 关 的 处 理 
arch/x86/mm/fault_32.c 























逻辑 。 





good area: 
si_code = SEGV_ ACCERR; 


write = 0; 
Switch (error code & 3) { 
default: /* 3: 写 ， 不 缺 页 */ 
/* 处 理 同 2 */ 
case 2: /* 写 ， 缺 页 */ 
if (!(vma->vm flags & VM WRITE) ) 
goto bad area; 
writett+; 
break; 
case 1: /* 读 ， 不 缺 页 */ 
goto bad area; 
case 0: /* 读 ， 缺 页 */ 


if (!(vma->vm flags & 


goto bad area; 


(VM_READ | 


} 








VM EXEC) ) ) 


存在 对 应 于 异常 地 址 的 映射 ， 并 不 一 定 意味 着 实际 上 可 以 允许 访问 。 内 核 必须 检查 访问 权限 ， 即 











比特 位 0 和 1 (因为 2+ 2 3)。 可 能 有 以 下 情况 。 
口 在 写 访问 有 

效 ， 跳 转 到 baq_area 标 号 恢复 执行 。 

如 果 是 读 访问 现存 页 〈1 对 应 的 情况 )， 该 异常 必定 是 硬件 

bad_area 恢 复 执 行 。 

如 果 读 取 不 存在 的 页 ， 则 内 核 必须 检查 是 否 置 位 VM_RERAD 或 VM_] 












































口 








口 





的 情况 下 ， 必 须 置 位 VM_WRITE (比特 位 1 置 位 ， 即 3 和 2 


检测 到 的 权限 异常 。 

















对 应 的 情况 )。 和 否则 ， 访 问 无 


接 下 来 跳 转 到 


EXEC， 在 置 位 的 情况 下 访问 有 

















效 。 否 则 拒绝 读 访 问 ， 内 核 跳 转 到 baq_area。 











如 果 内 核 没 有 显 式 跳 转 到 baaq_area， 则 代码 的 执行 将 贯穿 c 
handle _mm fault 调用 。 该 函数 负责 校 ] 
arch/x86/mm/fault_32.c 

















survive: 
/* 


ase 语 句 ， 到 达 下 面 给 出 的 





FE 缺 页 异常 《 即 ， 读 取 所 需 数据 )。 


268 0U040 000000 

















* 如 果 由 于 某 些 原因 我 们 无 法 处 理 异 常 ， 则 必须 优雅 地 退出 ， 而 不 是 一 直 重 试 。 
和 
fault = handle mm fault (mm, vma, address, write); 
IE (unlikely (fault & VM FAULT ERROR)) { 
if (fault & VM FAULT OOM) 
goto out_of_ memory; 
else if (fault & VM FAULT_ SIGBUS) 
goto do_sigbus; 


























BUG(); 
} 
if (fault & VM FAULT MAJOR) 
tsk->maj_flt++; 
else 





tsk->min_flt++; 
return; 


. 

















handle_mm_fault 是 一 个 体系 结构 0 口 的 例 程 , 用 于 选择 适当 的 异常 恢复 方法 ( 按 需 调 页 、 换 入 ， 
等 等 )， 并 应 用 选择 的 方法 〈 我 们 在 4.11 节 将 仔细 讨论 handle_mm_fault 的 实现 和 各 种 不 同 的 选项 )。 





























如 果 页 成 功 建立 ， 则 例 程 返回 vM_FAULT_MIN 


需要 从 块 设备 读 取 )。 内 核 接 下 来 更 新 进程 的 统计 量 。 
但 在 创建 页 时 ， 也 可 能 发 生 异 常 。 如 果 用 于 加 载 页 的 物理 内 存 不 足 ， 内 核 会 强 


OO 
由 


























































































































判 终 止 该 进程 ， 在 
最 低 限度 上 维持 系统 的 运行 。 如 果 对 数据 的 访问 已 经 允许 ， 但 由 于 其 他 的 原因 失败 〈 例 如 ， 访 问 的 映 


(数据 已 经 在 内 存 中 ) 或 vM_FAULT_MAJOR (数据 














射 已 经 在 访问 的 同时 被 另 一 个 进程 收缩 ， 不 再 存在 于 给 定 的 地 址 )， 则 将 SIGBUs 信 和 号 发 送 给 进程 。 











4.11 用 户 空 间 缺 页 异常 的 校正 


在 结束 对 缺 页 异常 的 特定 于 体系 结 术 



































将 所 需 数据 读 取 到 物理 内 存 的 适当 方法 。 该 任务 委托 给 handle_mm_fault, 它 不 依赖 于 底层 体系 结构 ， 























旬 的 分 析 之 后 ,确认 异常 是 在 允许 的 地 址 触发 ， 


内 核 必须 确定 























而 是 在 内 存 管 理 的 框架 下 、 独 立 于 系统 而 实现 。 该 函数 确认 在 各 级 页 目录 中 ， 通 向 对 应 于 寞 常 地 址 的 









































页 表 项 的 各 个 页 目录 项 都 存在 。handqle_pte_fault 函 数 分 析 缺 页 异常 的 原因 。pte 是 指 





(pte_t) 的 指针 。 


mm/memory.c 

static inline int handle pte fault(struct mm struct *mm, 
struct vm area_ struct *vma, unsigned long address, 
pte_t *pte, pmd t *pmd, int write access) 


pte_t entry; 
SEIinLloOck. tt *BEL:; 
entry = *pte; 
if (!pte present (entry)) { 
if (pte none(entry)) { 
if (vma->vm ops) { 








向 相关 页 表 项 


return do_linear fault (mm, vma, address, 
pte, pmd, write access, entry); 


} 


return do_anonymous_page (mm, vma, address, 


pte, pmd, write access); 


} 
IE (pte_file(entry)) 
return do_ nonlinear_ fault (mm, vma, address, 


pte, pmd, write access, entry); 
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return do_swap_page (mm, vma, address, 
pte, pmd, write _ access, entry); 


} 

如 果 页 不 在 物理 内 存 中 ， 即 !pte_present (entry)， 则 必须 区 分 下 面 3 种 情况 。 

(1) 如 果 没 有 对 应 的 页 表 项 (page_none)， 则 内 核 必 须 从 头 开 始 加 载 该 页 ， 对 匿名 映射 称 之 为 0 
DD (demand allocation)， 对 基于 文件 的 映射 ， 则 称 之 为 0DDDD “demand paging)。 如 果 vm_ops 
中 没有 注册 vm_operations_struct， 则 不 适用 上 述 做 法 。 在 这 种 情况 下 ， 内 核 必须 使 用 do_ 
anonymous_page 返 回 一 个 匿名 页 。 

(2) 如 果 该 页 标记 为 不 存在 ， 而 页 表 中 保存 了 相关 的 信息 ， 则 意味 着 该 页 已 经 换 出 ， 因 而 必须 从 
系统 的 某 个 交换 区 换 入 (00 或 00DOD )。 

(3) 非 线 性 映射 已 经 换 出 的 部 分 不 能 像 普 通 页 那样 换 入 ， 因 为 必须 正确 地 恢复 非 线 性 关联 。 
pte_file 畏 数 可 以 检查 页 表 项 是 否 属于 非 线 性 映射 ，do_nonlinear_fault 在 这 种 情况 下 可 用 于 处 理 
开 吊 。 

如 果 该 区 域 对 页 授予 了 写 权 限 ， 而 硬件 的 存 取 机 制 0 口授 予 〈 因 此 触发 异常 )， 则 会 发 生 另 一 种 
潜在 的 情况 。 请 注意 ， 此 时 对 应 的 页 已 经 在 内 存 中 ， 因 而 执行 上 述 的 第 一 个 i£f 语 句 之 后 ， 内 核 将 直接 
跳 到 下 述 代 码 : 


mm/memory.c 
if (write_access) { 
If (!pte write(entry)) 
return do_wp_page (mm, vma, address, 
pte, pmd, ptl, entry); 
entry = pte mkdirty (entry); 











































































































































































































} 


























do_wp_page 负 责 创建 该 页 的 副本 ， 并 插入 到 进程 的 页 表 中 《在 硬件 层 具备 写 权限 )。 该 机 制 称 为 
写 时 复制 (copy on write， 简 称 COW)， 在 第 1 章 简短 地 讨论 过 。 在 进程 发 生 分 支 时 ， 页 并 不 是 立即 复 
制 的 ， 而 是 映射 到 进程 的 地 址 空间 中 作为 “只 读 ” 副 本 ， 以 免 在 复制 信息 时 花费 太 多 时 间 。 在 实际 发 
生 写 访问 之 前 ， 都 不 会 为 进程 创建 页 的 独立 副本 。 

以 下 各 节 将 更 仔细 地 讨论 ,在 校正 缺 页 异常 期 间 所 调用 的 异常 处 理 程序 例 程 的 实现 。 其 中 并 不 涵 
盖 通过 ao_swap_page 从 交换 区 换 入 页 的 方式 ， 该 主题 将 在 第 18 章 单独 讨论 。 因 为 它 需 要 对 页 交换 层 
的 结构 和 组 织 有 进一步 的 了 解 。 


4.11.1 按 需 分 配 / 调 页 


按 需 分 配 页 的 工作 委托 给 do_1linear_fault, 该 函数 定义 在 mm/memory.c 中 。 在 转换 一 些 参数 之 
后 ， 其 余 的 工作 委托 给 ”go_fault， 其 代码 流程 图 在 图 4-19 给 出 。 
首先 ， 内 核 必须 确保 将 所 需 数据 读 入 到 发 生 异 常 的 页 。 具体 的 处 理 依 赖 于 映射 到 发 生 异 常 的 地 址 
空间 中 的 文件 , 因此 需要 调用 特定 于 文件 的 方法 来 获取 数据 ,通常 该 方法 保存 在 vm->vm_ops->fault。 
于 较 早 的 内 核 版 本 使 用 的 方法 调用 约定 不 同 ， 内 核 必须 考虑 到 某 些 代 码 尚 未 更 新 到 新 的 调用 约定 。 
此 ， 如 果 没 有 注册 fault 方 法 ， 则 调用 旧 的 vm->vm_ops->nopage。 
大 多 数 文件 都 使 用 filemap_fault 读 入 所 需 数据 。 该 函数 不 仅 读 入 所 需 数 据 , 还 实现 了 预 读 功能 ， 
即 提前 读 入 在 未 来 很 可 能 需要 的 页 。 完 成 该 任务 所 需 的 机 制 会 在 第 16 章 介绍 ， 到 时 会 更 详细 地 讨论 该 
函数 。 目 前 我 们 只 需 知道 ， 内 核 使 用 aadqress_space 对 象 中 的 信息 ， 从 后 备 存储 器 将 数据 读 取 到 物理 
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内 存 页 。 


elofaulte 
是 
只 有 vma->vm_ops->nopage 可 用 ? vma->vm_ops->nopage 


a 
[a 
vma->vm_ops->fault 


对 私有 页 的 写 访问 ?| 

































anon_vma_prepare 






Copy_user_ highpage 


flush icache page 


写 访 问 ? pte_mkwrite 
=} 


匿名 页 ? 条 _>| 1ru_cache_add_active 

















page_adqd new_ anon rmap 


page_adqd file rmap 


update mmu cache 


区 





图 4-19 ao_fault 的 代码 流程 图 








给 定 涉及 区 域 的 vm_area_struct， 内 核 选 择 使 用 何 种 方法 读 取 页 ? 

(1) 使 用 vm_area_struct->vm_file 找 到 映射 的 Eile 对 象 。 

(2) 在 file->f_mapping 中 找到 指向 映射 自身 的 指针 。 

(3) 每 个 地 址 空间 都 有 特定 的 地 址 空间 操作 ， 从 中 选择 readpage 方 法 。 使 用 mapping->a_ops-> 
readpage (file，page) 从 文件 中 将 数据 传输 到 物理 内 存 。 

如 果 需 要 写 访问 ， 内 核 必须 区 分 共享 和 私有 了 映射。 对 私有 了 映射， 必须 准备 页 的 一 份 副本 。 


mm/memory.c 
static int qdqo fault(Sstruct mm struct *mm, struct vm area_struct *vma, 


unsigned long address, pmd_ t *pmd, 
pgoff_t pgoff, unsigned int flags, pte_t orig pte) 































































































/* 














* 应 该 进行 写 时 复制 吗 ? 
4 
if (flags & FAULT_ FLAG WRITE) { 


if (!(vma->vm flags & VM SHARED)) { 
anorm = 13 
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if (unlikely(anon vma prepare(vma))) { 
ret = VM FAULT _ OOM; 
goto out; 
} 
page = alloc_ page_vma (GFP_ HIGHUSER_ MOVABLE, 
vma, address); 


} 
copy_user_highpage (page, vmf.page, address, vma); 


} 























在 用 anon_vma_prepare (指向 原 区 域 的 指针 ， 在 anon_vma_prepare 中 会 重 定向 到 新 的 区 域 ) 为 
区 域 建立 一 个 新 的 anon_vma 实 例 之 后 ， 必 须 分 配 一 个 新 的 页 。 这 里 会 优先 使 用 高 端 内 存 域 ， 因 为 该 内 
存 域 对 用 户 空间 页 是 没有 问题 的 。copy_user_highpage 接 下 来 创建 数据 的 一 份 副本 《在 内 核 和 用 户 
空间 之 间 复 制 数据 的 例 程 ， 将 在 4.13 节 讨论 ) 
既然 已 经 知道 页 的 位 置 ， 则 需要 将 其 加 入 进程 的 页 表 ， 再 合并 到 逆向 映射 数据 结构 中 。 在 完成 这 
些 之 前 ， 需 要 用 flush_icache_page 更 新 缓存 ， 确 保 页 的 内 容 在 用 户 空 间 可 见 。 大 多 数 处 理 器 都 不 需 
要 这 个 步 又， 一 般 定义 为 空 操作 。) 
指 问 只 读 页 的 页 表 项 通常 使 用 3.3.2 节 讨论 的 mk_pte 函 数 产 生 。 如 果 建 立 具有 写 权限 的 页 ， 内 核 
必须 用 pte_mkwrite 显 式 设置 写 权 限 。 
页 集成 到 逆向 映射 的 具体 方式 ， 取 决 于 其 类 型 。 如 果 在 处 理 写 访问 权限 时 生成 的 页 是 匿名 的 ， 则 
使 用 lru_cache_adq_active 将 其 加 入 到 LRU 绥 存 的 活动 区 域 中 (第 16 章 将 更 详细 地 讲解 缓存 机 制 )， 
然后 用 page_add_new_anon_rmap 集 成 到 道 向 映射 中 。 所 有 其 他 与 基于 文件 的 映射 关联 的 页 ， 则 调用 
page_adqd_file_rmap。 这 两 个 函数 都 在 4.8 节 讨论 过 。 最 后 ， 必 须 更 新 处 理 器 的 MMU 缓 存 ， 因 为 页 
表 已 经 修改 。 


4.11.2 ”匿名 页 


对 于 没有 关联 到 文件 作为 后 备 存 储 器 的 页 , 需要 调用 do_anonymous_page 进 行 映射 。 除了 无 需 问 
页 读 入 数据 之 外 ， 该 过 程 几乎 与 映射 基于 文件 的 数据 没什么 不 同 。 在 highmem 内 存 域 建立 一 个 新 页 ， 
并 清空 其 内 容 。 接 下 来 将 页 加 入 到 进程 的 页 表 ， 并 更 新 高 速 缓存 或 者 MMU。 

请 注意 ， 较 早 版 本 的 内 核 会 区 分 对 匿名 映射 的 只 读 访 问 和 写 访问 。 只 读 情 况 下 ， 则 使 用 一 个 填充 
字 节 0 的 全 局 页 ， 来 满足 对 匿名 区 域 的 读 请 求 。 在 内 核 版 本 2.6.24 的 开发 期 间 ， 放 弃 了 这 种 行为 特性 。 
因为 经 过 测试 ， 性 和 0 么 提高 ， 而 在 大 型 系统 上 共享 /dev/zero 上 映射 可 能 会 带 来 一 些 问题 ， 我 
就 不 在 这 里 详细 讨论 


4.11.3” 写 时 复制 


写 时 复制 在 ao_wp_page 中 处 理 ， 其 代码 流程 图 如 图 4-20 所 示 。 

我 们 考察 的 是 一 个 略微 简化 的 版 本 ,其 中 省 去 了 与 交换 缓存 潜在 的 冲突 ， 以 及 一 些 边 边 角 角 的 情 
况 。 因 为 这 些 都 使 问题 复杂 化 ， 而 无 助 于 揭示 机 制 自 身 的 本 质 。 

内 核 首 先 调用 vm_normal_page， 通 过 页 表 项 找到 页 的 struct page 实 例 ， 本 质 上 这 个 函数 基于 
pte_pfn 和 pfn_to_page， 这 两 者 是 所 有 体系 结构 都 必须 定义 的 。 前 者 查找 与 页 表 项 相关 的 页 号 ， 而 
后 者 确定 与 页 号 相关 的 page 实 例 。 这 是 可 行 的 ， 因 为 写 时 复制 机 制 只 对 内 存 中 实际 存在 的 页 调用 《和 否 
则 ， 首 先 需要 通过 缺 页 异常 机 制 自 动 加 载 )。 













































































































































































































































































































































































































































































































































































































































































































































































272 U40 00000000 
monEXmaDeRPame 
page_remove_rmap 
将 页 添加 到 页 表 
lru_ cache adqd active 
page_adqd new anon rmap 
图 4-20 ”do_wp_page 的 代码 流程 图 
在 用 page_cache_get 获 取 页 之 后 ， 接 下 来 anon_vma_prepare 准 备 好 逆向 映射 机 制 的 数据 结构 ， 
以 接受 一 个 新 的 匿名 区 域 。 由 于 异常 的 来 源 是 需要 将 一 个 充满 有 用 数据 的 页 复制 到 新 页 ， 因 此 内 核 调 
jalloc_page_vma 分 配 一 个 新 页 。cow_user_page 接 下 来 将 异常 页 的 数据 复制 到 新 页 ， 进 程 随后 可 
以 对 新 页 进行 写 操作 。 
然后 使 用 page_remove_rmap， 删 除 到 原来 的 只 读 页 的 逆向 映射 。 新 页 添加 到 页 表 ， 此 时 也 必须 
更 新 CPU 的 高 速 缓存 。 
最 后 ， 使 用 lru_cache_aqq_active 将 新 分 配 的 页 放置 到 LRU 缓 存 的 活动 列表 上 ， 并 通过 
page_aqq_anon_rmap 将 其 插入 到 逆 问 映射 数据 结构 。 此 后 ， 用 户 空 间 进 程 可 以 癌 页 写 入 数据 。 





4.11.4 获取 非 线性 映射 
与 上 述 使 


mm/memory.c 

















static int do nonlinear_ fault (struct mm struct *mm, 
unsigned long address, 
int write access, 






































了 的 方法 相 比 ， 非 线性 映射 的 缺 页 处 到 














要 短 得 多 ， 





pte_t orig pte) 


pgoff = pte to pgoff (orig pte); 


return __do_fault (mm, vma, 
} 
于 异常 地 址 与 映射 文件 的 内 容 并 非 线性 机 





























中 ， 获 取 所 需 位 置 的 信息 。 现 在 就 需要 获取 并 使 用 该 信 ， 














F 中 的 偏 移 量 〈 以 页 为 单位 )。 





文人 





address, pmd, pgoff, 





目 关 ， 医 





























在 获得 文人 
论 的 函数 aqo_page_fault， 处 理 


4.12 内核 缺 页 异常 




















内 部 的 地 址 之 后 ， 读 取 所 需 数据 类 似 于 普 
! 到 此 为 止 。 








pte_t *page_ table, 





struct vm area_struct *vma, 


pmd_t *pmd, 


flags, orig pte); 


此 必须 从 先前 用 pgoff_to_pte 编 码 的 页 表 项 














因 : pte_to_pgoff 分 析 页 表 项 并 获取 所 需 的 
F 普通 的 缺 页 异常 。 因 此 内 核 将 工作 移交 先前 讨 


在 访问 内 核 地 址 空间 时 ， 缺 页 异常 可 能 被 各 种 条 件 触发 ， 如 下 所 述 。 
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口 内 核 中 的 程序 设计 错误 导致 访问 不 正确 的 地 址 ， 这 是 真正 的 程序 错误 。 当 然 ， 这 在 稳定 版 本 ” 
中 应 该 永远 都 不 会 发 生 ， 但 在 开发 版 本 中 会 偶尔 发 生 。 
口 内 核 通 过 用 户 空 间 传 递 的 系统 调用 参数 ， 访 问 了 无 效 地 址 。 
口 访问 使 用 vmalloc 分 配 的 区 域 ， 触 发 缺 页 异常 。 
前 两 种 情况 是 真正 的 错误 ， 内 核 必 须 对 此 进行 额外 的 检查 。vmalloc 的 情况 是 导致 缺 页 异常 的 合 
理 原 因 ， 必 须 加 以 校正 。 直 至 对 应 的 缺 页 异常 发 生 之 前 ，vmalloc 区 域 中 的 修改 都 不 会 传输 到 进程 的 
页 表 。 必 须 从 主页 表 复 制 适 当 的 访问 权限 信息 。 尽 管 这 个 操作 并 不 困难 ， 但 它 非 常 依赖 于 具体 的 体系 
结构 ， 因 此 我 不 会 在 这 里 讨论 。 
在 处 理 不 是 由 于 访问 vmalloc 区 域 导致 的 缺 页 异常 时 , 0 DO D 《〈exception fixup) 机 制 是 一 个 最 
后 手段 。 在 某 些 时 候 ， 内 核 有 很 好 的 理由 准备 截取 不 正确 的 访问 。 例 如 ， 从 用 户 空间 地 址 复制 作为 系 
统 调用 参数 的 地 址 数据 时 。 
复制 可 能 由 各 种 函数 执行 ， 例 如 下 一 节 讨论 的 copy_from_user。 目 前 ， 只 要 知道 对 不 正确 地 址 
的 访问 只 会 发 生 在 内 核 中 少数 地 方 ， 就 可 以 了 。 
在 向 或 从 用 户 空间 复制 数据 时 ， 如 果 访 问 的 地 址 在 虚拟 地 址 空间 中 不 与 物理 内 存 页 关联 ， 则 会 发 
生 缺 页 异常 。 对 用 户 状态 发 生 的 该 情况 ， 我 们 已 经 熟悉 。 在 应 用 程序 访问 一 个 虚拟 地 址 时 ， 内 核 将 使 
用 上 文 讨论 的 按 需 调 页 机 制 ， 自 动 并 透明 地 返回 一 个 物理 内 存 页 。 如 果 访 问 发 生 在 核心 态 ， 异 常 同样 
必须 校正 ， 但 使 用 的 方法 稍 有 不 同 。 
每 次 发 生 缺 页 异常 时 , 将 输出 异常 的 原因 和 当前 执行 代码 的 地 址 。 这 使 得 内 核 可 以 编译 一 个 列表 ， 
列 出 所 有 可 能 执行 未 授权 内 存 访问 操作 的 危险 代码 块 。 这 个 “异常 表 ” 在 链接 内 核 映 像 时 创建 ， 在 二 
进 制 文件 中 位 于 start_exception_table 和 ”end_exception_table 之 间 。 每 个 表 项 都 对 应 于 一 
个 struct exception_table 实 例 ， 该 结构 尽管 是 体系 结构 相关 的 ， 但 通常 都 是 如 下 定义 : 


<include/asm-x86/uaccess_32.h> 
struct exception table entry 
























































































































































































































































































































































































































































































































































unsigned long insn, fixup; 


把 

insn 指 定 了 内 核 预期 在 虚拟 地 址 空间 中 发 生 异 常 的 位 置 。fixup 指 定 了 发 生 异 常 时 执行 恢复 到 哪 
个 代码 地 址 。 

fixup_exception 用 于 搜索 异常 表 ， 并 且 在 IA-32 系 统 上 如 下 定义 : 


arch/x86/mm/extable_32.c 
int fixup_ exception(struct pt_regs *regs) 












































{ 
const struct exception table entry *fixup; 
fixup = search exception tables (regs->eip); 
if (fixup) { 
regs->eip = fixup->fixup; 
return 1; 
} 
return 0; 
} 

















regs->eip 指 向 EIP 寄 存 器 ， 在 IA-32 处 理 器 上 包含 了 触发 异常 的 代码 段 地 址 。search_ 














GO 实际 上 ， 极 少 发 生 此 类 错误 ， 读 者 可 能 已 经 注意 到 ，Linux 是 一 种 非常 稳定 的 系统 …… 


24 0U40 000000 





exception_tables 扫 描 异 常 表 ， 查 找 适当 的 匹配 项 。® 





在 找到 修正 例 程 时 ， 将 指令 指针 设置 到 对 应 的 内 存 位 置 。 在 fixup_exception 通 过 return 返 回 
































后 ， 内 核 将 执行 找到 的 例 程 。 

















如 果 没 有 修正 例 程 ， 会 怎么 样 ? 这 表明 出 现 了 一 个 真正 的 内 核 异 常 ， 在 对 search_exception_ 
table 〈 不 成 功 的 ) 调用 之 后 ， 将 调用 do_page_fault 来 处 理 该 异常 ， 最 终 导致 内 核 进入 oops 状 态 。 















































在 IA-32 处 理 器 上 如 下 所 示 : 


arch/x86/mm/fault_32.c 
fastcall voidq _ kprobes do_page_fault(struct pt_regs *regs, 
unsigned long error_code) 





{ 


no_context: 
/* 准备 好 处 理 这 个 内 核 异 常 了 吗 ? */ 
IE (fixup_exception (regs)) 
return; 


/* 

oops。 内 核 试图 访问 某 些 坏 页 。 ， 

我 们 必须 结束 可 能 会 造成 严重 损害 的 东西 。 
* 

. 





























if (address < PAGE_ SIZE) 
printk (KERN_ALERT "BUG: unable to handle kernel NULL " 
"pointer dereference"); 


else 

printk (KERN_ALERT "BUG: unable to handle kernel paging" 

" request"); 

printk(" at virtual address %081lx\n",address); 
printk (KERN_ ALERT "printing eip: %08lx ", regs->eip); 
page = read cr3(); 
page = (( typeof_ _ (page) *) _ val(page)) [address >> PGDIR_ SHIFT]; 
printk("*pde = %08lx ", page); 


tsk->thread.cr2 = address; 
tsk->thread.trap_no = 14; 
tsk->thread.error_code = error_code; 
die("Oops", regs, error_code); 
do_exit (SIGKILL); 








如 果 访 问 的 是 0 和 PAGE_sIzE - 1 之 间 的 虚拟 地 址 ， 则 内 核 报 告 试图 反 引 用 无 效 的 NULL 指 针 。 否 




















则 ， 用 户 被 通知 内 核 内 存 中 有 一 个 调 页 请 求 无 法 满足 ， 这 两 种 情况 都 是 内 核 的 程序 错误 。 
些 附加 信息 以 帮助 调试 异常 ， 并 提供 特定 于 硬件 的 数据 。aie 输 出 当前 各 寄存 器 的 内 容 
输出 的 一 部 分 )。 















































还 会 输出 一 
(这 只 是 die 














此 后 ， 强 制 用 sIGKILL 结 束 当 前 进程 ， 做 一 些 最 后 的 抢救 工作 在 很 多 情况 下 ， 此 类 异常 将 导致 

















系统 不 可 用 )。 
4.13 ”在 内 核 和 用 户 空间 之 间 复 制 数据 
内 核 经 常 需要 从 用 户 空间 向 内 核 空 间 复 制 数 据 。 例如， 在 系统 调用 中 通过 指针 间接 


















































也 传递 见长 的 






































GD 更 精确 地 说 ， 会 扫描 几 个 表 : 内 核 中 的 主 表 和 在 运行 时 动态 加 载 的 模块 注册 的 表 。 因 为 使 用 的 机 
个 ， 不 值得 描述 其 间 细 微 的 差别 。 























证 实际 上 是 同一 
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数据 结构 时 。 反 过 来 ， 也 有 从 内 核 空 间 向 用 户 空 间 写 数据 的 需求 。 

有 两 个 原因 ， 使 得 不 能 只 是 传递 并 反 引 用 指针 。 首 先 ， 用 户 空间 程序 不 能 访问 内 核 地 址 ， 其 次 ， 
无 法 保证 用 户 空 间 中 指针 指向 的 虚拟 内 存 页 确实 与 物理 内 存 页 关联 。 因 此 内 核 需要 提供 几 个 标准 函 
数 ， 以 处 理 内 核 空 间 和 用 户 空 间 之 间 的 数据 交换 ， 并 考虑 到 这 些 特殊 情况 。 表 4-2 给 出 了 这 些 函 数 的 一 


个 概要 。 












































































































































表 4-2 用户 空间 和 内 核 空间 之 间 交 换 数据 的 标准 函数 
义 










































































函数 语 
copy_from user(to, from, n) 从 from( 用 户 空间 ) 到 to (内核 空间 ) 复制 一 个 长 度 为 n 字 节 的 字符 串 
__ Copy_from user 
get_user (type *to, type* ptr) 从 ptzr 读 取 一 个 简单 类 型 变量 (char，1long，…)， 写 入 to。 根 据 指针 
__get user 的 类 型 ， 内 核 自 动 判断 需要 传输 的 字 节 数 (1、2、4、8) 
strncopy_from user (to, from, n) 将 0 结尾 字符 串 (最 长 为 n 个 字符 ) 从 from〔 用 户 空间 ) 复制 到 to 内 
strncopy_from user 核 空 间 ) 
put_user (type *from, type *to) 将 一 个 简单 值 从 from( 内 核 空间 ) 复制 到 to (用 户 空间 )。 相 应 的 值 根 
_ put user 据 指针 类 型 动 判断 
copy_to_user (to, from, n) 从 from( 内 核 空间 ) 到 to 用 户 空间 ) 复制 一 个 长 度 为 n 字 节 的 字符 串 





























Copy_to_user 


表 4-3 列 出 了 用 于 处 理 用 户 空间 字符 串 的 其 他 辅助 函数 。 这 些 函 数 与 复制 数据 的 函数 相似 ， 都 受 
到 同样 的 约束 。 
























































表 4-3 ”人 处理 用 户 空间 数据 中 的 字符 串 的 标准 函数 












































函 数 语 义 
clear user(to, n) _ clear user 用 0 填充 to 之 后 的 n 个 字 节 
strlen user(s) __ strlen user 获取 用 户 空间 中 的 一 个 0 结尾 字符 串 的 长 度 (包括 绪 束 字符 ) 
strnlen_user(s, n) strnlen_user 获取 一 个 0 结尾 字符 串 的 长 度 ， 但 搜索 限制 为 不 超过 n 个 字符 











getevsez 四 PvE vser 二 ena 
Ogg sse ouon 
O00OUO 


根据 表 的 内 容 , 大 多 数 函 数 都 有 两 个 版 本 。 在 0 口 下 划 线 前 级 的 版 本 中 ,还 会 调用 access_user， 
对 用 户 空间 地 址 进行 检查 。 所 执行 的 检查 依 体系 结构 而 不 同 。 例 如 ， 一 种 平台 的 检查 可 能 是 确认 指针 
确实 指向 用 户 空间 中 的 位 置 。 而 男 一 种 可 能 在 内 存 中 找 不 到 页 时 ， 调 用 handle_mm_fault 以 确保 数据 
己 经 读 入 内 存 ， 可 供 处 理 。 所 有 函数 都 应 用 了 上 述 用 于 检测 和 校正 缺 页 异常 的 修正 机 制 。 

这 些 函 数 主要 是 用 汇编 语言 实现 的 。 由 于 调用 非常 频繁 ， 对 性 能 要 求 极 高 。 另 外 ， 还 必须 使 用 
GNU C 用 于 骨 入 汇编 的 复杂 构造 和 代码 中 的 链接 指令 ， 将 异常 代码 也 集成 进来 。 我 不 打算 详细 讨论 各 
个 函数 的 实现 。 
在 内 核 版 本 2.5 开 发 期 间 ， 编 译 过程 增 加 了 一 个 检查 工具 。 该 工具 分 析 源 代码 ， 检 查 用 户 空间 的 
指针 是 否 能 直接 反 引 用 ,而 不 使 用 上 述 函 数 。 源 自用 户 空间 的 指针 必须 用 关键 字 _user 标 记 ， 以 便 工 
具 分 辨 所 需 检查 的 指针 。 一 个 特定 的 例子 是 chroot 系 统 调用 ， 它 需要 一 个 文件 名 作为 参数 。 内 核 中 还 
















































































































































































































































































276 0U040 000000 




















有 许多 地 方 包含 了 带 有 类 似 标记 、 来 自用 户 空间 的 参数 。 
<fs/open.c> 
asmlinkage long sys_chroot(const char _ user * filename) { 





在 内 核 版 本 2.6.25 开 发 期 间 ， 进 一 步 增 强 了 地 址 空间 随机 化 。 现 在 可 以 随机 化 堆 的 地 址 ， 一 
般 称 之 为 brk0 口 。 由 于 某 些 古老 的 程序 与 随机 化 的 堆 地 址 无 法 兼容 ， 因 此 除非 设置 了 新 的 配置 选 
项 COMPAT_BRK， 将 不 会 进行 随机 化 。 在 技术 层面 上 ，Pbrk 随 机 化 的 原理 与 本 章 介 绍 的 其 他 随机 化 技术 
相似 。 


4.14 ”小结 


读者 已 经 知道 ， 对 用 户 层 进程 的 虚拟 地 址 空间 的 处 理 ， 是 Linux 内 核 一 个 非常 重要 的 部 分 。 我 已 
经 介绍 了 地 址 空间 的 通用 结构 以 及 内 核对 地 址 空间 的 管理 方式 ， 而 读者 学 习 了 地 址 空间 是 如 何 划 分 为 
区 域 的 。 这 些 可 用 来 描述 用 户 层 进 程 的 虚拟 内 存 空间 的 内 容 ， 形 成 了 线性 和 非 线性 内 存 映射 的 中 枢 。 
此 外 ， 这 些 机 制 通过 分 页 联系 起 来 ， 后 者 有 助 于 管理 物理 和 虚拟 内 存 之 间 的 关联 。 
1 于 各 个 用 户 层 进 程 的 虚拟 地 址 空间 不 同 , 而 虚拟 地 址 空间 的 内 核 部 分 总 是 保持 不 变 。 在 二 者 之 
间 交 换 数据 需要 一 些 工 作 ， 我 已 经 向 读者 介绍 了 所 需 的 机 制 。 
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inux 作 为 多 任务 系统 ， 能 够 同时 运行 几 个 进程 。 通 常 ， 各 个 进程 必须 尽 可 能 保持 独立 ， 避 免役 
此 干扰 。 这 对 于 保护 数据 和 确保 系统 稳定 性 都 很 有 必要 。 但 有 时 候 ， 应 用 程序 必须 彼此 通信 。 
口 一 个 进程 生成 的 数据 传输 到 另 一 个 进程 时 ; 
口 数据 由 多 个 进程 共享 时 ; 
口 进程 必须 彼此 等 待 时 ; 
口 需要 协调 资源 的 使 用 时 。 
我 们 可 以 使 用 SystemV 引 入 的 几 种 经 典 技术 来 处 理 这 些 情 况 ， 这 些 技术 证 明了 自身 的 价值 ， 现 在 
已 经 是 Linux 的 主要 部 分 了 。 用 户 空间 应 用 程序 和 内 核 自 身 都 面临 此 类 情况 ， 特 别 是 在 多 处 理 器 系统 
上 上 ， 需 要 各 种 内 核 内 部 的 机 制 进行 处 理 。 
如 果 几 个 进程 共享 一 个 资源 ， 则 很 容易 彼此 干扰 ， 必 须 防 止 这 种 情况 。 因 此 内 核 不 仅 提 供 了 共享 
数据 的 机 制 ， 同 样 提供 了 协调 对 数据 访问 的 机 制 。 内 核 仍然 采用 了 来 自 System V 的 机 制 。 
用 户 空间 应 用 程序 和 内 核 自身 都 需要 保护 资源 ， 特 别 是 后 者 。 在 SMP 系 统 上 ， 各 个 CPU 可 能 同时 
处 于 核心 态 ， 在 理论 上 可 以 操作 所 有 现存 的 数据 结构 。 为 阻止 CPU 彼 此 干扰 ， 需 要 通过 0 保护 内 核 的 
某 些 范围 。 锁 可 以 确保 每 次 只 能 有 一 个 CPU 访 问 被 保护 的 范围 。 


5.1 控制 机 制 


在 讲述 内 核 的 各 种 进程 间 通 信 (interprocess communication，IPC) 和 数据 同步 机 制 之 前 ， 我 们 简 

单 讨论 一 下 相互 通信 的 进程 彼此 干扰 的 可 能 情况 ， 以 及 如 何 防止 。 我 们 的 讨论 只 限于 基本 和 核心 的 方 

面 。 对 于 经 典 问 题 的 详细 解释 和 大 量 例子 ， 请 参考 市 面 上 操作 系统 方面 的 通用 教科 书 。 

5.1.1 竞 态 条 件 
我 们 考虑 系统 通过 两 种 接口 从 外 部 设备 读 取 数 据 的 情况 。 独立 的 数据 包 以 不 定 间 隔 通过 两 个 接口 

到 达 ， 保 存在 不 同文 件 中 。 为 记录 数据 包 到 达 的 次 序 ， 在 文件 名 之 后 添加 了 一 个 号 码 ， 表 明 数 据 包 的 

序号 。 通 常 的 一 系列 文件 名 是 act1.fil、act2.fil、act3.fil， 等 等 。 可 使 用 一 个 独立 的 变量 来 简 

化 两 个 进程 的 工作 。 该 变量 保存 在 由 两 个 进程 共享 的 内 存 页 中 指定 了 下 一 个 未 使 用 的 序号 (为 简 

明 起 见 ， 在 下 文 我 称 该 变量 为 counter)。 

在 一 个 数据 包 到 达 时 ， 进 程 必 须 执 行 一 些 操 作 ， 才 能 正确 地 保存 数据 。 

(1) 从 接口 读 取 数 据 。 

(2) 用 序号 counter 构 造 文件 名 ， 打 开 一 个 文件 。 

(3) 将 序号 加 1。 
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(4) 将 数据 写 入 文件 ， 然 后 关闭 文件 。 
上 述 的 软件 系统 会 发 生 错 误 吗 ?如 果 每 个 进程 都 严格 遵守 上 述 过 程 , 并 在 适当 的 位 置 对 状态 变 直 
加 1， 那 么 上 述 过 程 不 仅 适 用 于 两 个 进程 ， 也 可 用 于 多 个 进程 。 
事实 上 ， 大 多 数 情况 下 上 述 过 程 [] 口 正确 运作 ， 但 在 某 些 情况 下 会 出 错 ， 而 这 也 是 分 布 式 程序 设 
计 的 真正 困难 所 在 。 我 们 设 个 陷阱 ， 分 别 将 从 接口 读 取 数 据 的 进程 称 作 DO 1 和 0 0 2。 
我 们 给 出 的 场景 中 ， 已 经 保存 了 若干 文件 ， 比 如 说 总 共有 12 文 件 。 因 此 countez 的 值 是 13 。 显 然 
是 个 “ 风 兆 ”…… 
进程 1 从 接口 接收 一 个 刚 到 达 的 新 数据 块 。 它 忠实 地 用 序号 13 构 造 文 件 名 并 打开 一 个 文件 ， 而 同 
时 调度 器 被 激活 并 确认 该 进程 已 经 消耗 了 足够 的 CPU 时 间 ， 必 须 由 另 一 个 进程 奉 换 ， 并 且 假 定 是 进程 
2。 要 注意 ， 此 时 进程 1 读 取 了 counter 的 值 ， 但 尚未 对 counter 加 1。 
在 进程 2 开始 运行 后 ， 同 样 从 其 对 应 的 接口 读 取 数据 ， 并 开始 执行 必要 的 操作 以 保存 这 些 数据 。 
它 会 读 取 counter 的 值 ， 用 序号 13 构 造 文件 名 打开 文件 ， 将 counter 加 1，counter 从 13 变 为 14。 接 下 
来 它 将 数据 写 入 文件 ， 最 后 结束 。 
不 入， 又 轮 到 进程 1 再 次 运行 。 它 从 上 次 暂停 处 恢复 执行 ， 并 将 counter 加 1，counter 从 14 变 为 
1$。 接 下 来 它 将 数据 写 入 到 用 序号 13 打 开 的 文件 ， 当 然 ， 在 这 样 做 的 时 候 ， 会 覆盖 进程 2 已 经 保存 的 
这 简直 是 祸 不 单行 ， 丢 失 了 一 个 数据 记录 ， 而 且 序号 14 也 变 得 不 可 用 了 。 
修改 程序 接收 数据 之 后 的 处 理 步 又 ， 可 以 防止 该 错误 。 举 例 来 说 ， 进 程 可 以 在 读 取 counter 的 值 
之 后 立即 将 counter 加 1， 然 后 再 去 打开 文件 。 但 再 想 想 ， 问 题 远 远 不 会 这 么 简单 。 因 为 我 们 总 是 可 以 
设计 出 一 些 导致 致命 错误 的 情形 。 因 此 ， 我 们 很 快 就 意识 到 了 : 如 果 在 读 取 counter 的 值 和 对 其 加 1 
之 间 发 生 调度 ， 则 仍然 会 产生 不 一 致 的 情况 。 
儿 个 进程 在 访问 资源 时 彼此 干扰 的 情况 通常 称 之 为 0 口 口 口 (race condition)。 在 对 分 布 式 应 用 编 
程 时 ， 这 种 情况 是 一 个 主要 的 问题 ， 因 为 竞 态 条 件 无 法 通过 系统 的 试 错 法 检测 。 相 反 ， 只 有 彻底 研究 
源 代 码 〈 深 入 了 解 各 种 可 能 发 生 的 代码 路 径 ) 并 通过 敏锐 的 直觉 ， 才 能 找到 并 消除 竞 态 条 件 。 
1 于 导致 竞 态 条 件 的 情况 非常 罕见 ,因此 需要 提出 一 个 问题 : 是 否 值得 做 一 些 ( 有 时 候 是 大 量 的 ) 
工作 来 保护 代码 避免 竟 态 条 件 。 
在 某 些 环境 中 《飞机 的 控制 系统 、 重 要 机 械 的 监控 、 和 危险 装备 )， 竞 态 条 件 是 致命 问题 。 即 使 在 
日 常 软件 项 目 中 ， 避 免 潜 在 的 竞 态 条 件 也 能 大 大 提高 程序 的 质量 以 及 用 户 的 满意 度 。 为 改进 Linux 内 
核对 多 处 理 器 的 支持 ， 我 们 需要 精确 定位 内 核 中 暗藏 竞 态 条 件 的 范围 ， 并 提供 适当 的 防护 。 由 于 缺乏 
保护 而 导致 的 出 乎 意料 的 系统 骨 泪 和 莫名 其 妙 的 错误 ， 这 些 都 是 不 可 接受 的 。 
5.1.2 ”临界 区 
这 个 问题 的 本 质 是 : 进程 的 执行 在 不 应 该 的 地 方 被 中 断 ， 从 而 导致 进程 工作 得 不 正确 。 显 然 ， 一 
种 可 能 的 解决 方案 是 标记 出 相关 的 代码 段 ， 使 之 无 法 被 调度 器 中 断 。 尽 管 这 种 方法 原则 上 是 可 行 的 ， 
旦 有 几 个 内 在 问题 。 在 某 种 情况 下 ， 有 问题 的 程序 可 能 迷失 在 标记 的 代码 段 中 无 法 退出 ， 因 而 无 法 放 
弃 CPU， 进 而 导致 计算 机 不 可 用 。 因 此 我 们 必须 立即 放弃 这 种 解决 方案 。?9 
问题 的 解决 方案 不 一 定 要 求 临界 区 是 不 能 中 断 的 .DODDODOODOOOOOODOODOO0D0DO ， 那 么 在 临界 
区 中 执行 的 进程 完全 是 可 以 中 断 的 。 这 种 严格 的 禁止 条 件 , 可 以 确保 几 个 进程 不 能 同时 改变 共享 的 值 ， 
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QD 内 核 自身 可 以 《并 且 必 须 ) 保留 停 用 中 断 的 权利 ， 以 便 在 某 些 时 候 将 自身 完全 封闭 起 来 ， 免 受 外 部 或 周期 性 事件 
的 干扰 。 但 对 用 户 进程 来 说 ， 这 是 不 可 能 的 。 
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我 们 称 为 0 口 (mutual exclusion)。 也 就 是 说 ， 在 给 定时 刻 ， 上 只 有 一 个 进程 可 以 进入 临界 区 代码 。 
有 许多 方法 可 以 设计 这 种 类 别 的 互 斥 方法 〈 不 考虑 技术 实现 问题 )。 但 所 有 的 设计 都 必须 保证 ， 
无 论 在 何 种 情况 下 都 要 确保 排他 原则 (exclusion principle)。 这 种 保证 决 不 能 依赖 于 所 涉及 处 理 器 的 
D 或 0 0D 。 如 果 存 在 这 样 的 依赖 (以 至 于 解决 方案 只 适用 于 特定 便 件 配置 下 的 给 定 计算 机 系统 )， 那 
么 该 方案 将 是 不 切实 际 的 。 因 为 它 无 法 提供 通用 的 保护 机 制 ， 而 这 正 是 我 们 所 需要 的 。 进 程 不 应 该 允 
许 彼此 阻塞 或 永久 停止 。 尽 管 这 里 描述 了 一 个 可 取 的 目标 ， 但 它 并 不 总 是 能 够 用 技术 手段 实现 ， 读 者 
从 下 文 可 以 看 到 这 一 点 。 经 常 需要 程序 员 未 雨 绸 绪 ， 以 避免 问题 的 发 生 。 

应用 何 种 原理 来 支持 互 斥 方法 ?在 多 任务 和 多 用 户 系统 的 历史 上 , 人们 提出 了 许多 不 同 的 解决 方 
案 ， 但 都 各 有 利 次 。 一 些 解决 方案 只 是 纯 理 论 的 ， 而 另 一 些 则 已 经 在 各 种 操作 系统 中 付 诸 实 践 了 。 下 
面 我 们 将 仔细 讨论 大 多 数 系统 采用 的 一 种 方案 。 

信号 量 

DODODDsemaphoreD 是 由 E. W. Dijkstra 在 1965 年 设计 。 初 看 起 来 ， 它 们 对 各 种 进程 间 通 信 问 题 提 
供 了 一 种 简单 得 令 人 吃惊 的 解答 ， 但 对 信号 量 的 使 用 仍 需 要 经 验 、 直 觉 和 谨慎 。 

实质 上 , 0 OUD 只 是 受 保护 的 特别 变量 ， 能 够 表示 为 正 负 整 数 。 其 初始 值 为 1。 

为 操作 信号 量 定义 了 两 个 标准 操作 : up 和 down。 这 两 个 操作 分 别 用 于 控制 关键 代码 范围 的 进入 
和 退出 ， 且 假定 相互 竞争 的 进程 访问 信号 量 机 会 均等 。 
在 一 个 进程 想 要 进入 关键 代码 时 ， 它 调用 down 函 数 。 这 会 将 信号 量 的 值 减 1， 即 将 其 设置 为 0， 然 
后 执行 危险 代码 段 。 在 执行 完 操 作 之 后 ， 调 用 up 函数 将 信号 量 的 值 加 1， 即 重 置 为 初始 值 。 信 和 号 量 有 
下 面 两 种 特性 。 

(1) 又 一 个 进程 试图 进入 关键 代码 段 时 ， 首 先 也 必须 对 信号 量 执行 down 操 作 。 因 为 第 1 个 进程 已 经 
进入 该 代码 段 ， 信 和 号 量 的 值 此 时 为 0。 这 导致 第 2 个 进程 在 该 信号 量 上 “睡眠 ” 换 句 话说 ， 它 会 一 直 
等 待 ， 直 至 第 1 个 进程 退出 相关 的 代码 。 
在 执行 aown 操 作 时 ， 有 一 点 特别 重要 。 即 从 应 用 程序 的 角度 来 看 ， 该 操作 应 视 为 一 个 原子 操作 。 
它 不 能 被 调度 器 调用 中 断 ， 这 意味 着 竞 态 条 件 是 无 法 发 生 的 。 从 内 核 视 角 来 看 ， 查 询 变量 的 值 和 修改 
变量 的 值 是 两 个 不 同 的 操作 ， 但 用 户 将 二 者 视 为 一 个 原子 操作 。 

当 进 程 在 信号 量 上 睡眠 时 ， 内 核 将 其 置 于 阻塞 状态 ,日 与 其 他 在 该 信号 量 上 等 待 的 进程 一 同 放 到 
一 个 等 待 列 表 中 。 

(2) 在 进程 退出 关键 代码 段 时 ， 执 行 up 操作 。 这 不 仅 会 将 信号 量 的 值 加 1 恢复 为 1 )， 而 且 还 会 
择 一 个 在 该 信号 量 上 睡眠 的 进程 。 该 进程 在 恢复 执行 后 ， 完 成 own 操作 将 信和 号 量 减 1〈 变 为 0)， 此 后 
即 可 安全 地 开始 执行 关键 代码 。 
如 果 没 有 内 核 的 支持 ， 这 个 过 程 是 不 可 能 的 ， 因 为 用 户 空间 库 无 法 保证 down 操作 不 被 中 断 。 在 讲 
解 对 应 函数 的 实现 之 前 ， 首 先 必 须 讨 论 内 核 自 身 用 于 保护 关键 代码 段 的 机 制 。 这 些 机 制 是 用 户 程序 使 
和 保护 措施 的 基础 。 

窟 号 量 在 用 户 层 可 以 正常 工作 , 原则 上 也 可 以 用 于 解决 内 核 内 部 的 各 种 锁 问 题 。 但 事实 上 不 是 这 
样 : 性 能 是 内 核 最 首先 的 一 个 目标 ， 虽 然 信号 量 初 看 起 来 容易 实现 ， 但 其 开销 对 内 核 来 说 过 大 。 这 也 
是 内 核 中 提供 了 许多 不 同 的 锁 和 同步 机 制 的 原因 ， 这 些 我 将 在 下 文 讨论 。 


5.2 ”内 核 锁 机 制 


内 核 可 以 不 受 限制 地 访问 整个 地 址 空间 。 在 多 处 理 器 系统 上 《或 类 似 地 ， 在 启用 了 内 核 抢占 的 单 
处 理 器 系统 上 ， 可 参见 第 2 章 )， 这 会 引起 一 些 问 题 。 如 果 几 个 处 理 器 同时 处 于 核心 态 ， 则 理论 上 它们 
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可 以 同时 访问 同一 个 数据 结构 ， 这 刚好 造成 了 前 一 节 讲 述 的 问题 。 

在 第 一 个 提供 了 SMP 功 能 的 内 核 版 本 中 ， 该 问题 的 解决 方案 非常 简单 ， 即 每 次 只 允许 一 个 处 理 器 
处 于 核心 态 。 因 此 ,对 数据 未 经 协调 的 并 行 访问 被 自动 排除 了 。 令 人 遗憾 的 是 ,该 方法 因为 效率 不 高 ， 
很 快 被 废弃 了 。 
现在 ， 内 核 使 用 了 由 锁 组 成 的 细 粒 度 网 络 ， 来 明确 地 保护 各 个 数据 结构 。 如 果 处 理 器 A 在 操作 数 
据 结构 X， 则 处 理 器 B 可 以 执行 任何 其 他 的 内 核 操作 ， 但 不 能 操作 X。 
内 核 为 此 提供 了 各 种 锁 选 项 ， 分 别 优化 不 同 的 内 核 数 据 使 用 模式 。 
口 原子 操作 : 这 些 是 最 简单 的 锁 操 作 。 它 们 保证 简单 的 操作 ， 诸 如 计数 器 加 1 之 类 ， 可 以 不 中 断 
地 原子 执行 。 即 使 操作 由 几 个 汇编 语句 组 成 ， 也 可 以 保证 。 
口 自 旋 锁 : 这 些 是 最 常用 的 锁 选 项 。 它 们 用 于 短期 保护 某 段 代码 ， 以 防止 其 他 处 理 器 的 访问 。 
在 内 核 等 待 自 旋 锁 释 放 时 ,会 重复 检查 是 否 能 获取 锁 ， 而 不 会 进入 睡眠 状态 (0 D D )。 当 然 ， 
如 果 等 等 时 间 较 长 ， 则 效率 显然 不 高 。 
口 信号 量 : 这 些 是 用 经 典 方法 实现 的 。 在 等 竺 信号 量 释 放 时 ， 内 核 进 入 睡眠 状态 ， 直 至 被 唤醒 。 
唤醒 后 ， 内 核 才 重 新 尝试 获取 信号 量 。0 DDU 是 信号 量 的 特例 ， 互 斥 量 保护 的 临界 区 ， 每 次 
只 能 有 一 个 用 户 进 入 。 


































































































































































































































































































































































































































































































口 读者 / 写 者 锁 : 这 些 锁 会 区 分 对 数据 结构 的 两 种 不 同类 型 的 访问 。 任 意 数目 的 处 理 器 都 可 以 对 
数据 结构 进行 并 发 0 访问 ， 但 只 有 一 个 处 理 器 能 进行 写 访问 。 事 实 上 ， 在 进行 写 访问 时 ， 读 


访问 是 无 法 进行 的 。 

以 下 各 节 详 细 讨 论 了 这 些 选项 的 实现 和 使 用 。 这些 锁 的 部 署 遍及 内 核 源 代码 各 处 ， 锁 已 经 成 为 内 
核 开发 一 个 非常 重要 的 方面 ， 无 论 是 基础 的 核心 内 核 代 码 还 是 设备 驱动 程序 。 尽 管 如 此 ， 当 我 在 本 书 
中 讨论 特定 的 内 核 代码 时 ， 大 多 数 情况 下 仍然 会 省 略 锁 操作 ， 除 非 使 用 锁 的 方式 很 不 常见 ， 或 者 锁 有 
特殊 的 功能 需求 需要 满足 。 但 是 , 如 果 锁 很 重要 , 为 什么 在 其 他 章节 中 我 们 要 忽略 内 核 的 这 方面 内 容 ? 
大 多 数 读者 几乎 都 会 认为 本 书 讲解 已 经 非常 详细 了 ， 如 果 再 把 所 有 子 系统 中 与 锁 有 关 的 内 容 加 以 详细 
4 论 ， 则 将 大 大 超出 本 书 的 范围 。 但 更 重要 的 一 点 是 ， 大 多 数 情况 下 ， 讨 论 菜 个 特定 机 制 的 工作 原理 
时 ， 对 镇 的 讨论 将 干扰 那 些 实质 性 的 内 容 ， 并 使 之 复杂 化 。 而 我 的 重点 就 是 向 读者 讲述 这 些 实质 性 的 
内 容 。 

要 完全 理解 锁 的 用 法 ,需要 逐 行 熟悉 所 有 受 锁 影 响 的 内 核 代码 ， 而 本 书 并 没有 详细 讨论 这 部 分 内 
容 , (实际 上 也 D0 DODODDO)。 

Linux 的 源 代 码 很 容易 得 到 ， 书 中 完全 没有 必要 加 入 读者 很 容易 查看 的 内 容 ， 而 且 这 些 内 容 在 
Linux 的 后 续 版 本 中 有 很 多 细节 很 可 能 会 发 生 改 变 。 实 质 上 ， 书 的 作用 在 于 使 读者 牢固 理解 那些 不 于 
么 可 能 改变 的 概念 ， 这 比 复制 源 代码 好 得 多 。 尽 管 如 此 ， 本 章 仍然 会 向 读者 提供 所 有 必要 的 内 容 ， 以 
理解 具体 的 子 系统 如 何 实现 针对 并 发 操作 的 保护 措施 ， 以 及 对 这 些 机 制 的 设计 和 工作 原理 的 六 释 。 读 
者 要 准备 好 投入 源 代码 之 中 ， 阅 读 并 修改 代码 。 


5.2.1 对 整数 的 原子 操作 


内 核定 义 了 atomic_t 数 据 类 型 (在 <asm-arch/atomic.h> 中 )， 用 作对 整数 计数 器 的 原子 操作 的 
基础 。 从 内 核 的 角度 来 看 ， 这 些 操作 的 执行 仿佛 是 一 条 汇编 语句 。 这 里 给 出 一 个 简短 的 例子 ， 将 计数 
器 加 1， 即 足以 说 明 此 类 操作 的 必要 性 。 在 汇编 语言 中 ， 加 1 操作 通常 分 为 3 步 执 行 : 

(1) 将 计数 器 值 从 内 存 复制 到 处 理 器 寄存 器 ; 

(2) 将 其 值 加 1; 
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(3) 将 寄存 器 数据 回 写 到 内 存 。 

如 果 有 男 一 个 处 理 器 同时 执行 该 操作 , 则 会 发 生 问题 。 两 个 处 理 器 同时 从 内 存 读 取 计 数 器 的 值 ( 例 
如 4)， 将 其 加 1 得 到 5， 最 后 将 新 数值 回 写 到 内 存 。 但 如 果 操 作 正 确 ， 内 存 中 的 值 应 该 是 6， 因 为 计数 
器 的 加 1 操作 执行 了 两 次 。 

内 核 支 持 的 所 有 处 理 器 ， 都 提供 了 原子 执行 此 类 操作 的 手段 。 一 般 说 来 ， 可 使 用 特殊 的 锁 指令 
阻止 系统 中 其 他 处 理 器 工作 ， 直 至 当前 处 理 器 完成 下 一 个 操作 为 止 。 也 可 以 使 用 效果 相同 的 等 价 机 
制 。 (0 
为 使 得 内 核 中 平台 独立 的 部 分 能 够 使 用 原子 操作 ， 特 定 于 体系 结构 的 代码 必须 提供 表 5-1 列 出 的 
用 于 操纵 atomic_t 类 型 变量 的 操作 。 在 某 些 系统 上 ， 这 些 操作 与 C 语 言 中 对 应 的 普通 操作 相 比 要 慢 得 
多 ， 因 此 只 有 在 确实 必要 的 情况 下 才能 使 用 这 些 操作 。 
理解 这 些 操 作 的 实现 , 需要 对 各 种 CPU 的 汇编 语言 有 深入 的 了 解 , 我 不 在 这 里 讨论 这 个 主题 了 (每 
种 处 理 器 体系 结构 都 提供 了 特别 的 函数 来 实现 这 些 操 作 )。 


OO i 
longHOOODO0000000000H00U00UDatomic ti 0 


读者 还 应 该 注意 到 ， 原 子 变 量 只 能 借助 于 AroMIC_INIT 宏 初始 化 。 因 为 原子 数据 类 型 最 终 是 用 普 
通 的 C 语 言 类 型 实现 的 ， 内 核 将 标准 类 型 的 变量 封装 在 结构 中 ,它们 不 能 再 用 普通 运算 符 处 理 ， 女 


<asm-arch/atomic.h> 
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++o 



























































typedef struct { volatile int counter; } atomic t; 
表 5-1 原子 操作 
操 作 效果 

atomic read(atomic t *V) 读 取 原子 变量 的 值 
atomic set(atomic t *v, int i) 将 v 设 置 为 i 
atomic add(int i, atomic t *v) 将 i 加 到 v 
atomic adqd return(int i, atomic t *v) 将 i 加 到 v， 并 返回 结果 
atomic subl(int i, atomic 七 *V) 从 vv 减 去 
atomic_sub return(int i, atomic t *v) 从 v 减 去 1， 并 返回 结果 
atomic_sub angd test(int i, atomic t *v) 从 v 减 去 v。 如 果 结 果 为 0 则 返回 trzue， 和 否则 返回 false 
atomic_inc(atomic t *v) 将 v 加 1 
atomic_ inc and test(atomic 七 *V) 将 v 加 1。 如 果 结 果 为 0 则 返回 true， 否 则 返回 false 
atomic dec(atomic t *v) 从 v 减 去 1 
atomic_ dec angd test(atomic 七 *V) 从 v 减 去 1。 如 果 结 果 为 0 则 返回 true， 否 则 返回 false 
atomic adgd negative(int i, atomic t *v) 将 i 加 到 v。 如 果 结 果 小 于 0 则 返回 true， 否 则 返回 false 
atomic add negative(int i, atomic 七 xV) 将 i 加 到 v。 如 果 结 果 为 负 则 返回 true， 否 则 返回 false 








如 果 内 核 编译 时 未 启用 SMP 支 持 ， 则 上 述 操作 的 实现 与 普通 变量 一 样 ( 只 遵守 了 atomic_t 的 封 
装 )， 因 为 没有 其 他 处 理 器 的 干扰 。 












































QD IA-32 系 统 上 所 需 的 指令 实际 上 就 称 作 1lock。 
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内 核 为 SMP 系 统 提供 了 local_t 数 据 类 型 。 该 类 型 允许 在 0 0 CPU 上 的 原子 操作 。 为 修改 此 类 型 














变量 ， 内 核 提 供 了 基本 上 与 atomic_t 数 据 类 型 相同 的 一 组 函数 ， 只 是 将 atomic 蔡 换 为 local。 


















































请 注意 ， 原 子 变 量 很 适合 整数 操作 ， 但 不 适用 于 比特 位 操作 。 因 此 每 种 体系 结构 都 必须 定义 一 组 






































位 处 到 





























操作 ， 这 些 操作 的 工作 方式 也 是 原子 的 ， 以 便 在 SMP 系 统 上 的 各 处 理 器 之 间 保 证 一 致 性 。A.8 
节 概 述 了 可 用 的 位 操作 。 














5.2.2” 自 旋 锁 





00D0 用 























于 保护 短 的 代码 段 ， 其 中 只 包含 少量 C 语 句 ， 因 此 会 很 快 执行 完毕 。 大 多 数 内 核 数据 结 



































构 都 有 自身 的 
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旋 锁 ， 在 处 理 结构 中 的 关键 成 员 时 ， 必 须 获 得 相应 的 自 旋 锁 。 尽 管 目 旋 锁 在 内 核 源 代 


























普遍 存在 ， 但 我 在 本 书 的 大 多 数 代 码 片 段 中 会 略 去 对 自 旋 锁 的 处 理 。 它 们 实际 上 无 法 对 内 核 的 运 





















































作 方 式 提供 有 价值 的 信息 ， 而 且 还 使 代码 难于 阅读 ， 上 文 已 经 说 明 这 一 点 。 尽 管 如 此 ， 重 要 的 是 代码 
要 具备 适当 的 锁 ! 
数据 结构 和 用 法 




















自 旋 锁 通过 spinlock _t 数 据 结构 实现 ,基本 上 可 使 用 spin_lock 和 spin_unlock 操 纵 。 还 有 其 他 





一 些 自 旋 锁 操作 : spin_lock_irqsave 不 仅 获得 自 旋 锁 ， 还 停 用 本 地 CPU 的 中 断 ， 而 spin_lock_bh 
则 停 用 softIRQ 〈 软 中 断 ， 参 见 第 14 章 )。 用 这 两 个 操作 获得 的 自 旋 锁 必 须 用 对 应 的 接口 释放 ， 分 别 是 
spin_unlock_irdqsave 和 spin_unlock_ bnh。 同 样 ， 自 旋 锁 的 实现 也 几乎 完全 是 汇编 语言 〈 与 体系 结 





构 非常 相关 )， 
自 旋 锁 的 
















































































因此 在 这 里 不 讨论 了 。 
法 如 下 : 

















spinlock t lock = SPIN_ LOCK UNLOCKED; 








spin_ lock(&lock); 
/* 临界 区 */ 
spin unlock(&lock); 








初始 化 
面 两 种 情况 。 















































旋 锁 时 ， 必 须 使 用 SPIN_LOCK_UNLOCKED 将 其 设置 为 未 锁定 状态 。spin_1ock 会 考虑 下 
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的 代码 范 目 


















































(1) 如 果 内 核 中 其 他 地 方 尚未 获得 1ock， 则 由 当前 处 理 器 获取 。 其 他 处 理 器 不 能 再 进入 lock 保 护 






































(2) 如 果 1lock 已 经 由 另 一 个 处 理 器 获得 ，spin_lock 进 入 一 个 无 限 循环 ， 重 复 地 检查 1ock 有 是否 






































经 由 spin_unlock 释 放 (0 0D 因此 得 名 )。 如 果 已 经 释放 ， 则 获得 1ock， 并 进入 临界 区 。 
spin_lock 定 义 为 一 个 原子 操作 ， 在 获得 自 旋 锁 的 情况 下 可 防止 竞 态 条 件 出 现 。 


内 核 还 提 
获取 时 不 会 






































供 了 spin_trylock 和 spin_trylock_bh 了 两 种 方法 。 它们 尝试 获取 锁 ， 但 在 锁 无 法 立即 

















日 塞 。 在 锁 操 作成 功 时 ， 它 们 返回 非 零 值 《代码 由 自 旋 锁 保护 )， 和 否则 返回 0。 后 一 种 情况 
下 ， 代 码 0 D 被 锁 保护 。 



































在 使 用 自 旋 锁 时 必须 要 注意 下 面 两 点 。 
(1) 如 果 获 得 锁 之 后 不 释放 ， 系 统 将 变 得 不 可 用 。 所 有 的 处 理 器 《包括 获得 锁 的 在 内 )， 迟 早 需要 







































































进入 锁 对 应 的 临界 区 。 它 们 会 进入 无 限 循环 等 待 锁 释 放 ， 但 等 不 到 。 这 产生 了 D U ， 从 名 称 来 看 ， 这 
是 个 应 该 避免 的 状况 。 












































(2) 自 旋 锁 决 不 应 该 长 期 持 有 ， 因 为 所 有 等 待 锁 释 放 的 处 理 器 都 处 于 不 可 用 状态 ， 无 法 用 于 其 他 
工作 《信和 号 量 的 情形 有 所 不 同 ， 读 者 稍 后 会 看 到 )。 
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在 单 处 理 器 系统 上 ， 自 旋 锁 定义 为 空 操 作 ， 因 为 不 存在 几 个 CPU 同时 进入 临界 区 的 情况 。 但 如 
自用 了 内 核 抢 占 ， 这 种 说 法 就 0 DDD 。 如 果 内 核 在 临界 区 中 被 中 断 ， 而 此 时 另 一 个 进程 进入 临 
区 ， 这 与 SMP 系 统 上 两 个 处 理 器 同时 在 临界 区 执行 的 情况 是 等 效 的 。 通 过 一 个 简单 的 技巧 可 以 防 
这 种 情况 发 生 : 内 核 进 入 到 由 自 旋 锁 保护 的 临界 区 时 ， 就 停 用 内 核 抢 占 。 在 启用 了 内 核 抢占 的 单 
里 器 内 核 中 ，spin_lock (基本 上 ) 等 价 于 preempt_disable， 而 spin_unlock 则 等 价 于 


preempt_enable。 


Og 
| 
yongogoggoorddodgongdgoggogduiugouuu youu 
二 OOD 


最 后 请 注意 ， 内 核 自 身 也 提供 了 一 些 有 关 如 何 使 用 自 旋 锁 的 注 记 ， 请 参见 Documentation/ 
spinlocks .txt。 
5.2.3 ”信号 量 


内 核 使 用 的 信号 量 定 义 如 下 。 用 户 空间 信号 量 的 实现 有 所 不 同 ， 将 在 5.3.2 节 讲述 。 


<asm-arch/semaphore.h> 
struct semaphore { 
atomic tt count; 

































































































































































痛 后 温 泪 




























































































int sleepers; 
wait_ queue head t wait; 


过 
尽管 该 结构 定义 在 体系 结构 相关 的 头 文 件 中 ， 但 大 多 数 体 系 结构 都 使 用 了 这 里 给 出 的 结构 。 
口 count 指 定 了 可 以 同时 处 于 信号 量 保 护 的 临界 区 中 进程 的 数目 。count == 1 用 于 大 多 数 情况 
(此 类 信号 量 勾 名 [0 口 信号 量 ， 因 为 它们 用 于 实现 0 0 )。 
口 sleepers 指 定 了 等 待 允许 进入 临界 区 的 进程 的 数目 。 不 同 于 自 旋 锁 ， 等 待 的 进程 会 进入 睡眠 
状态 ， 直 至 信和 号 量 释 放 才 会 被 唤醒 。 这 意味 着 相关 的 CPU 在 同时 可 以 执行 其 他 任务 。 
口 wait 用 于 实现 一 个 队列 ， 保 存 所 有 在 该 信号 量 上 睡眠 的 进程 的 task_struct (第 14 章 讲述 了 
相关 的 底层 机 制 )。 
与 自 旋 锁 相 比 ， 信 号 量 适合 于 保护 更 长 的 临界 区 ， 以 防止 并 行 访问 。 但 它们 不 应 该 用 于 保护 较 短 
的 代码 范围 ， 因 为 竞争 信号 量 时 需要 使 进程 睡眠 和 再 次 唤醒 ， 代 价 很 高 。 
大 多 数 情况 下 , 不 需要 使 用 信和 号 量 的 所 有 功能 ,只 是 将 其 用 作 互 斥 量 , 这 不 过 是 一 种 二 值 信号 量 。 
为 简化 代码 书写 ， 内 核 提 供 了 DECLARE_MUTEX 宏 ， 可 以 声明 一 个 二 值 信号 量 ， 初 始 情况 下 未 锁定 ， 而 
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COUnt = .Ls S 


DECLARE _ MUTEX (mutex) 














A CRI ey 

/* 临界 区 */ 

up(&mutex); 

在 进入 临界 区 时 ， 用 down 对 使 计数 器 减 1。 在 计数 器 为 0 时 ， 其 他 进程 不 能 进入 临界 

在 试图 用 aown 获 取 D DODD 的 信号 量 时 ， 当 J E 肛 ， 并 放置 在 与 该 信号 量 关联 的 等 待 B 
列 上 。 同 时 ， 该 进程 被 置 于 TASK_UNINTERRUPTIBLE 状 态 ， 在 等 待 进入 临界 区 的 过 程 中 无 法 接收 信号 。 
如 果 信 号 量 没有 分 配 ， 则 该 进程 可 以 立即 获得 信号 量 并 进入 到 临界 区 ， 而 不 会 进入 睡眠 。 

在 退出 临界 区 时 ， 必 须 调 用 up。 该 例 程 负 责 唤 醒 在 信号 量 睡 眠 的 某 个 进程 ， 该 进程 然后 允许 进入 
临界 区 ， 而 所 有 其 他 等 待 的 进程 继续 睡眠 。 
除了 qdovwm 操 作 之 外 ,， 还 有 两 种 其 他 的 操作 用 于 获取 信和 号 量 〈 不 同 于 自 旋 锁 ， 在 退出 信号 量 保护 的 
临界 区 时 ， 只 有 up 函数 可 用 )。 
口 down_interruptible 工 作 方 式 与 gown 相 同 ， 但 如 果 无 法 获得 信号 量 ， 则 将 进程 置 于 
TASK_INTERRUPTIBLE 状 态 。 因 此 ， 在 进程 睡眠 时 可 以 通过 信号 唤醒 。® 
口 down_trylock 试 图 获取 信号 量 。 如 果 失 败 ， 则 进程 不 会 进入 睡眠 等 待 信号 量 ， 而 是 继续 正常 
执行 。 如 果 获 取 了 信和 号 量 ， 则 该 函数 返回 false 值 ， 否 则 返回 true。 
除了 只 能 用 于 内 核 的 互 斥 量 之 外 , Linux 也 提供 了 所 谓 的 futexCODODDDOODDODOD ,fastuserspace 
mnutex )， i 它 为 用 户 空间 进程 提供 了 互 斥 量 功能 。 但 必须 确保 其 使 用 和 
操作 尽 可 能 快速 并 高 效 。 为 节省 空间 ， 我 略 去 了 对 futex 实 现 的 讲述 ， 而 且 它 们 对 内 核 自身 也 不 是 特别 
重要 。 更 多 信息 请 。 


5.2.4 RCU 机 制 


RCU (read-copy-update) 是 一 个 相当 新 的 同步 机 制 ， 在 内 核 版 本 2.5 开 发 期 间 被 添加 ， 并 有 旦 非常 顺 
利 地 被 内 核 社 区 接纳 。 现 在 它 的 使 用 已 经 遍及 内 核 各 处 。RCU 的 性 能 很 好 , 不 过 对 内 存 有 一 定 的 开销 ， 
晶 大 多 数 情况 下 可 以 忽略 。 这 是 个 好 事情 ， 但 好 事 总 伴随 着 一 些 不 那么 好 的 事情 。 下 面 是 RCU 对 潜在 
使 用 者 提出 的 一 些 约束 。 

口 对 共享 资源 的 访问 在 大 部 分 时 间 应 该 是 只 读 的 ， 写 访问 应 该 相对 很 少 。 
口 在 RCU 保 护 的 代码 范围 内 ， 内 核 不 能 进入 睡眠 状态 。 
口 受 保护 资源 必须 通过 指针 访问 。 

RCU 的 原理 很 简单 : 该 机 制 记 录 了 指向 共享 数据 结构 的 指针 的 所 有 使 用 者 ,在 该 结构 将 要 改变 时 ， 
则 首先 创建 一 个 副本 或 一 个 新 的 实例 ， 填 充 适 当 的 内 容 ， 这 没什么 差别 )， 在 副本 中 修改 。 在 所 有 
进行 读 访问 的 使 用 者 结束 对 旧 副 本 的 读 取 之 后 ， 指 针 可 以 替换 为 指向 新 的 、 修 改 后 副本 的 指针 。 请 注 
意 ， 这 种 机 制 允许 读 写 并 发 进行 ! 

1. 核心 API 

假定 指针 ptr 指 向 一 个 被 RCU 保 护 的 数据 结构 。 直 接 反 引用 指针 是 禁止 的 ， 首 先 必须 调用 
rcu_dereference (ptr)， 然 后 反 引 用 返回 的 DD 吕 。 此 外 ， 反 引用 指针 并 使 用 其 结果 的 代码 ， 需 要 用 
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Q@ 要 注意 , 较 早 的 内 核 版 本 也 提供 了 DECLARE_MUTEX_LOCKED 宏 ， 可 以 初始 化 一 个 已 经 锁定 的 信号 量 , 该 变 体 在 内 核 
2.6.24 开 发 期 间 被 删除 了 。 因 为 它 所 适用 的 操作 ， 可 以 通过 D 0D 口 (completion〉 更 好 地 实现 ， 我 将 在 14.4 节 讲述 。 
@ 如 果 获 取 了 信和 号 量 ， 该 函数 将 返回 0。 如 果 处 理 过 程 被 信号 中 断 而 没有 获得 信号 量 ， 则 返回 -EINTR。 
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rcu_read lock 和 rcu_read_unlock 调 用 保护 起 来 : 


rcu_read_ lock(); 

p = rcu dereference (ptr); 

if (p != NULL) { 
awesome_function(p); 


} 


rcu_read unlock(); 


加 加 轩辕  eeel exene( yl raev easel vatexee( 
器 加 是 上 OODDO00D 


如 果 必 须 修改 ptr 指 向 的 对 象 ， 则 需要 使 用 rcu_assign_pointer: 


struct super_ duper *new_ ptr = kmalloc(...); 





























new_ptr->meaning = xyz; 
new_ptr->of = 42; 
new_ptr->life = 23; 


rcu_ assign pointer (ptr, new ptr); 


按 RCU 的 术语 ， 该 操作 [0 口 了 这 个 指针 ， 后 续 的 读 取 操作 将 看 到 新 的 结构 ， 而 不 是 原来 的 。 


加 加 汪汪 汪汪 
Rug 
和 


在 新 值 已 经 公布 之 后 ， 旧 的 结构 实例 会 怎么 样 呢 ? 在 所 有 的 读 访问 完成 之 后 ， 内 核 可 以 释放 该 内 
存 ， 但 它 需 要 知道 何 时 释放 内 存 是 安全 的 。 为 此 ，RCU 提 供 了 另外 两 个 函数 。 

口 synchronize_rcu() 等 待 所 有 现存 的 读 访 问 完 成 。 在 该 函数 返回 之 后 ， 释 放 与 原 指针 关联 的 
内 存 是 安全 的 。 
口 call_rcu 可 用 于 注册 一 个 函数 ， 在 所 有 针对 共享 资源 的 读 访问 完成 之 后 调用 。 这 要 求 将 一 个 
zcu_head 实 例 矢 入 《〈 不 能 通过 指针 ) 到 RCU 保 护 的 数据 结构 : 

struct super_ duper { 


struct rcu head head; 
int meaning, of, life; 









































































































































en: 
该 回调 函数 可 通过 参数 访问 对 象 的 rcu_head 成 员 ， 进 而 使 用 container_of 机 制 访问 对 象 本 身 。 


kernel/rcupdate.c 
void fastcall call_rcul(lstruct rcu_head *head, 
void (*func) (struct rcu_ head *rcu)) 








2. 链表 操作 

RCU 能 保护 的 , 不 仅仅 是 一 般 的 指针 。 内 核 也 提供 了 标准 函数 , 使 得 能 通过 RCU 机 制 保护 双 链 表 ， 
这 是 RCU 机 制 在 内 核 内 部 最 重要 的 应 用 。 此 外 ， 由 struct hlist_head 和 struct hlist_node 组 成 的 
散 列 表 也 可 以 通过 RCU 保 护 。 

有 关 通 过 RCU 保 护 的 链表 ， 好 消息 是 仍然 可 以 使 用 标准 的 链表 元 素 。 只 有 在 遍历 链表 、 修 改 和 删 
除 链 表 元 素 时 ,必须 调用 标准 函数 的 RCU 变 体 。 函数 名 称 很 容易 记 住 : 在 标准 函数 之 后 附加 _rcu 后 级 。 
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<list.h> 
static inline void list adqd rcul(struct list head *new, struct list head *head) 
static inline void list adqd tail rcul(struct list head *new, 
struct list_head *head) 
static inline void list del rcul(struct list head *entry) 
static inline void list_ replace rcul(struct list head *old, 
struct list_ head *new) 


口 1ist_adq_rcu 将 新 的 链表 元 素 new 添 加 到 表 头 为 head 的 链表 头 部 ， 而 1ist_adq_tail_rcu 将 
其 添加 到 链表 尾部 。 
口 list_replace_rcu 将 链表 元 素 old 蔡 换 为 new。 
口 list_qel_rcu 从 链表 删除 链表 元 素 entry。 
最 重要 的 是 ，1ist_for_each_rcu 人 允许 损 历 链 表 的 所 有 元 素 。 而 1ist_for_each_rcu_safe 甚 至 
对 于 删除 链表 元 素 也 是 安全 的 。 
D00000000000rcv read lock()D rcu_read_unlock()0UDD 

请 注意 ， 内 核 提 供 了 大 量 有 关 RCU 的 文档 ， 由 该 机 制 的 创作 者 撰写 。 文 档 位 于 Documentation/ 
RCU 目 录 , 读 起 来 很 有 趣 。 特别 地 , 它 不 像 内 核 中 许多 其 他 文档 那样 过 时 。 该 文档 不 仅 提 供 了 有 关 RCU 
的 实现 方式 ， 还 进一步 介绍 了 本 书 没有 讲解 的 一 些 标准 函数 (这 些 函 数 在 内 核 中 不 经 常 使 用 )。 


5.2.5 “内存 和 优化 屏障 


现代 编译 器 和 处 理 器 试图 从 代码 中 “压榨 ”出 每 一 点 性 能 ， 读 者 当然 会 认为 这 是 好 事情 。 但 类 似 

于 每 一 件 好 事情 ， 我 们 同样 需要 考虑 其 缺点 (前 面 也 有 类 似 的 情况 )。 一 个 有 利于 提高 性 能 的 技术 是 

旧 令 上 上 。 只 要 结果 不 变 ， 这 完全 没有 问题 。 但 编译 器 或 处 理 器 很 难 判 定 重 排 的 结果 是 否 确 实 与 代码 

原本 的 意图 匹配 ， 特 别 是 需要 考虑 副 效应 的 时 候 ， 因 此 这 种 事情 机 器 很 自然 不 是 人 的 对 手 。 但 在 数据 

写 入 IO 寄存 器 时 ， 副 效应 是 常见 且 必 要 的 。 

尽管 锁 足 以 确保 0 口 D ， 但 对 编译 器 和 处 理 器 优化 过 的 代码 ， 锁 不 能 永远 保证 D 口 正确 。 与 竞 态 

条 件 相 比 ， 这 个 问题 不 仅 影响 SMP 系 统 ， 也 影响 单 处 理 器 计算 机 。 

内 核 提 供 了 下 面 几 个 函数 ， 可 阻止 处 理 器 和 编译 器 进行 代码 重 排 。 

口 mb()、zrmb()、vwmb() 将 硬件 内 存 屏障 插入 到 代码 流程 中 。zmb() 是 000000 。 它 保证 
在 屏障 0 口 发 出 的 任何 读 取 操作 执行 之 前 ， 屏 障 0 口 发 出 的 所 有 读 取 操 作 都 已 经 完成 。 wmb 
适用 于 写 访 问 ， 语 义 与 rmb 类 似 。 读 者 应 该 能 猜 到 ，mb () 合 并 了 二 者 的 语义 。 

口 barrier 插 入 一 个 口 口 屏障 。 该 指令 告知 编译 器 ， 保 存在 CPU 寄存 器 中 、 在 屏障 之 前 有 效 的 所 
有 内 存 地 址 ， 在 屏障 之 后 都 将 失效 。 本 质 上 ， 这 意味 着 0 0 0 在 屏障 之 前 发 出 的 读 写 请 求 完 
成 之 前 ， 不 会 处 理 屏 障 之 后 的 任何 读 写 请 求 。 

DCPUUDOOOOOODOD 

口 smb_mb() 、smp_rmb() 、smp_wmb() 相 当 于 上 述 的 硬件 内 存 屏 障 ， 但 只 用 于 SMP 系 统 。 它 们 

在 单 处 理 器 系统 上 产生 的 是 软件 屏障 。 

口 read_pbarrier_depends () 是 一 种 特殊 形式 的 读 访 问 屏 障 ， 它 会 考虑 读 操 作 之 间 的 依赖 性 。 如 
果 屏 障 0 0 的 读 请 求 ， 依 赖 于 屏障 0 0 执行 的 读 请 求 的 数据 ， 那 么 编译 器 和 硬件 都 不 能 重 排 
这 些 请 求 。 

请 注意 : 上 文 给 出 的 所 有 命令 都 会 影响 运行 时 的 性 能 。 这 是 很 自然 的 ， 与 开启 优化 时 相 比 ， 停 用 
优化 后 程序 的 速度 会 减 慢 ， 这 也 是 优化 代码 的 目的 所 在 。 大 多 数 读者 都 会 同意 ， 运 行 稍 慢 但 工作 正确 
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的 代码 ， 比 快 而 出 错 的 代码 要 好 。 

优化 屏障 的 一 个 特定 应 用 是 内 核 抢占 机 制 。 要 注意 ，preempt_disable 对 抢占 计数 器 加 1 因而 停 
用 了 抢占 ，preempt_enable 通 过 对 抢占 计数 器 减 1 而 再 次 启用 抢占 。 这 两 个 命令 之 间 的 代码 ， 可 免 受 
抢占 的 影响 。 看 一 看 下 列 代码 : 

preempt_disable(); 

function which must_not_ be preempted(); 

preempt_enable(); 

如 果 编 译 器 决定 将 代码 重新 排序 如 下 ， 那 么 就 相当 麻烦 了 : 

function which must_not_ be preempted(); 

preempt_disable(); 

preempt_enable(); 

另 一 种 可 能 的 重 排 同样 有 问题 : 

preempt_disable(); 

preempt_enable(); 

function which must_not_ be preempted(); 

这 上 述 两 种 情况 下 ,不 可 抢占 的 部 分 0 0 变 得 可 抢占 。 因 此 ，preempt_disable 在 抢占 计数 器 加 
1 之 后 插入 一 个 内 存 屏障 : 

<preempt.h> 

#define preempt_ disable() \ 

do{\ 

inc_ preempt_count(); \ 
barrier(); \ 

} while (0) 

这 防止 了 编译 器 将 inc_preempt_count () 与 后 续 的 语句 交换 位 置 。 同 样 ，preempt_enable 必 须 
在 再 次 启用 抢占 之 前 插入 一 个 优化 屏障 : 

<preempt.h> 

#define preempt_ enable() \ 

do {\ 

| barrier(); \ 

preempt_check_ resched(); \ 

} while (0) 

这 种 措施 可 以 防止 上 文 给 出 的 第 三 种 错误 的 重 排 。 

到 现在 为 止 讨 论 的 所 有 屏障 命令 ， 只 要 包含 了 <system.h> 就 可 以 使 用 。 读 者 可 能 觉得 内 存 屏障 
使 用 起 来 很 复杂 ， 确 实 是 这 样 ， 正 确 使 用 内 存 和 优化 屏障 需要 高 度 的 技巧 。 因 此 应 该 注意 到 ， 一 些 
核 维护 者 不 怎么 喜欢 内 存 屏障 ， 使 用 该 特性 的 代码 很 难 进 入 到 内 核 的 主流 版 本 中 。 因 此 ， 首 先 试 着 看 
一 下 是 否 能 够 在 没有 屏障 的 情况 下 完成 工作 ， 永 远 是 值得 的 。 这 是 可 能 的 ， 因 为 在 许多 体系 结构 上 锁 
指令 也 相当 于 内 存 屏 障 。 但 这 需要 根据 使 用 内 存 屏障 的 具体 实例 来 确认 ， 而 无 法 提供 一 般 性 的 建议 。 
5.2.6 读者/ 写 者 锁 

上 述 的 各 个 机 制 有 一 种 不 利 情况 。 它 们 没有 区 分 数据 结构 的 读 写 访 问 。 通 常 ， 任 意 数 目的 进程 都 
可 以 并 发 读 取 数 据 结构 ， 而 写 访问 具 能 限于 一 个 进程 。 

因此 内 核 提 供 了 额外 的 信号 量 和 自 旋 锁 版 本 ， 考 虑 到 上 述 因素 ， 分 别称 之 为 读者 / 写 者 信号 量 和 
读者 / 写 者 自 旋 锁 。 


























288 0U05sS0 0000000 





读者 / 写 者 自 旋 锁 定义 为 rwlock_t 数 据 类 型 。 
口 进程 对 临界 区 进行 1 























必须 根据 读 写 访问 ， 以 不 同 的 方法 获取 锁 。 





























门 会 停 用 软件 中 断 ， 
































5.2.7 大 内 核 锁 





会 允许 任意 数目 的 


读 / 写 信号 量 的 用 法 类 
获取 对 临界 区 的 读 访 问 。 写 访问 借助 于 
用 ， 其 运作 方式 同上 述 。 




















以 。 所 















































这 是 内 核 锁 遗迹 之 一 ， 它 可 以 锁定 整个 内 核 ， 
DD (big kernellock)， 通 常用 缩写 表示 
使 用 lock_kernel1 可 锁定 整个 内 核 





BKL 的 一 个 特性 














器 能 够 进入 。 


尽管 BKL 在 内 核 














生 是 ， 它 的 锁 深 度 也 


UD 


仍然 有 1 





卖 访问 时 ， 在 进入 和 离开 时 需要 分 别 执行 read_lock 和 read_unlock。 内 核 
读 进 程 并 发 访问 临界 区 。 
口 write_lock 和 write_unlock 用 于 写 访问 。 
处 于 临界 区 中 。 
_irad_irqsave 变 体 也 同样 可 用 ， 运 





内 核 保证 只 有 一 个 写 进程 (此 时 没有 读 进程 ) 能 够 





























作 方式 如 同 普通 的 自 旋 锁 。 以 _bph 结 尾 的 变 体 也 是 可 用 的 。 它 
但 硬件 中 断 仍 然 是 启用 的 。 
用 的 数据 结构 是 struct rw_semaphore，down_read 和 up_read 用 于 























Faown_write 和 up_write 进 行 。_trylock 变 体 对 所 有 命令 都 可 
































确保 没有 处 理 器 在 核心 态 并 行 运行 。 该 锁 称 为 口 口 

















<S， 即 BKL 。 

， 对 应 的 解锁 使 用 unlock kernel。 
会 进行 计数 。 这 意味 着 在 内 核 已 经 锁定 时 ， 仍 然 可 以 调用 
lock_kerne1。 对 应 的 解锁 操作 〈unlock_kernel) 必须 调用 同样 的 次 数 ， 以 解锁 内 核 ， 使 其 他 处 理 





















































000 多 处 ， 但 它 已 



































因为 从 性 能 和 可 伸缩 
面 描述 的 细 粒 度 锁 
种 情形 : 


lib/kernel_lock.c 
































* lib/kernel_ 





缩 性 的 角度 来 看 ，BKL 人 简直 是 
。 尽 管 如 此 ，BKL 仍然 会 存在 若干 年 才能 最 终 消 失 。 2 内核 源 代 码 很 好 地 概述 了 这 

















Eee 


这 是 传统 的 BKL， 大 内 核 锁 。 





但 一 些 次 要 (或 微 惰 ) 的 子 系统 仍然 在 使 


/ 


* 基本 上 已 经 降级 到 废弃 状态 ， 











己 经 是 过 时 的 概念 ， 内 核 开 发 者 废弃 了 对 它 的 使 用 。 
个 灾难 。 新 的 代码 0D0D0 使 用 BKL， 而 应 该 采用 上 



























































请 注意 ，SMP 系 统 和 启用 了 
抢占 大 内 核 锁 ， 我 不 会 进一步 讨 
正确 对 策 ， 只 能 作为 应 急 措 施 和 




















5.2.8” 互 斥 量 
尽管 信号 量 可 用 
























































内 核 抢占 的 单 处理 器 系统 如 果 设 置 了 配置 选项 PREEMPT_BKL， 则 允许 
论 该 机 制 。 尽 管 这 有 助 于 降低 内 核 延迟 ， 但 它 并 非 BKL 产 生 的 问题 的 


















































临时 解决 方案 ， 在 可 能 的 范围 内 做 到 比较 好 。 












































于 实现 互 斥 量 的 功能 ， 信 和 号 量 的 通用 性 导致 的 开销 通常 是 不 必要 的 。 因 此 ， 内 核 


包含 了 一 个 专用 互 斥 量 的 独立 实 


























0 


1. 经 典 的 互 斥 量 
经 典 互 斥 量 的 基本 数据 乡 




















G@ 在 内 核 版 本 2.6.26 








理 过 程 。 








发 期 间 ， 建 立 





























现 ， 它 们 不 依赖 信号 量 。 或 确切 地 说 ， 内 核 包 含 互 斥 量 的 两 种 实现 。 
另 一 种 是 用 来 解决 优先 级 反 转 问题 的 实时 互 斥 量 。 我 在 下 文 会 讨论 这 两 种 方法 。 


吉 构 定义 如 下 : 


























一 个 特殊 的 内 核 树 ， 

















其 目的 就 是 加 速 BKL 的 清除 ,该 措施 很 有 希望 加 快 BKL 的 清 
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<mutex.h> 

struct mutex { 
/* 1: 未 锁定 ，0: 
atormic 七 
spinlock 七 
struct list_head 


锁 


}3 











概念 相当 简单 : 如 果 互 斥 量 未 锁定 ， 则 count 为 1。 锁 定 分 为 





负 值 : 锁定 ， 
Gount; 
wait_lock; 
wait_list; 


定 ， 



































种 情况 。 如 果 只 有 一 个 进程 在 
























































互 斥 量 ， 则 count 设 置 为 0。 如 果 互 斥 量 被 锁定 ， 而 且 有 进程 在 等 待 互 斥 量 解锁 
待 进程 )， 则 count 为 负 值 。 这 种 特殊 处 理 有 助 于 加 快 代 码 的 执行 速度 ， 
程 在 互 斥 量 上 等 待 。 

有 两 种 方法 定义 新 的 互 斥 量 。 

(1) 静态 互 斥 量 可 以 在 编译 时 通过 使 用 DEFITNE_MUTEX 产 生 
基于 信号 量 的 互 斥 量 )。 

(2) mutex_init 在 运行 时 动态 初始 化 一 个 新 的 互 斥 量 。 


该 函数 尝试 获取 互 斥 量 


的 互 斥 量 是 否 锁定 。 


RT_MUTEX 显 式 启 


了 一 个 互 斥 量 ， 
不 入， 进程 A 也 试图 


















































mutex_lock 和 mutex_unlock 分 别 用 于 锁定 和 解锁 互 斥 量 



































2. 实时 互 斥 量 





。 如 果 互 斥 量 已 经 锁定 ， 则 立即 返 








口 




















(不 要 与 DECLARI 











使 用 


(在 解锁 时 需要 唤醒 等 



































实时 互 斥 量 是 内 核 文 持 的 号 











种 形式 的 互 斥 





里 












































考虑 一 种 


]。 与 普通 的 互 斥 各 
用 于 解决 (或 在 最 低 限 度 上 缓解 )0DD 








0 0 的 影 























正在 所 保护 的 临界 























获取 保护 临界 区 的 互 斥 量 。 





区 中 运行 ， 且 在 短 时 











于 进程 C 
































这 导致 高 

如 果 有 第 3 个 进程 B， 优 先 级 介 于 进程 A 和 进程 C 之 间 ， 情 况 会 
进程 A 在 等 待 。 
岂 抢占 了 进程 A， 尽 管 进程 A 的 优先 级 高 
长 时 间 ， 因 








CL 先 级 的 进程 A 等 待 低 优 9 














E 级 的 进程 C。 























































































































现在 进程 B 





























为 进程 C 被 进程 B 抢 占 ， 









































进程 持 有 ， 那 么 进程 C 的 优 9 


运行 ， 只 能 得 至 





于 进程 A 一 样 。 这 种 粳 糕 的 情况 称 为 DUODODD 














该 问题 可 以 通过 优先 级 继承 解 





























和 
台 运 行 。 


E 级 (在 我 们 的 例子 中 ) 临 
| 与 进程 A 竞争 情况 下 的 CPU 时 间 ， 从 而 理 顺 了 优先 

















由 于 它 的 优先 级 高 于 进程 C， 



































所 以 它 只 能 更 慢 地 完成 其 操作 。 


更 加 糟糕 。 假 定 进程 C 
对 此 可 以 抢占 进程 C。 


















































决 。 





如 果 高 优先 级 进程 阻塞 在 互 斥 量 上 ， 该 互 斥 量 当 前 





















































实时 互 斥 量 的 定义 非常 接近 于 普通 互 斥 量 : 


<rtmutex.h> 

struct rt mutex { 
spinlock t wait_] 
struct plist head 











lock; 


wait_list; 


struct task_struct *owner; 


} 














斥 量 的 所 有 者 通过 owner 指 定 ，wait_lock 提 供 实际 的 保护 。 所 有 
排队 。 与 普通 互 斥 量 相 比 ， 决 定性 的 改变 是 等 待 列表 中 的 进程 按 优 # 





级 的 问题 。 





AAA 
尘 舒 

















因为 在 通常 情况 下 ， 不 会 有 进 


而 进程 A 必 须 等 





E_MUTEX 混 淆 ， 后 者 是 


此 外 内 核 也 提供 了 mutex_trylock， 
。 最 后 ，mutex_trylock 可 用 于 检查 给 定 


它们 需要 在 编译 时 通过 配置 选项 cONFIG_ 
旦 相 比 ， 它 们 实现 了 0 00DDD (priority inheritance)， 该 特性 可 
向 。 二 者 在 大 多 数 操作 系统 教科 书 中 一 般 者 
青 况 ， 系 统 上 有 两 个 进程 运行 : 进程 A 优 先 级 高 ， 进 





5 有 讨论 。 
程 C 优 先 级 低 。 假 定 进程 C 已 经 获取 
间 内 不 打算 退出 。 但 在 进程 C 进 入 临界 区 之 后 
已 经 获取 该 互 斥 量 ， 因 


待 。 


仍然 持 有 锁 ， 
但 它 实 际 上 
F 进程 B。 如 果 进 程 B 继 续 运 行 ， 那 么 它 可 以 让 进程 A 等 竺 更 
因此 看 起 来 仿佛 进程 B 的 优先 级 高 


DD (unbounded priority inversion ) 。 








低 优 先 级 
时 提高 到 进程 A 的 优先 级 。 如 果 进 程 B 现 在 开始 





的 进程 都 在 wait_list 
E 级 排序 。 在 等 待 列表 改变 时 ， 
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内 核 可 相应 地 校正 锁 持 有 者 的 优先 级 。 这 需 te 个 接口 ， 可 由 函数 rt_mutex_setprio 提 
供 。 该 函数 更 新 动态 优先 级 task_struct->prio， 而 普通 优先 级 task_struct->normal_priority 
































不 变 。 如 果 读 者 对 这 些 术语 不 清楚 ， 可 以 参考 第 2 章 对 调度 器 的 讨论 。 








此 外 ， ne (rt mutex init、 rt mutex lock、 rt mutex unlock、 























rt_mutex_trylock)， 工 作 方 式 与 普通 互 斥 量 完全 相同 ， 不 需要 进一步 讨论 。 
5.2.9 近似 的 perCPU 计 数 器 











如 果 系 统 安装 有 大 量 CPU, 计数 器 可 能 成 为 瓶颈 : 每 次 只 有 一 个 CPU 可 以 修改 其 值 ; 所 有 其 他 CPU 






































都 必须 等 待 操作 结束 ， 才 能 再 次 访问 计数 器 。 如 果 计 数 器 频繁 访问 ， 则 会 严重 影响 系统 性 能 。 











证 台 已 











对 某 些 计数 器 ， 没 有 必要 时 时 了 解 其 准确 的 数值 。 这 种 计数 器 的 近似 值 与 准确 值 ， 作 用 上 没什么 



































差别 。 可 以 利用 这 种 情况 ， 引 入 所 谓 的 per-CPU 计 数 器 ， 来 加 速 SMP 系 统 上 计数 器 的 操作 


互 



































如 图 $-1 所 示 : 计数 器 的 准确 值 存储 在 内 存 中 某 处 ， 准 确 值 所 在 内 存 位 置 之 后 是 一 个 数组 ， 
对 应 于 系统 中 的 一 个 CPU 。 






































per-CPU 值 











图 5-1 近似 perCPU 计 数 器 的 数据 结构 
































基本 思想 
每 个 数组 项 


TI 
o 


如 果 一 个 处 理 器 想 要 修改 计数 器 的 值 (加 上 或 减 去 某 个 值 n)， 它 不 会 直接 修改 计数 器 的 值 ， 因 为 
这 需要 防止 其 他 的 CPU 访问 计数 器 〈 这 是 一 个 费时 的 操作 )。 相 反 ， 所 需 的 修改 将 保存 到 与 计数 器 相 
关 的 数组 中 特定 于 当前 CPU 的 数组 项 。 举 例 来 说 ， 如 果 计 数 器 应 该 加 3， 那 么 数组 中 对 应 的 数组 项 为 
+3。 如 果 同 一 个 CPU 在 其 他 时 间 需 要 从 计数 器 减 去 某 个 值 ( 假 定 是 5)， 它 也 不 会 对 计数 器 直接 操作 ， 





















































而 是 操作 数组 中 特定 于 CPU 的 项 : 将 3 减 去 S$， 新 值 为 -2。 任 何 处 理 器 读 取 计 数 器 值 时 ， 都 不 是 完全 准 
确 的 。 如 果 原 值 为 1 35， 在 经 过 前 述 的 操作 之 后 应 该 是 13， 但 仍然 是 15。 如 果 只 需要 大 致 了 解 计数 器 的 
































值 ，13 也 算得 上 是 15 的 一 个 比较 好 的 近似 了 。 











如 果 某 个 特定 于 CPU 的 数组 元 素 修改 后 的 绝对 值 超出 某 个 阔 值 ， 则 认为 这 种 修改 有 问题 ， 将 随 之 






























































修改 计数 器 的 值 。 在 这 种 情况 下 ， 内 核 需要 确保 通过 适当 的 锁 机 抽 
少 发 生 ， 因 此 锁 操作 的 代价 将 不 那么 重要 了 。 



































来 保护 这 次 访问 。 由 于 这 种 改变 很 














只 要 计数 器 改变 适度 ， 这 种 方案 中 读 操 作 得 到 的 平均 值 会 相当 接近 于 计数 器 的 准确 
内 核 借助 于 下 列 数据 结构 实现 per-CPU 计 数 器 : 


<percpu_counter.h> 

struct Percpu_counter { 
spinlock t lock; 
long count; 
long *counters; 





由 




















值 。 
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count 是 计数 器 的 准确 值 ，Lock 是 一 个 自 旋 锁 ， 用 于 在 需要 准确 
中 各 数组 项 是 特定 于 CPU 的 ， 该 数组 缓存 了 对 计数 器 的 操作 。 
触发 计数 器 修改 的 阔 值 依赖 于 系统 中 CPU 的 数目 ; 


<percpu_counter.h> 
#if NR_CPUS >= 16 
#define FBC_ BATCH (NR_CPUS*2) 
#else 
#define FBC_ BATCH 
#endif 


下 列 函 数 可 以 用 来 修改 近似 per-CPU 计 数 器 : 


<percpu_counter.h> 
static inline void percpu counter add(struct percpu counter *fbc, s64 amount) 
static inline void percpu counter decl(struct percpu counter *fbc) 
static inline s64 percpu counter_ suml(struct percpu counter *fbc) 
static inline void percpu counter set(struct percpu counter *fbc, s64 amount) 
static inline void percpu counter _ inc(struct percpu counter *fbc) 
static inline void percpu counter dev(struct percpu counter *fbc) 


口 percpu_counter_agg 用 于 对 计数 器 增加 或 减少 指定 的 值 。 如 果 积 累 的 改变 超过 FBC_BATCH 给 
出 的 立 值 ， 则 修改 会 传播 到 计数 器 的 准确 值 。 

口 percpu_counter_read 读 取 计 数 器 的 当前 值 ， 而 不 考虑 各 个 CPU 所 进行 的 改动 。 

口 percpbu_counter_inc 和 percpu_counter_inc 分 别 用 于 对 近似 计数 器 加 1 和 减 1， 是 两 个 快捷 
口 percpu_counter_set 将 计数 器 设置 为 特定 值 。 
口 percpu_counter_sum 计 算计 数 器 的 准确 值 。 


5.2.10” 锁 竞争 与 细 粒 度 锁 


在 讨论 过 内 核 提 供 的 大 量 锁 原 语 之 后 ,我 们 简要 地 阐述 一 些 与 锁 和 内 核 可 伸缩 性 有 关 的 问题 。 尽 
管 10 年 前 普通 用 户 对 多 处 理 器 系统 几乎 一 无 所 知 ， 但 现在 每 台 桌 面 计算 机 几乎 都 是 多 处 理 器 系统 。 因 
此 ，Linux 在 多 CPU 系统 上 的 可 伸缩 性 已 经 成 为 一 个 非常 重要 的 目标 。 在 对 内 核 代 码 设计 锁 规 则 时 ， 特 
别 需 要 考虑 这 个 问题 。 锁 需要 满足 下 面 两 个 目的 ， 不 过 二 者 通常 很 难 同 时 实现 。 

(1) 必须 防止 对 代码 的 并 发 访问 ， 否 则 将 导致 失败 。 

(2) 对 性 能 的 影响 必须 尽 可 能 小 。 

对 于 内 核 频繁 使 用 的 数据 ， 同 时 满足 这 两 个 要 求 是 非常 复杂 的 。 考虑 一 个 经 常 访问 的 非常 重要 的 
数据 结构 ， 内 存 管理 子 系统 、 网 络 和 内 核 许多 其 他 部 分 都 包含 了 该 结构 。 如 果 整 个 数据 结构 (甚至 于 
更 糟糕 的 情形 ， 多 个 数据 结构 、 整 个 驱动 程序 或 整个 子 系统 "〉 由 一 个 锁 保 护 ， 那 么 在 内 核 的 某 个 部 
分 需要 获取 锁 的 时 候 , 该 锁 已 经 被 系统 其 他 部 分 获取 的 概率 是 很 高 的 。 在 这 种 情况 下 会 出 现 较 多 的 0 
口 (dock contention)， 该 锁 会 成 为 内 核 的 一 个 口 (hotspot)。 为 补救 这 种 情况 ， 通 党 需要 标识 数据 
结构 中 各 个 独立 的 部 分 ， 使 用 多 个 锁 来 保护 结构 的 成 员 。 这 种 解决 方案 称 之 为 0 口 口 口 。 尽 管 这 种 方 
法 在 较 大 的 计算 机 上 对 提高 可 伸缩 性 很 有 好 处 ， 但 它 会 引发 其 他 问题 。 

(1) 获取 多 个 锁 会 增加 操作 的 开销 ， 特 别 是 在 较 小 的 SMP 计 算 机 上 。 

(2) 在 通过 多 个 锁 保护 一 个 数据 结构 时 ， 很 自然 会 出 现 一 个 操作 需要 同时 访问 两 个 受 保护 区 域 的 
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直 时 保护 计数 器 。counters 数 组 
























































NR_CPUS*4) 
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Q 实际 上 这 不 像 乍 听 起 来 那么 荒 廖 ， 但 最 初 的 SMP 内 核 甚至 于 更 进一步 。 毕 竞 ， 大 内 核 锁 保护 了 整个 内 核 ! 
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情形 ， 因 而 需要 同时 持 有 多 个 锁 。 
然 会 导致 死 锁 ! 由 于 内 核 中 的 各 个 代码 路 径 复 杂 | 
因而 ， 通 过 细 粒 度 锁 实现 FE 


5.3 System V 进程 间 通 信 


Linux 使 用 System V (SysV) 引入 的 机 



































这 要 求 必须 遵守 某 种 0D 口 口 口 ， 必 须 按 序 获取 和 释放 锁 。 否 















































j 交 错 ， 所 以 很 难保 证 所 有 情形 都 正确 。 











同时 避免 死 锁 ， 是 内 核 当 








前 首要 的 挑战 之 一 。 























判 ， 来 文 持 用 户 进 程 的 进程 间 通 信和 同步 。 内 核 通过 






































调用 提供 了 各 种 例 程 ， 使 得 用 户 库 





本 











除了 信号 量 之 外 ，SysV 的 进程 间 通 信和 方案 还 





5.3.1 System V 机 制 








祭 准 库 ) 能够 实现 所 需 的 操作 。 



































System V UNIX 的 3 种 进程 








间 通 信 (CIPC) 机 








远 的 概念 ， 不 过 三 者 却 有 一 个 
对 于 IPC 机 制 而 言 ， 这 看 起 来 似乎 








目标 ， 可 能 只 是 为 了 让 程序 的 











































































































合理 的 ， 但 不 应 该 视 作 理 
































包括 进程 间 的 消息 交换 和 共 


判 〈 信 号 量 、 消 息 队 列 、 
用 了 全 系统 范围 的 资源 ， 可 以 由 几 个 进程 同时 共享 。 
所 当然 。 举 例 来 说 ， 该 机 制 最 初 的 设计 





















































在 各 个 独立 进程 能 够 访问 SysV IPC 对 象 之 前 
结构 在 创建 时 分 配 了 一 个 号 码 。 凡 知道 这 个 魔 数 的 各 个 程序 ， 都 能 够 访问 对 














享 内 存 区 域 ， 如 下 朋 





共享 内 存 ) 反映 了 3 利 





各 个 线程 或 fork 产 生 的 结构 能 够 访问 共享 的 SysV 对 象 。 
，IPC 对 象 必须 在 系统 内 唯 























该 魔 数 永久 
E 唯 一 )。 标 准 


程序 需要 彼此 通信 ， 则 通常 需要 将 
证 唯一 的 魔 数 《静态 分 配 的 号 码 无 法 保 说 
参见 相关 的 系统 程序 设计 手册 )。 

在 访问 IPC 对 象 时 ， 系 统 采用 了 基于 文 从 
一 个 组 ID， 依 赖 于 产生 IPC 对 象 的 程序 在 何 种 UID/GID 之 下 运行 
普通 的 文件 ， 这 些 控制 了 3 种 不 同 用 户 类 别 的 访问 : 所 有 者 、 组 、 其 他 。 这 些 工作 具体 如 何 完 成 ， 


























于 
Wm 


焉 中 关 

















定 标 志 0666。 


5.3.2 ”信号 量 





号 量 没有 任何 关系 。 
1. 使 用 System V 信 号 量 





SystemvV 的 信号 量 接口 决 不 直观 
用 于 支持 原子 执行 预定 义 操作 的 简单 > 
个 操作 同时 进行 RN 它们 是 原子 的 )。 











[本 





可 以 允许 刀 


由 信息 请 参考 对 应 的 系统 程序 设计 手册 。 
要 创建 一 个 授予 所 有 可 能 
































访问 权限 的 一 个 权限 系统 。 每 个 IPC 对 象 者 
。 读 写 权 限 在 初始 


















































标识 。 为 此 ， 每 种 IPC 





























应 的 结构 。 如 果 独 立 的 应 
也 编译 到 程序 中 。 一 种 备 选 方案 是 动态 地 产生 一 个 保 
库 提 供 了 几 个 完成 此 工作 的 函数 (前 








Ne 
EF 细 百 筷 、 














% 有 一 个 用 户 
上 时 分 配 。 类 化 























限 的 信号 量 〈《 所 有 者 、 组 、 其 他 用 户 都 有 读 写 权限 )， 则 必须 指 








System V 信 和 号 量 在 sem/sem.c 实 现 ， 对 应 的 头 文件 是 <sem.h>。 这 种 信号 量 与 上 文 讲述 华 









































号 量 的 概念 已 经 远 超 其 实际 定义 了 。 信 和 号 量 不 



































#include<stdio.h> 
#include<sys/types.h> 
#include<sys/ipc.h> 
#include<sys/sem.h> 

















(D POSIX 标 准 现在 已 经 用 更 现代 的 形式 ， 引 入 了 类 似 的 结构 。 我 不 讨论 POSIX 的 相关 机 制 了 ， 因 为 大 多 数 应 






































仍然 在 使 用 SysV 机 制 。 











my 


量 集 合 ， 并 定义 函数 模拟 原始 信和 号 




















。 相 反 ， 一 个 System V 信 和 号 量 现在 是 指 一 整套 从 
当然 可 以 请 求 只 有 一 个 信号 量 包 
。 以 下 示例 程序 说 明了 信号 量 的 使 用 方式 : 
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~ 








#define SEMKEY 1234L /* 标识 符 */ 
#define PERMS 0666 /* 访问 权限 : rwrwrw */ 











struct sembuf op_down[1] 
struct sembuf op_up[1] = 


int semidqd = 
int res; /* 
void init sem() { 
/* 测试 信号 量 是 否 已 
semid = semget (SEMKEY, 
if (semid < 0) { 
printf("Create the semaphore\n"); 











IPC_CREAT | PERMS); 














semiqd = 
卫生 


semget (SEMKEY ， 
(sermid < 0) { 

printf("Couldn't create semaphore!\n"); 

exit(-1); 

} 


/* 初始 化 为 1 */ 


res = semctl(semid, 


1, IPC_CREAT | PERMS); 


0, SETVAL, 1); 
} 


} 


void down() 
/* 执行 Sr 操作 *] 


res = semop(semid, &op_down[0], 1); 
} 
void up() 

/* 执行 up 操作 */ 

res = semop(semid, &op_up[0], 1); 
} 


int main()f{ 
init_ sem 类 让 时 


/* 正常 的 程序 代码 */ 





nn critical code\n"); 
down( 
/* 临风 区 代码 */ 


printf("In critical code\n"); 















































































































































sleep(10); 
up(); 
/* 其 余 代码 */ 
return 0; 
} 
首先 在 main 中 用 一 个 持久 定义 的 魔 数 (1234) 创建 了 一 个 新 的 信号 量 ， 以 便 在 系统 内 建立 标识 。 
该 程序 可 能 有 几 个 副本 同时 运行 ， 因 此 有 必要 测试 对 应 的 信号 量 是 否 已 经 存在 。 如 果 没 有 ， 则 创建 信 
号 量 。 这 是 使 用 semget 系 统 调用 完成 的 ， 它 可 以 分 配 一 个 信号 量 集 合 。 它 需要 以 Ws 魔 数 
SEMKEY)， 集 合 中 信和 号 量 的 数目 1)， 所 需 的 访问 权限 。 上 述 示例 程序 创建 了 一 个 信号 量 集合 ， 其 中 
只 有 一 个 信号 量 。 设 置 的 访问 权限 表明 所 有 用 户 都 可 以 读 写 该 信号 量 。 "然后 使 用 semct1 系 统 调用 ， 


















































CD IPC_CREAT 是 一 























个 系统 常数 ， 




















必须 与 访问 权限 按 位 或 ， 用 于 指定 需 





要 创建 





个 新 的 信号 量 。 
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050 0000000 




















































































































































































































































































































































































































































































































将 信号 量 集合 中 唯一 的 信号 量 的 值 初 始 化 为 1。semia 变 量 在 内 核 中 标识 了 该 信号 量 〈 任 何其 他 程序 ， 
可 以 借助 于 魔 数 来 获得 该 值 )。 

0 指定 了 我 们 需要 操作 信和 号 量 集合 中 ID 为 0 的 信号 量 〈 这 是 我 们 创建 的 集合 中 唯一 的 信号 量 )。 
SETVAL、1 的 语义 很 显然 ， 即 将 信号 量 的 值 设置 为 1。? 

我 们 熟悉 的 up 和 down 操作 是 用 同名 的 函数 实现 的 。SysV 方 案 中 修改 信号 量 值 的 方式 很 有 趣 。 操 
作 使 用 semop 系 统 调用 进行 ， 照 例 使 用 了 semia 变 量 标识 信号 量 。 最 后 两 个 参数 需要 特别 注意 。 一 个 
是 指向 数组 的 指针 ， 数 组 元 素 类 型 为 sembuf， 每 个 元 素 表 示 对 一 个 信号 量 的 操作 。 数 组 中 操作 的 数目 

另 一 个 整数 参数 定义 ， 否 则 内 核 将 无 法 得 知 操作 的 数目 。 

数组 中 每 个 sembuf 项 由 3 个 成 员 组 成 ， 语 义 如 下 。 

(1) 第 1 个 成 员 用 来 选择 信号 量 集合 中 需要 操作 的 信号 量 。 

(2) 第 2 个 成 员 指定 所 需 的 操作 。0 表 示 一 直 等 待 ， 直 到 信和 号 量 的 值 到 达 0。 正 数 表 示 将 该 值 加 到 信 
号 量 〈 对 应 于 释放 资源 ， 进 程 在 该 操作 期 间 不 能 进入 睡眠 )。 负 数 用 于 请 求 资源 。 如 果 其 绝对 值 小 于 
信号 量 的 值 ， 则 从 当前 信和 号 量 值 减 去 其 〈 绝 对 ) 值 ， 不 会 在 信号 量 上 睡眠 ， 和 否则 进程 将 被 阻塞 ， 直 至 
信号 量 值 恢复 到 允许 操作 进行 的 程度 为 止 。 

(3) 第 3 个 成 员 是 一 个 标志 ， 用 于 精细 控制 操作 。 

如 果 使 用 1 和 -1 作为 数值 参数 ， 即 可 模拟 经 典 信号 量 的 行为 。down 试 图 从 信号 量 计数 器 减 去 1 (如 
果 信 和 号 量 值 到 达 0 则 进入 睡眠 )， 而 up 则 向 信号 量 值 加 1， 对 应 于 资源 的 释放 。 





上 述 代码 的 结果 如 下 : 


wolfgang@meitner> 


Create the semaphore 
Before the critical code 
In the critical code 


该 程序 首先 创建 信号 





操作 ， 将 信号 量 





， 然 


量 








的 值 减 1， 得 到 0。 如 果 有 另 一 个 进程 在 第 一 个 进程 等 待 期 间 启 动 ， 则 不 允许 








区 代码 。 


wolfgange@ 


meitner> 














./Sema 


后 进入 临界 





区 代码 , 并 


等 待 10 秒 。 





在 进入 临界 区 之 前 , 执行 了 一 个 down 











./Sema 


Before the critical code 








试图 进入 I 








鱼 界 









































区 代码 将 触发 qown 操 作 , 该 
进程 将 在 信号 量 上 进入 睡 












































个 进程 。 


























接 下 来 它 
2. 数据 结构 
内 核 使 用 了 几 个 数据 结 
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| 以 将 信和 号 里 








人 























构 米 











田 





管 








里 信号 卓 





及 其 特征 〈 值 、 
从 内 核 版 本 2.6.19 开 
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参见 第 2 章 ) 。 





但 








户 
巨 





上 述 所 有 六 


ee IPC 机 
EIPC 命 名 空 





进入 临界 











各 作 将 从 信号 量 值 











减 去 1。 由 于 当前 值 为 0, 操作 会 失败 。 














眠 ， 直 至 第 1 个 进程 通过 up 柑 作 释放 资源 (信号 量 人 
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struct Lipe ids *ides[3]: 
/* 资源 限制 */ 

我 省 去 了 与 监视 资源 消耗 和 设置 资源 限制 相关 的 很 多 结构 成 员 。 举 例 来 说 ， 内 核 会 限制 共享 内 存 
页 的 最 大 数目 、 共 享 内 存 段 的 最 大 长 度 、 消 息 队 列 的 最 大 数目 ， 等 等 。 所 有 的 限制 都 以 命名 空间 为 基 
而 实施， 相关 文档 可 以 查看 msgget (2) 、shmget (2) 、semget (2) 的 手册 页 ， 我 在 这 里 不 会 进一步 讨 
论 。 所 有 这 些 都 是 通过 简单 的 计数 器 实现 的 。 

结构 中 我 们 更 感 兴趣 的 是 数组 idas。 每 个 数组 元 素 对 应 于 一 种 IPC 机 制 : 共享 内 存 、 信 号 量 、 消 ， 
队列 。 每 个 数组 项 指向 一 个 stzruct ipc_igds 的 实例 ， 该 结构 用 于 跟踪 各 类 别 现存 的 PC 对 象 。 为 防 ] 
A nt dd 内 核 提 供 了 辅助 函数 msg_ids、shm_igds 和 sem_ids。 
为 防止 读者 迷惑 ， 我 在 此 指出 : 索引 0 对 应 的 是 信号 量 ， 其 后 是 消息 队列 ， 最 后 是 共享 内 存 。 

struct We 


ipc/util.h 

struct ipc_ids { 
int in use; 
unsigned short seqg; 
unsigned short seq max; 
struct rw_semaphore rw_mutex; 
struct idr ipcs_idr; 






































































































































宇 片 证 















































于 
前 几 个 成 员 保存 了 有 关 IPC 对 象 状态 的 一 般 信 息 。 
口 in_use 保 存 了 当前 使 用 中 IPC 对 象 的 数 
口 seq 和 seq_max 用 于 连续 产生 用 户 空 s 间 IPC ID。 但 要 注意 ，ID 不 等 同 于 序号 。 内 核 通过 ID 来 标 
识 IPC 对 象 ，ID 按 资源 类 型 管理 ， 即 一 个 ID 用 于 消息 队列 ， 一 个 用 于 信号 量 ， 一 个 用 于 共享 内 
存 对 象 。 每 次 创建 新 的 IPC 对 象 时 ， 序 号 加 1 (自动 进行 回 绕 ， 即 到 达 最 大 值 自 劫 变 为 0)。 
j 户 层 可 见 的 ID 由 s * SEQ_MULTIPLIER + i 给 出 ， 其 中 s 是 当前 序号 ，i 是 内 核 内 部 的 ID。 
SEQ_MULTIPLIER 设 置 为 IPC 对 象 的 上 限 。 如 果 重 用 了 内 部 ID， 仍然 会 产生 不 同 的 用 户 空间 ID， 
因为 序号 不 会 重用 。 在 用 户 层 传 递 了 一 个 陈旧 的 ID 时 ， 这 种 做 法 最 小 化 了 使 用 错误 资源 的 风险 。 
口 rw_mutex 是 一 个 内 核 信 号 量 。 它 用 于 实现 信号 量 操作 ， 避 人 免 用 户 空间 中 的 竞 态 条 件 。 该 互 不 
量 有 效 地 保护 了 包含 信号 量 值 的 数据 结构 。 
每 个 IPC 对 象 都 由 kern_ipc_perm 的 一 个 实例 表示 ， 稍 后 我 们 会 讲解 kern_ipc_perm。 每 个 对 象 
都 有 一 个 内 核 内 部 ID，ipcs_iaqr 用 于 将 ID 关联 到 指向 对 应 的 kern_ipc_perm 实 例 的 指针 。 由 于 使 用 
中 IPC 对 象 的 数目 可 能 动态 地 增长 和 缩减 ， 用 静态 数组 管理 该 信息 是 不 合适 的 ， 但 内 核 在 lib/iqr.c 
提供 了 一 个 类 似 于 基数 树 〈 参 见 附 录 C) 的 标准 数据 结构 ， 可 用 于 该 工作 。 如 何 管理 各 个 数据 项 的 细 
节 ， 对 我 们 来 说 是 不 相关 的 。 我 们 只 要 知道 ， 各 个 内 部 ID 都 会 关联 到 相应 的 kern_ipc_perm 实 例 ， 就 
足够 了 。 
kern_ipc_perm 的 成 员 保存 了 有 关 信 号 量 “ 所 有 者 ”和 访问 权限 的 有 关 信息 。 


<ipc.h> 
struct kern_ ipc_perm 


{ 

































































































































































































































































































































































































































































ji 于 加 = 
key_t key; 
uiqd_t uid; 
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人 gid. 二 gid; 
Uid 七 cuid:; 
gid 七 cgid; 
mode_t mode; 
unsigned long seqa; 


上 
该 结构 不 仅 可 用 于 信号 量 ， 还 可 以 用 于 其 他 的 IPC 机 制 。 读 者 在 本 章 会 经 常 遇 到 它 。 
口 key 保 存 了 用 户 程 序 用 来 标识 信号 量 的 魔 数 ，id 是 内 核 内 部 的 ID。 
口 uig 和 gig 分 别 指定 了 所 有 者 的 用 户 ID 和 组 ID。cuig 和 cgig 保 存 了 产生 信号 量 的 进程 的 用 户 ID 
和 组 ID。 
口 seq 是 一 个 序号 ， 在 分 配 IPC 对 象 时 使 ， 
口 mode 保 存 了 位 掩 码 ， 指 定 了 所 有 者 、 组 、 其 他 用 户 的 访问 权限 。 

上 上述 数据 结构 不 足以 保存 信 A eal np 个 与 IPC 相 
关 的 成 员 : 


<sched.h> 
struct task_ struct { 













































































ann 









































ifdef CONFIG_ SYSVIPC 
/* ipc 相 关 */ 

struct sysv_sem sysvsem; 
endif 


}; 
要 注意 , 只 有 设置 了 配置 选项 CONFIG_SYSVIPC 时 ,SysV 相 关 代码 才 会 编译 到 内 核 中 。 sysv_sem 
数据 结构 封装 了 另 一 个 成 员 。 


sem.h 
struct sysv_sem { 
struct sem undo_list *undo_ list; 
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的 成 员 undo_1list 用 于 撤销 信号 量 。 如 果 进 程 在 修改 信号 量 之 后 参 冲 ， 保 存在 该 列表 中 的 信 
恕 可 用 于 将 信号 量 的 状态 回复 到 修改 之 前 。 当 骨 江 进程 修改 了 信号 量 状态 之 后 ， 可 能 有 等 待 该 信号 量 
的 进程 无 法 唤醒 ， 该 机 制 在 这 种 情况 下 很 有 用 。 通 过 〔 使 用 撤销 列表 中 的 信息 ) 撤销 这 些 操作 ， 信 和 号 
量 可 以 恢复 到 一 致 状态 ， 防 止 死 锁 。 但 细节 我 就 不 在 这 里 详细 讲述 了 。 

sem_queue 是 男 一 个 数据 结构 , 用 于 将 信和 号 量 与 睡眠 进程 关联 起 来 , 该 进程 想 要 执行 信号 量 操作 ， 



















































































































































































































































































但 目前 不 允许 执行 。 换 名 话说 ， 信 和 号 量 的 待 决 操作 列表 中 ， 项 都 是 该 数据 结构 的 实例 。 
<sem.h> 
struct sem queue { 
struct sem queue * next; /* 队列 中 下 一 项 */ 
struct sem queue ** prev; /* 队列 中 的 前 一 项 , 对 于 第 一 项 有 * (q->prev) == q */ 
struct task_struct* sleeper; /* 睡眠 的 进程 */ 
struct sem undo * undo; /* 用 于 撤销 的 结构 */ 
int pid; /* 请 求 信号 量 操作 的 进程 ID。 */ 
int status; /* 操作 的 完成 状态 */ 
struct sem array * sma; /* 操作 的 信号 量 数组 */ 
int id; /* 内 部 信号 量 ID */ 
struct sembuf * sops; /* 待 决 操作 数组 */ 
int nsops; /* 操作 数目 */ 
int alter; /* 操作 是 否 改变 了 数组 ? */ 








5.3 SystemnVUOUODOO0OD 297 















































对 每 个 信号 量 ， 都 有 一 个 队列 管理 与 信号 量 相关 的 所 有 睡眠 进程 。 该 队列 并 未 使 用 内 核 的 标准 设 
施 实现 ， 而 是 通过 next 和 prev 指 针 手 工 实 现 的 。 

口 sleeper 是 一 个 指针 ， 指 向 等 待 执行 信号 量 操作 进程 的 task_struct 实 例 。 
pig 指 定 了 等 待 进程 的 PID。 
id 保存 了 内 核 内 部 的 信号 量 ID。 
sops 是 一 个 指针 ， 指 向 保存 待 决 信号 量 操 作 (描述 操作 本 身 需 要 男 一 个 数据 结构 ， 会 在 下 文 
讨论 ) 的 数组 。 操 作 数 目 〈 即 ， 数 组 的 长 度 ) 在 nsops 中 定义 。 
口 alter 表 明 操 作 是 否 修改 信号 量 的 值 〈 例 如 ， 状 态 查 询 不 改变 值 
sma 保 存 了 一 个 指针 ， 指 向 用 于 管理 信号 量 状 态 的 数据 结构 的 实例 。 
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<sem.h> 
struct sem array { 
struct kern ipc_ perm sem_perm; /* 权限 ， 参 见 ipc.h */ 
time_t sem_ otime; /* 最 后 一 次 信号 量 操作 的 时 间 */ 
上 time 七 sem_ ctime; /* 最 后 一 次 修改 的 时 间 */ 
struct sem *sem_ base; /* 指 问 数 组 中 第 一 个 信号 量 的 指针 */ 
struct sem queue *sem_ pending; /* 需要 处 理 的 待 决 操作 */ 
struct sem queue **sem pending_ last; /* 上 一 个 待 决 操作 */ 
struct sem undo *undo; /* 该 数组 上 的 撤销 请 求 */ 
unsigned long sem_nsems; /* 数组 中 信号 量 的 数目 */ 
六 
系统 中 的 每 个 信号 量 集合 ,都 对 应 于 该 数据 结构 的 一 个 实例 。 该 实例 用 于 管理 集合 中 的 所 有 信和 号 量 。 


















































口 信号 量 访问 权限 保存 在 我 们 熟悉 的 kern_ipc_perm 类 型 的 sem_perm 成 员 中 。 该 成 员 必 须 位 于 
结构 的 起 始 处 ， 以 便 使 用 某 种 技巧 ， 这 涉及 用 于 管理 所 有 信和 号 量 集合 的 ipc_iqs->entries 数 
组 。 由 于 该 数组 中 各 个 项 指向 的 内 存 区 域 都 分 配 了 足够 的 内 存 ， 不 仪 可 以 表示 kern_ipc_ 
perm， 而 且 也 能 表示 sem_array， 因 此 内 核 可 以 通过 类 型 转换 在 两 种 表示 之 间 切 换 。 
该 技巧 也 用 于 其 他 的 SysV IPC 对 象 ， 读 者 在 下 文 会 看 到 。 
口 sem_nsems 指 定 了 一 个 用 户 信和 号 量 集合 中 信和 号 量 的 数目 。 
口 sem_base 是 一 个 数组 ， 每 个 数组 项 描述 了 集合 中 的 一 个 信号 量 。 其 中 保存 了 当前 的 信号 量 值 
和 上 一 次 访问 它 的 进程 的 PID。 


























































































































































































































<sem.h> 
struct sem { 
int semval; /* 当前 值 */ 
int sempid; /* 上 一 次 操作 进程 的 PID */ 











je 
口 sem_otime 指 定 了 上 一 次 访问 信号 量 的 时 间 ， 单 位 为 jiffies (访问 包括 信息 查询 在 内 )。 
sem_ctime 指 定 了 上 次 修改 信号 量 值 的 时 间 。 

口 sem_pending 指 向 待 决 信号 量 操作 的 链表 ,该 链表 由 sem_queue 实 例 组 成 。 sem_pending_last 

书 于 快速 访问 该 链表 的 最 后 一 个 元 素 ， 而 sem_pending 指 向 链表 的 起 始 。 

图 $-2 给 出 了 所 涉及 各 个 数据 结构 之 间 的 相互 关系 。 
从 当前 命名 空间 获得 sem_idqs 实 例 开 始 , 内核 通过 ipcs_igr 找 到 ID 到 指针 的 映射 ,在 其 中 查找 所 

需 的 kern_ipc_perm 实 例 。kern_ipc_perm 项 可 以 转换 为 sem_array 的 实例 。 信 号 量 的 当前 状态 需要 

通过 与 另外 两 个 结构 的 联系 获取 。 
口 待 决 操作 通过 sem_queue 实 例 的 链表 管理 。 等 待 操作 执行 的 睡眠 进程 , 也 可 以 通过 该 链表 确定 。 
口 struct sem 实 例 的 数组 用 于 保存 集合 中 各 个 信号 量 的 值 。 
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b|sem_ 
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struct sem queue 


struct task_struct 





sembuf->sleeper 







































































图 5-2 信号 量 各 数据 结构 之 间 的 相互 关系 
图 中 没有 给 出 用 于 管理 撤消 操作 的 信息 , 我 们 对 此 没什么 兴趣 , 而 它 也 会 使 问题 不 必要 地 复杂 化 。 





kern_ipc_perm 是 用 于 管理 IPC 对 象 的 数据 结构 的 第 一 个 成 员 ， 不 仅 对 信号 量 是 这 样 ， 消 息 队 列 
和 共享 内 存 对 象 也 是 如 此 。 这 使 得 内 核 可 以 使 用 同样 的 代码 检查 所 有 



































每 个 sem_aqueue 成 员 包 含 了 一 个 指针 ， 指 向 sem_ops 实 例 的 数组 ，sem_ops 详 细 描 述 了 在 信和 号 量 


























3 种 对 象 的 访问 权限 。 





























的 索引 */ 


上 将 要 执行 的 操作 。 使 用 sem_ops 实 例 的 数组 ， 是 因为 可 以 使 用 一 个 semct1 调 用 ， 在 信号 量 集合 的 各 
个 信号 量 上 执行 几 个 操作 。 
<sem.h> 
struct sembuf { 
unsigned short sem_num; /* 信号 量 在 数组 中 
short sem_op; /* 信号 量 操作 */ 
short sem flg; /* 操作 标志 */ 





该 定义 使 我 们 想起 了 5.3.2 节 给 出 的 示例 代码 。 这 就 是 该 程序 用 于 















































述 对 信号 量 操作 的 数据 结构 。 














它 不 仅 保存 了 信号 量 在 信和 与 量 集合 中 的 索引 (sem_num)， 还 有 所 要 进行 的 操作 (sem_op) 和 一 些 操 























作 标 志 (sem_f1g)。 
3. 实现 系统 调用 


所 有 对 信和 号 量 的 操作 部 使 用 一 个 名 为 ipc 的 系统 调用 执行 。 











消息 队列 和 共享 内 存 。 





























该 调用 不 仅 用 于 信号 量 ， 也 用 于 操作 


























其 第 一 个 参数 用 于 将 实际 工作 委托 给 其 他 函数 。 
口 SEMCTL 执 行 信号 量 操 作 ， 并 由 sys_semct1 实 现 。 









































口 SEMGET 读 取信 号 量 ID， 相 关 的 实现 由 sys_semget 提 供 。 














有 于 信号 量 的 函数 如 下 所 示 。 















































通过 一 个 系统 调 








系 结构 (例如 IA-64 和 AMD64) 无 需 ipc 实 现 的 多 路 分 解 ， 它 们 可 以 








口 SEMOP 和 SEMTIMEDOP 人 负责 增加 和 减少 信号 量 值 ， 后 者 可 以 指定 超时 时 间 限 制 。 
用 ， 将 工作 委托 给 多 个 其 他 函数 ， 是 内 核 前 期 的 遗迹 。” 内核 后 来 移植 的 某 些 体 























接 使 用 上 述 的 “ 子 函数 ”作为 系 








GD 内 核对 sys_ipc 的 诗 





FE 释 This is really horribly ugly (这 真得 太 糟 糕 了 ), 口 口 习 





和 出 有 因 。 
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统 调用 。 旧 的 体系 结构 〈 如 IA-32) 仍然 提供 多 路 分 解 机 制 ， 但 在 内 核 版 本 2.3 开 发 期 间 ， 已 经 添加 了 针对 
各 种 变 体 的 系统 调用 。 于 该 实现 是 通用 的 ， 所 有 体系 结构 都 能 因此 受益 。sys_semtimedop 提 供 了 
sys_ipc 的 SEMOP 和 SEMTIMEDOP 功 能 ， 而 sys_semctl 和 sys_semget 分 别 直接 实现 了 sEMCTL 和 SEMGET。 

请 注意 ,获取 IPC 对 和 象 的 操作 又 很 快 再 次 结合 起 来 ， 如 图 5-3 所 示 。 这 是 可 能 的 ， 因为 用 于 管理 IPC 
对 象 的 数据 结构 是 通用 的 ， 它 们 不 依赖 于 某 种 特定 的 PC 对 象 类 型 ， 如 上 文 所 述 。 






































































































































































| 
此 他 操作 


























ipcget_new 


ipe_get_public] 
图 5-3 ”用 于 获取 IPC 对 象 的 各 系统 调用 ， 可 以 通过 一 个 公共 的 辅助 函数 统一 
4. 权限 检查 
IPC 对 象 的 保护 机 制 ， 与 普通 的 基于 文件 的 对 象 相同 。 访 问 权限 可 以 分 别 对 对 象 的 所 有 者 、 所 有 
者 所 在 组 和 所 有 其 他 用 户 指定 。 此 外 ， 可 能 的 权限 包括 读 、 写 、 执 行 。ipcperms 负 责 检查 对 任意 IPC 
对 象 的 某 种 操作 是 否 有 权限 进行 。 其 定义 如 下 : 










































































ipc/util.c 
int ipcperms (struct kern _ ipc perm *ipcp, short flag) 
{ /* 大 多 数 情况 下 ，flag 都 是 0 或 <1inux/stat.h> 中 定义 的 S_. . .UGO */ 
int requested mode, granted mode, err; 
requested mode = (flag >> 6) | (flag >> 3) | flag; 
granted mode = ipcp->mode; 
if (current->euid == ipcp->cuid || current->euid == ipcp->uid) 
granted mode >>= 6; 
else if (in group pl(ipcp->cgid) || in_group_p(ipcp->gid) ) 


granted mode >>= 3; 
/* 是 否 有 某 些 比特 位 在 requested_mode 中 置 位 ， 但 在 granted_mode 中 没有 置 位 ? */ 
if ((requested mode & ~granted mode & 0007) && 
Icapable (CAP_IPC_OWNER)) 
return -1; 
return security_ipc permission(ipcp, flag); 


} 
request_mode 人 包含 了 所 请 求 的 权 限 位 o granted_mode 初 始 


二 





直 包 含 了 IPC 对 象 的 权限 位 。 根 据 当 


















































GD flag 的 低 9 位 分 为 3 个 部 分 ， 分 别 表 示 用 户 自身 、 所 属 组 的 成 员 、 其 他 用 户 请 求 的 权限 。 但 实际 上 只 有 一 部 分 可 能 
有 非 零 值 ， 该 赋值 语句 刚好 提取 了 有 值 的 部 分 ， 放 到 request_mogde 的 低 3 位 。 
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前 操作 执行 者 的 不 





5.3.3 
进程 
型 。 误 











同 (用 
































EE 绝 授 权 。securi 




















匡 架 可 能 处 于 活动 中 ， 但 与 





























相对 简 





a ， 如 图 











户 自身 、 所 属 组 成 员 或 其 他 人 )， 分 别 将 gran 
制 位 ， 使 得 低 3 位 刚好 是 表示 权限 的 3 个 比特 位 。 如 果 requested_mode 和 granted_mode 的 最 后 
特 位 不 符合 授权 规则 ， 则 j 
SELinux)， 这 些 相 


消息 队列 
之 间 通 信 的 另 一 个 方法 是 交换 消 
就 涉及 的 数据 结构 而 言 ， 消 息 队列 和 
消息 队列 的 功能 原型 


t_ipc_permission 将 提 


里 的 内 容 无 关 。 





筷 











ted_mode 右 移 适 当 数 


E 钧 到 其 他 安全 性 框 














的 二 进 
3 个 比 
架 中 (如 























队列 机 制 完 成 的 ， 其 实现 基于 System V 模 
点 


wo 








图 5-4 System V 消 息 队 列 的 功能 原理 





产生 消息 并 将 其 写 到 队列 的 进程 通常 称 之 为 0 口 口 ， 而 一 个 或 多 个 其 


口 ) 则 从 队列 





























获取 信 ， 











电 。 各 个 消 
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也 进程 〈 逻 辑 


E 文 和 一 个 〈 正 ) 数 ， 以 便 在 消息 队列 内 实现 几 种 类 


上 称 之 为 





D0 
型 的 


















































































































































































































































消息 。 接 收 者 可 以 根据 该 数字 检索 消息 ， 例 如 ， 可 以 指定 只 接受 编号 1 的 消息 ， 或 接受 编写 不 大 于 5 的 
消息 。 在 消息 已 经 读 取 后 ， 内 核 将 其 从 队列 删除 。 即 使 几 个 进程 在 同一 信道 上 监 昕 ， 每 个 消息 仍然 只 
能 由 一 个 进程 读 取 。 
同一 编号 的 消息 按 DDDD 次 序 处 理 。 放 置 在 队列 开始 的 消息 将 首先 读 取 。 但 如 果 有 选择 地 读 取 
消息 ， 则 先进 先 出 次 序 就 不 再 适用 。 
天 
| 
加 加 如 加 加 加 ODD DODDIDDODOVDOULUDVIUYUD 
消息 队列 也 是 使 用 此 前 讨论 过 的 那些 数据 结构 实现 的 。 起 始点 是 当前 命名 空间 的 适当 的 ipc_iaqs 
实例 。 
同样 ， 内 部 的 了 号 形式 上 关联 到 kern_ipc_perm 实 例 ， 在 消息 队列 的 实现 中 ， 需 要 通过 类 型 转换 
获得 不 同 的 数据 类 型 (struct msg_queue)。 该 结构 定义 如 下 : 
<msg.h> 
struct msg_queue { 
struct kern_ ipc _ perm q_ perm; 
time t q_ stime; /* 上 一 次 调用 msgsnd 发 送 消 息 的 时 间 */ 
time _t q rtime; /* 上 一 次 调用 msgrcv 接 收 消息 的 时 间 */ 
time _t q ctime; /* 上 一 次 修改 的 时 间 */ 
unsigned long q_cbytes; /* 队列 上 当前 字 节 数目 */ 
unsigned long q_qnum; /* 队列 中 的 消息 数目 */ 
unsigned long q_qbytes; /* 队列 上 最 大 字 节 数目 */ 
pid t q lspid; /* 上 一 次 调用 msgsnd 的 piqd */ 
pid t q lrpid; /* 上 一 次 接收 消息 的 pid */ 
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struct list_ head q messages; 
struct list head q receivers; 
struct list_ head q_ senders; 





Ne - 


该 结构 包含 了 状态 信息 以 及 队列 访问 权限 。 
口 q_stime、q_rtime 和 q_ctime 分 别 指定 了 上 一 次 发 送 、 接 收 和 修改 〈 指 修改 队列 的 属性 〉 的 
时 间 。 
口 q_cpytes 指 定 了 队列 中 当前 用 于 六 
口 qa_qbytes 指 定 了 队列 中 可 能 用 于 消 
口 gq_num 指 定 了 队列 中 消息 的 数 
口 q_lspid 是 上 一 个 发 送 进程 YD q_lrpid 是 上 一 个 接收 进程 的 PID。 
3 个 标准 的 内 核 链表 用 于 管理 睡眠 的 发 送 者 〈a_senders)、 睡 眠 的 接收 者 〈a_receivers) 和 消 
息 本 身 (q_messages)。 各 个 链表 都 使 用 独立 的 数据 结构 作为 链表 元 素 。 
q_messages 中 的 各 个 消息 都 封装 在 一 个 msg_msg 实 例 中 。 


ipc/msg.c 

struct msg_msg { 
struct list head m list; 
long m type; 
int m_ts; /* 消息 正文 长 度 */ 
struct msg_msgseg* next; 


/* 接 下 来 是 实际 的 消息 */ 














县 的 字 节 数目 。 
县 的 字 节 的 最 大 数目 














这 汶 



































































































































}; 


m_1ist 用 作 连 接 各 个 消息 的 链表 元 素 ， 其 他 的 成 员 用 于 管理 消息 自身 。 

口 m_type 指 定 了 消息 类 型 ， 用 于 支持 前 文 所 述 消 息 队 列 中 不 同 的 消息 类 型 。 

口 m_ts 指 定 了 消息 正文 长 度 ， 按 字 节 计算 。 

口 如 果 保 存 超过 一 个 内 存 页 的 长 消息 ， 则 需要 next。 

结构 中 没有 指定 存储 消息 自身 的 字段 。 因 为 每 个 消息 都 《至 少 ) 分配 了 一 个 内 存 页 ，msg_msg 实 
例 则 保存 在 该 页 的 起 始 处 ， 剩 余 的 空间 可 用 于 存储 消息 正文 ， 如 图 $-5 所 示 。 














































































































1 next ss NeXt Serr 
1 struct msg_msg struct msg_] msg soo 办 struct msg_] msg_seq: 
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5-5 内存 中 IPC 消 息 的 管理 
从 内 存 页 的 长 度 , 减 去 msg_msg 结 构 的 长 度 , 即 可 得 到 msg_msg 页 中 可 用 于 消息 正文 的 最 大 字 节 数目 。 


ipc/msgutils.c 
#define DATALEN_MSG (PAGE_ SIZE-sizeof (struct msg_msg)) 



























































更 长 的 消息 必须 借助 于 next 指 针 ， 分 布 在 儿 个 页 中 。 该 指针 指向 页 开始 处 的 msg_msgseq 实 例 ， 
如 图 5-5 所 示 。 其 定义 如 下 : 
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ipc/msgutils.c 
struct msg_msgseg { 
struct msg_msgseg* next; 


/* 接 下 来 是 消息 的 下 一 部 分 */ 





}; 

同样 , 消息 正文 紧 接 着 该 数据 结构 的 实例 之 后 存储 。 使 用 next, 可 以 使 消息 分 布 到 任意 数目 的 页 上 。 

在 通过 消息 队列 通信 时 ， 发 送 进程 和 接收 进程 都 可 以 进入 睡眠 : 如 果 消 息 队 列 已 经 达到 最 大 容量 ， 则 
发 送 者 在 试图 写 入 消息 时 会 进入 睡眠 ， 如 果 队列 中 没有 消息 ， 那 么 接收 者 在 试图 获取 消息 时 会 进入 睡眠 。 
睡眠 的 发 送 者 放置 在 msg_queue 的 q_senders 链 表 中 ， 链 表 元 素 使 用 下 列 数据 结构 : 


ipc/msg.c 

struct msg_sender { 
struct list_ head list; 
struct task_struct* tsk; 



















































































































































































}3 

1ist 是 链表 元 素 ，tsk 是 指向 对 应 进程 的 task_struct 的 指针 。 这 里 不 需要 额外 的 信息 ， 因 为 发 
送 进程 是 在 sys_msgsnd 系 统 调 用 期 间 进 入 睡眠 ， 也 可 能 是 通过 sys_ipc 系 统 调用 进入 睡眠 。 后 者 也 可 
以 用 于 发 送 消息 ， 并 在 唤醒 后 自动 重 试 发 送 操作 。 

q_receivers 链 表 中 用 于 保存 接收 进程 的 数据 结构 要 稍 长 一 点 。 


ipc/msg.c 

struct msg_receiver { 
struct list_head rE 
struct task,_ struct *r tsk; 

































































































































































int r_mode; 
long r_msgtype; 
long r_maxsize; 


struct msg_msg *volatile xz msg; 


二 
其 中 不 仅 保 在 了 指向 对 应 进程 的 task_stzruct 的 指针 ， 还 包括 了 对 预期 消息 的 描述 〈 最 重要 的 是 






























































消息 类 型 >_ msgtype)， 以 及 指向 msg_msg 实 例 的 一 个 指针 。 在 有 消息 可 用 的 情况 下 ， 该 指针 指定 了 复 
制 数据 的 目标 地 址 。 
图 5-6 说 明了 消息 队列 所 涉及 各 数据 结构 的 相互 关系 (为 简明 起 见 , 没有 给 出 睡眠 的 发 送 进 程 链表 )。 









































ID 到 指针 的 映射 









| | struct msg_receiver 







团 struct task_ struct 
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图 5-6 System V 消 息 队 列 的 数据 结构 
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5.3.4 ”共享 内 存 
0D ODO DO 是 进程 间 














通信 的 最 后 一 个 概念 ， 从 用 户 和 内 核 的 角度 来 看 ， 它 的 实现 使 用 了 与 上 述 两 种 





























机 制 类 似 的 结构 。 与 信 


号 量 和 消息 队列 相 比 ， 共 享 内 存 没有 本 质 性 的 不 同 



































口 应 用 程序 请 求 的 IPC 对 象 ， 可 以 通过 魔 数 和 当前 命名 空间 的 内 核 内 部 ID 访问 。 


口 对 内 存 的 访问 ， 














可 能 受到 权限 系统 的 限制 。 









































口 可 以 使 用 系统 调用 分 配 与 PC 对 象 关 联 的 内 存 , 具备 适当 授权 的 所 有 进程 , 都 可 以 访问 该 内 存 。 





内 核 的 实现 采用 了 
据 结 构 ， 如 图 5-7 所 示 。 



































对 象 相关 的 内 存 区 域 。 














与 前 述 两 种 对 象 非常 类 似 的 概念 。 因 此 ， 我 在 这 里 ， 只 简要 描述 一 下 相关 的 数 















ID 到 指针 的 映射 












struct 
ipc_ids 


shmiqd_ kernel 


struct truct 
file address_ 
space 
图 5-7 System V 共 享 内 存 的 数据 结构 


同样 ， 在 smqa_iqs 全 局 变量 的 entries 数 组 中 保存 了 kern_ipc_perm 和 shmiad_kernel 的 组 合 ， 以 





























便 管 理 IPC 对 象 的 访问 权限 。 对 每 个 共享 内 存 对 象 都 创建 一 个 伪 文 件 ， 通 过 shm_file 连 接 到 shmia_ 
kezrnel 的 实例 。 内 核 使 用 shm_file->f_mapping 指 针 访问 地 址 空间 对 象 (struct adqqress_space)， 
于 创建 第 4 章 讲解 的 匿名 映射 。 还 需要 设置 所 涉及 各 进程 的 页 表 ， 使 得 各 个 进程 都 能 够 访问 与 该 IPC 










































































5.4 其 他 1IPC 机 制 
除了 System V UNIX 采 用 的 IPC 机 制 之 外 ， 进 程 之 间 还 有 其 他 传统 的 方法 可 用 于 交换 消息 和 数据 。 
































SysV IPC 通 常 只 对 应 用 
5.4.1 信和 号 


与 SysV 机 制 相 比 ， 
其 底层 概念 非常 简单 ， 



































经 支持 。 不 过 ,经典 的 信号 占用 了 信号 列表 中 前 32 个 位 置 。 接 下 来 是 针对 实时 进程 引入 的 新 信和 号。 
进程 必须 设置 处 理 程序 例 程 来 处 理 信和 号。 这些 例 程 在 信号 发 送 到 进程 时 调用 (但 有 几 个 信号 的 行 











程序 员 有 意义 ， 但 几乎 所 有 使 用 过 shell 的 用 户 ， 都 会 知道 信号 和 管道 。 



































言 号 是 一 种 比较 原始 的 通信 机 制 。 尽 管 提 供 的 选项 较 少 ， 但 是 它们 非常 有 用 。 
kil11 命 令 根据 PID 疝 进程 发 送信 号 。 信 号 通过 -s sig 指 定 ， 是 一 个 正 整数 ， 最 















































大 长 度 取 决 于 处 理 器 类 型 。 该 命令 有 两 种 最 常用 的 变 体 : 一 种 是 kil1 不 指定 信号 ， 实 际 上 是 要 求 进程 
结束 (进程 可 以 忽略 该 信号 ); 另 一 种 是 kil1 -9， 等 价 于 在 死刑 批准 上 签字 《导致 某 些 进程 死亡 )。 
过 去 ，32 位 系统 最 多 支持 32 个 信号 ， 该 限制 现在 已 经 提高 了 ，kil11 手 册页 上 列 出 的 所 有 信号 都 已 





































































































为 无 法 修改 ， 如 SIGKII 















































LL)。 如 果 没 有 显 式 设置 处 理 程序 例 程 ， 内 核 则 使 用 默认 的 处 理 程序 实现 。 












































信号 引入 了 几 种 特性 ， 必 须 永 远 切 记 。 进 程 可 以 决定 0] 0 特定 的 信号 (有 时 称 之 为 信号 0 0 )。 


304 05s50 0000000 





























如 果 发 生 这 种 情况 ， 会 一 直 忽 略 该 信号 ， 直 人 至 进程 决定 解除 阻塞 。 因 而 ， 进 程 是 否 能 感知 到 发 送 的 信 
号 ， 是 不 能 保证 的 。 在 信号 被 阻塞 时 ， 内 核 将 其 放置 到 0 口 列表 上 。 如 果 同 一 个 信号 被 阻塞 多 次 ， 则 在 
待 决 列表 中 只 放置 一 次 。 不 管 发 送 了 多 少 相 同 的 信号 ， 在 进程 删除 阻塞 之 后 ， 都 只 会 接收 到 一 个 信和 号。 
SIGKILL 信 和 号 无 法 阻塞 ,也 不 能 通过 特定 于 进程 的 处 理 程序 处 理 。 之 所 以 不 能 修改 该 信号 的 行为 ， 
是 因为 它 是 从 系统 删除 失控 进程 的 最 后 手段 。 它 与 SIGTERM 信 号 不 同 ， 后 者 可 以 通过 用 户 定义 的 信号 
处 理 程序 处 理 ， 实 际 上 只 是 向 进程 发 出 的 一 个 客气 的 请 求 ， 要 求 进程 尽快 停止 工作 而 已 。 如 果 已 经 为 
该 信号 设置 了 处 理 程序 ， 那 么 程序 就 有 机 会 保存 数据 或 询问 用 户 是 否 确实 想 要 退出 程序 。SIGKILL 不 
会 提供 这 种 机 会 ， 因 为 内 核 会 立即 强行 终止 进程 。 
init 进 程 属于 特例 ,内 核 会 忽略 发 送 给 该 进程 的 SIGKILL 信 号 。 因 为 该 进程 对 整个 系统 尤其 
不 能 强制 结束 该 进程 ， 即 使 无 意 结束 也 不 行 。 
1. 实现 信号 处 理 程序 
sigaction 系 统 调用 用 于 设置 新 的 处 理 程序 。 
#include<signal.h> 
#include<stdio.h> 


/* 处 理 程序 函数 */ 
void handler (int sig) { 
printf("Receive signal: %u\n", sig); 


}; 






























































































































































































































































































































































EE 要 ， 





















































int main(void) { 
struct sigaction sa; 
int CoOunty 


/* 初始 化 信号 处 理 程序 结构 */ 
sa.sa_handler = handler; 
sigemptyset (&sa.sa mask); 
sa.sa_flags = 0; 





/* 给 STIGTERM 信 号 分 配 一 个 新 的 处 理 程序 函数 */ 
sigaction(SIGTERM, &sa, NULL); 


sigprocmask(&sa.sa_mask); /* 接收 所 有 信号 */ 
/* 阻塞 ， 一 直 等 到 信号 到 达 */ 
while (1) { 
sigsuspend(&sa.sa mask); 
brintf("looBN\n"); 
} 




















return 0; 


}; 


如 果 没 有 为 某 个 信号 分 配 用 户 定 义 的 处 理 程序 函数 ， 内 核 会 自动 设置 预定 义 函 数 ， 提供 合 理 的 标 
准 操作 来 处 理 相 应 的 情况 。 


sigaction 类 型 中 用 于 描述 处 理 程序 的 字段 ， 其 定义 是 平台 相关 的 ， 但 在 所 有 体系 结构 上 几乎 都 
相同 。 


<asm-arch/signal.h> 

struct sigaction 1{ 
__sighandler t sa handler; 
unsigned long sa_ flags; 














































































































sigset t sa mask; /* mask last for extensibility */ 
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口 sa_handler 是 一 个 指针 ， 指 向 内 核 在 信号 到 达 时 调用 的 处 理 程序 函数 。 

口 sa_mask 包 含 了 一 个 位 掩 码 ， 每 个 比特 位 对 应 于 系统 中 的 一 个 信号 。 它 用 于 在 处 理 程 序 例 程 执 
行 期 间 阻 塞 其 他 信和 号。 在 例 程 结 束 后 ， 内 核 会 重 置 其 值 ， 回 复 到 信和 号 处 理 之 前 的 原 值 。 

口 sa_flags 包 含 了 额外 的 标志 ， 用 于 指定 信号 处 理 方式 的 一 些 约束 ， 这 些 可 以 参考 各 种 系统 程 
序 设计 手册 。 

计 号 处 理 程序 的 函数 原型 如 下 : 


<asm-generic/signal.h> 
typedef void _ signalfn t (int); 
typedef _ signalfn t _ user * sighandler 七 ; 


其 参数 是 信号 的 编号 ， 因 此 可 以 使 用 同一 个 处 理 程序 函数 处 理 不 同 的 信号 
言 号 处 理 程序 使 用 sigaction 系 统 调用 设置 ， 该 调用 在 我 们 的 例子 中 ) 借助 用 户 定义 的 处 理 程 
序 函 数 替 换 了 SITGTERM 的 默认 处 理 程序 。 
进程 可 以 设置 一 个 全 局 掩 码 ， 指 定 在 处 理 程序 运行 时 阻塞 哪些 信号 。 掩 码 中 的 各 个 比特 位 表明 了 
对 应 的 信号 是 否 阻塞 〈 比 特 位 为 1 表示 阻塞 ， 比 特 位 为 0 表明 未 阻塞 )。 示 例 程序 将 掩 码 中 所 有 的 比特 
位 都 设置 为 0， 这 样 从 外 部 发 送 给 进程 的 所 有 信号 就 都 可 以 在 处 理 程序 运行 时 接收 。 

该 程序 的 最 后 一 个 步骤 是 使 用 sigsuspend 系 统 调 用 等 待 一 个 信号 。 此 时 进程 被 阻塞 〈 参 见 第 2 
章 )， 处 于 睡眠 状态 ， 直 至 有 信和 号 到 达 唤 醒 进 程 ， 然 后 又 立即 进入 睡眠 状态 〈 通 过 while 循 环 )。main 
中 的 代码 无 须 关注 信号 处 理 ， 因 为 这 是 内 核 协 同 处 理 程序 函数 自动 完成 的 。 上 面 给 出 的 方法 ， 是 一 
很 好 的 例子 ， 示 范 了 如 何 避 免 ] DD 《busy waiting)。® 
如 果 使 用 kil11 向 该 进程 发 送 STGTERM 信 号 ， 进 程 不 会 像 通常 那样 结束 ; 相反 ， 它 会 输出 接收 信和 号 
的 编号 〈15) 并 继续 运行 。 因 为 依照 要 求 ， 该 信号 发 送 到 用 户 定义 的 处 理 程序 例 程 ， 而 不 是 内 核 的 默 
认 实 现 。 

2. 实现 信号 处 理 

所 有 信号 相关 的 数据 都 是 借助 于 链 式 数据 结构 管理 的 ， 包 括 几 个 C 语 言 结 构 。 其 入 口 是 
task_struct 结 构 ， 其 中 包含 了 各 个 与 信号 相关 的 字段 。 


<sched.h> 
struct task_struct { 
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/* 信号 处 理 程序 */ 
struct signal_ struct *signal; 
struct sighand struct *sighand; 


sigset _t blocked; 
struct sigpending pending; 


unsigned long sas_ss_sp; 
size_t sas_ss_size; 



































尽管 信号 处 理发 生 在 内 核 














U 
入 








晶 设 置 的 信号 处 理 程序 是 在 用 户 状态 运行 ， 否则 很 容易 向 内 核 引 入 





























Q 对 用 于 POSIX 实 时 信号 的 处 理 程序 函数 ， 还 有 一 个 版 本 ， 会 传递 更 多 的 信息 。 

@) 不 要 通过 空 循环 反复 等 待 信号 (使 用 这 种 方法 ， 则 进程 一 直 在 运行 ， 白白 浪费 了 CPU 时 间 )， 进 程 完 全 可 以 进入 睡 
眼 状态 ， 不 用 给 CPU 带 来 负担 。 内 核 会 在 信号 到 达 时 自动 唤醒 进程 ， 而 进程 睡眠 时 空闲 出 的 CPU 时 间 完 全 可 以 更 
有 效 地 利用 。 
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恶意 或 有 缺陷 的 代码 ,从 而 破坏 系统 安全 机 制 。 通 常 ， 信 和 号 处 理 程 序 使 用 所 述 进程 在 用 户 状态 下 的 栈 。 
















































































但 POSIX 强 制 要 求 提供 一 种 选项 ， 在 专门 用 于 信和 号 处 理 的 栈 上 运行 信号 处 理 程序 〈 使 用 sigaltstack 
系统 调用 )。 这 个 附加 的 栈 〈 必 须 通 过 用 户 应 用 程序 显 式 分 配 )， 其 地 址 和 长 度 分 别 保存 在 sas_ss_sp 


和 sas_ss_size。 
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下 列 结构 的 sighand 成 员 ， 用 于 管理 设置 的 信号 处 理 程序 的 信息 。 该 结构 定义 如 下 : 


<sched.h> 
struct sighangd struct { 

atomic_t count; 
struct k_ sigaction action[_NSIG]; 














}; 
count 保 存 了 共享 该 结构 实例 的 进程 数目 。 第 2 章 讲 过 ，clone 操 作 可 以 指定 父子 进程 共享 同一 个 


























信号 处 理 程序 ， 这 种 情况 下 无 需 复 制 该 数据 结构 。 


信号 的 数目 。 在 大 多 数 平台 上 其 值 为 64， 但 有 例外 情况 ， 例 如 Mips 文 持 128 个 信号。 


















































设置 的 信号 处 理 程序 保存 在 action 数 组 中 ， 共 有 _NSIG 个 数组 项 。_NSIG 指 定 了 可 以 处 理 的 不 同 













































































每 个 数组 项 包含 一 个 k_sigaction 结 构 实 例 ， 指 定 了 内 核 看 到 的 信号 属性 。 在 某 些 平台 上 ， 与 用 





















































户 空间 应 用 程序 相 比 ， 内 核 了 解 信号 处 理 程序 有 关 的 更 多 信息 。 通 常 ，k_sigaction 有 一 个 成 员 ， 类 
型 是 我 们 所 熟悉 的 sigaction 结 构 。 





<asm-arch/signal.h> 
struct k_ sigaction { 
struct sigaction sa; 


}3 
如 果 没 有 为 信号 设置 用 户 定义 的 处 理 程序 例 程 ( 这 意味 着 使 用 默认 的 例 程 )， 则 sa. sa_hangdler 






























































设置 为 SIG_DFL。 在 这 种 情况 下 ， 内 核 根据 信号 类 型 从 下 面 4 个 标准 操作 中 择 一 执行 。 


K. 



































口 忽略 : 什么 都 不 做 。 

口 结束 : 结束 进程 或 进程 组 。 

口 停止 : 将 进程 置 于 TASK STOPPED 状 态 。 

口 内 存 转 储 : 创建 地 址 空间 的 内 存 转 储 ， 并 写 入 内 存 转 储 文件 供 进 一 步 处 理 〈 例 如 ， 由 调试 器 
查看 )。 

表 5-2 给 出 了 各 种 信号 分 配 的 默认 处 理 程序 。 对 应 的 信息 可 以 从 <signal.n> 中 定义 的 宏 sIG_ 























































































































ERNEL ONLY MASK 、 SIG KERNEL COREDUMP MASK 、 SIG KERNEL IGNORE MASK 和 SIG KERNEL_ 























sTOP_MASK 获 取 。 


表 5-2 标准 信号 的 默认 处 理 操 作 





操 ” 作 信 号 

忽略 SIGCONT、SIGCHLD、SIGWINCH、SIGURG 

结束 SITGHUP、SIGINT、SIGKILL、SIGUSR1、SIGUSR2、SIGALRM、SIGTERM、SIGVTALRM、SIGPROF、 
SIGPOLL、SIGIO、SIGPWR 以 及 所 有 实时 信号 

停止 SIGSTOP、 SIGTSTP、SIGTTIN、SIGTTOU 

内 存 转 储 SIGQUIT、 SIGILL、 SIGTRAP、 SIGABRT、 SIGBUS、 SIGFPE、 SIGSEGV、 SIGXCPU、 SIGXFSZ、 


SIGSYS、 SIGXCPU、SIGEMT 















































GD 使 用 该 栈 的 信号 处 理 程序 ， 在 设置 时 必须 使 用 SA_ONSTACK 标 志 。 由 于 该 机 制 很 少 使 用 ， 我 在 这 里 不 会 讨论 。 
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所 有 阻塞 信号 
所 包含 














由 task_struct 的 plocked 成 员 定 义 。 所 使 用 的 sigset_t 数 据 类 型 是 一 个 位 掩 码 ， 











的 比特 位 数目 必须 (至 少 ) 与 所 文 持 的 信号 数目 相同 。 因 此 ， 内 核 使 用 了 unsigned long 数 组 ， 
数组 长 度 根据 _NsTG 和 _NsTG_BPW (每 个 字 包 含 的 比特 位 数目 ) 计算 。 


<asm-arch/signal.h> 




















#define _NSIG 64 
#define _NSIG_ BPW 32 
#define _NSIG_ WORDS (_NSIG / _NSIG_ BPW) 


typedef struct { 
unsigned long sig[_NSIG WORDS]; 


} 


pending 是 task_struct 中 


引发 、 仍 然 有 待 内 核 处 理 的 信号 。 它 们 使 


sigset_t; 






































<signal.h> 
struct sigpending { 


}; 


struct list head list; 


sigset t signal; 














与 信号 处 理 





1 相关 的 最 后 一 个 成 员 。 
用 了 下 列 数据 结构 : 























它 建立 了 一 个 链表 ， 包 含 所 有 已 经 





list 成 员 通 过 双 链 表 管理 所 有 待 决 信号 ， 而 signal 即 上 述 的 位 掩 码 ， 指 定 了 仍然 有 待 处 理 的 所 


























<signal.h> 
struct sigqueue { 


}s 


struct list head list; 


siginfo 七 info; 














有 信号 的 编号 。 链 表 元 素 的 类 型 是 sigqueue， 定 义 如 下 : 























各 个 链表 项 通过 1ist 连 接 起 来 。siginfo_t 数 据 结构 包含 有 关 待 决 信号 的 更 多 详细 信息 。 


<asm-generic/siginfo.h> 
typedef struct siginfo { 


} 

口 
口 
口 























ie 
int si_errno; 
int si_code; 























SIGSEGV， SIGBUS */ 


union { 
/* 特定 于 信号 的 信息 */ 
struct 1{ 二 和 下 于 于 
struct { . } _timer; /* POSIX.1b 定 时 器 */ 
struct { ... } _rt; /* POSIX.1b 信 号 */ 
SiGE. € oon SiOChLd; 
struct { . } _sigfault; /* SIGILL, SIGFPE, 
区 : } SioqBOLL; 

} _sifields 


SloLiNEoOL ES 


si_signo 保 存 了 信号 编号 。 





si_ertrno 为 非 零 值 ， 表 示 信 和 号 由 


si_code 表 示 信 号 来 源 的 详细 信息 。 我 们 只 对 用 户 信号 








(SI_KERNEL) 之 间 的 区 别 感 兴 


























内 核 处 理 某 些 信号 所 需 的 附加 信息 保存 在 _sifield 联 合 中 。 








号 的 指令 的 用 户 空间 地 址 。 











错误 引发 ， 否则 其 值 为 0。 




















于 使 用 了 很 多 数据 结构 ， 图 5-8 给 出 了 这 些 结构 之 间 的 关系 。 


(SsI_USER) 和 内 核 产 生 的 信号 


例如 ，_sigfault 包 含 了 引发 信 
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sighand 





k_sigaction[_NSIG] 
task_struct 




















图 5-8 用 于 信号 管理 的 数据 结构 





3. 实现 信号 处 理 

表 5-3 概 述 了 内 核 用 于 实现 信号 处 理 的 最 重要 的 系统 调用 。 实 际 上 ， 此 外 还 有 一 部 分 ， 其 中 一 些 
是 历史 性 的 ， 另 一 些 用 于 确保 与 各 个 标准 的 兼容 性 ， 其 中 最 重要 的 是 POSIX。 

尽管 信号 机 制 看 上 去 非常 简单 ， 但 各 种 必须 考虑 的 微妙 之 处 和 细节 ， 使 得 其 实现 要 复杂 得 多 。 
| 于 这 些 复杂 性 并 没有 揭示 与 实现 结构 有 关 的 重要 信息 ， 因 此 我 只 讲解 关键 机 制 ， 而 不 过 多 讨论 
具体 的 特例 。 
















































































































































































表 5-3 与 信号 相关 的 一 些 系统 调用 













































































系统 调用 功 能 

全 向 进程 组 的 所 有 进程 发 送 一 个 信号 

He 句 单个 进程 发 送 一 个 信号 

sigpending 检查 是 否 有 待 决 信号 

ee 操作 阻塞 信号 的 位 掩 码 

stguspeng 进入 睡眠， 直至 接收 到 某 个 特定 信号 
euU000 





不 论 名 称 如 何 ， 实 际 上 kil11 和 tkil11 分 别 癌 进程 组 或 单个 进程 发 送信 号 。 因 为 两 个 函数 基本 上 相 
同 ，” 所 以 我 只 讨论 sys_tkil1， 其 代码 流程 图 在 图 5-9 中 给 出 。 

在 find_task_pby_vpigd 找 到 目标 进程 的 task_struct 之 后 , 内 核 将 检查 进程 是 否 有 发 送 该 信号 所 
需 权限 的 工作 委托 给 check_kil1l_permission， 该 函数 进行 如 下 查询 : 


kernel/signal.c 
static int check kill permission(int sig, struct siginfo *info, 
struct task,_struct *t) 












































{ 





if ((info == SEND_SIG NOINFO || (!is_si_special (info) && SI_FROMUSER(info))) 
&& ((sig != SIGCONT) || 
(task_session nr(current) != task_session nr(t))) 


&& (current->euid ^ t->suid) && (current->euid ^ 七 ->uid) 
&& (current->uid ^ t->suid) && (current->uid ^ t->uid) 














@ sys_kil11 根 据 传递 的 PID 形 式 ， 向 几 个 进程 发 送信 和 号。 
pid > 0， 则 将 信号 发 送 到 指定 PID 对 应 的 进程 。 
pid = 0， 则 向 发 送信 号 的 进程 所 在 进程 组 的 所 有 成 员 ， 发 送 该 信号 。 
pid = -1， 则 向 所 有 pid > 1 的 进程 发 送 该 信号 。 
pid = -pgrp < -1， 则 向 pgrp 进 程 组 的 所 有 成 员 发 送 该 信号 。 
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&& lcapable (CAP_ KILL)) 
return -EPERM; 



















fing_task_by_voia | 
check_kill_permission | 


specific sengd sig info 

















sig_ignored? 


| 取消 处 理 















图 $-9 ”sys_tki11 的 代码 流程 


signal wake_ up 

































图 


记 住 ^ 运 算 符 实现 了 寞 或 操作 可 能 有 所 帮助 ， 但 这 个 检查 在 其 他 方面 相当 简单 。 
































剩余 的 信号 处 
口 如 采信 号 被 了 

















寨 ( 可 以 用 sig_ignored 检 查 )， 则 立即 放 











据 ， 并 添加 到 
口 如 果 





目标 进程 的 sigpending 链 表 。 














里 工作 则 传递 给 specific_senq_sig_info 进 行 。 














弃 处 理 ， 以 免 又 浪费 时 间 。 








口 seng_signal 产 生 一 个 新 的 sigqueue 实 例 (使 用 sigqueue_cachep 绥 存 )， 其 中 填充 了 信号 数 


言 号 成 功 发 送 ， 没 有 被 阻塞 ， 就 可 以 用 signal_wake_up 唤 醒 进 程 ， 使 得 调度 器 可 以 





























选择 该 进程 运行 。 此 外 ,还 设置 了 TIF_SsTGPENDING 标 志 ， 向 内 核 表 明 必 须 将 信号 传送 到 该 











进程 。 























尽管 在 这 些 操 作 之 后 信号 已 经 发 送 ， 但 还 不 会 触发 信号 处 理 





en0U0000 











系统 调用 不 会 触发 信号 队列 的 处 理 , 在 每 次 由 核心 态 切换 到 用 户 状态 时 ， 内 核 都 会 发 起 
是 在 sntry.Ss 的 汇编 语 





















































处 理 ， 在 第 14 章 会 提 到 这 一 点 。 由 于 处 怪 
特定 于 体系 结构 。 不 考虑 特定 的 体系 结构 ， 
也 是 平台 相关 的 ， 但 在 所 有 系统 上 的 行为 都 大 致 相同 。 
D get_signal_to_delivezr 收 集 了 与 需要 传送 的 下 一 个 信 
程 的 待 决 信号 链表 中 删除 该 信号 






























































执行 该 操作 最 终 的 效果 就 是 调用 do_signal 函 数 。 尽 管 它 


程序 。 下 文 将 会 讲解 触发 的 过 程 。 





言 号 队列 
因此 实现 自然 非常 








言 代码 中 发 起 的 ， 











号 有 关 的 所 有 信息 。 它 也 从 特定 于 进 





口 handle_signal 操 作 进 程 在 用 户 状 态 下 的 栈 ， 使 得 在 从 核心 态 切 换 到 用 户 状 态 之 后 运行 信号 
处 理 程序 ， 而 不 是 正常 的 程序 代码 。 这 种 复杂 的 方法 是 必要 的 ， 因 为 处 理 程序 函数 不 能 在 核 





























心态 执行 。 


















































栈 还 会 被 修改 ， 使 得 在 处 理 程序 函数 结束 时 调用 sigreturn 系 统 调 用 。 完 成 该 工作 的 方式 依赖 












































体 的 体系 结构 ,但 内 核 或 者 将 执行 该 系统 调用 的 机 费 代 码 指令 直接 写 到 栈 上 , 或 者 借助 用 
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U50 0000000 











户 空间 中 可 











































































































用 的 一 些 “ 胶 水 ”代码 。“ 该 例 程 负责 恢复 进程 上 下 文 ， 使 得 在 下 一 次 切换 到 月 


程序 继续 执行 











有 


户 状 态 和 核心 态 之 间 的 各 种 





状态 时 ， 应 用 程序 可 以 继续 运行 。 
图 5-10 按 时 间 顺 序 说 明了 上 述 流 程 ， 以 及 信号 处 理 程序 执行 期 间 在 用 
切换 。 
| | | 
户 状 态 证 号 处 
理 程序 
图 5-10 ”信号 处 理 程序 的 执行 
5.4.2 ”管道 和 套 接 字 
管道 和 套 接 字 是 流行 的 进程 间 通 信 机 制 。 我 在 这 里 只 概述 这 两 个 概念 的 了 











量 使 
文件 











shell 用 











了 内 核 的 其 他 子 系统 。 管 道 使 用 了 虚拟 文人 
F 系 统 。 

















户 可 能 比较 熟悉 


wolfgang@meitner> pr 





这 里 将 


个 进程 的 输出 





he 、 
管道 ， 


ghostscript | lpr- 


男 一 个 进程 的 输入 ， 


og 


用 作 





























换 数据 的 连接 。 
个 进程 可 以 通过 一 3 

在 通过 shell 产 生 管 道 时 
两 个 文 





道 。 


该 调 月 





口 





昌 返 











个 进程 向 管道 的 


列 


端 供给 煞 
接 起 来 。 





管道 连 


道 





在 命令 行 上 可 以 如 下 


F 系 统 对 象 ， 而 套 接 字 使 


使 月 





管道 负责 数 和 
局 ， 男 一 个 在 管道 男 一 端 取出 数 


有 : 


[ 作 方式 ， 


因为 二 者 都 大 























总 有 


NI 








? 














全 





上 述 符 ， 分 别 月 


























存在 于 同 








个 进程 





日， 





程 最 初 只 能 向 自身 发 送 消息 


二 





进 




















管道 是 进程 地 址 空 

















的 程序 就 利 











就 建立 了 

















了 了 这 种 特 生 
条 通信 链 路 





保 exec 调 
套 ] 





用 时 











不 会 关闭 文件 描述 符 )。 
缔 字 对 象 在 内 核 中 初始 化 时 也 返 








开 或 








套 j 




















度 来 看 ， 





同 


道 ， 套 接 字 可 以 双向 使 用 ， 还 可 以 用 了 
于 文 持 本 地 系统 上 两 个 进程 之 
谱 字 的 实现 是 内 核 中 相当 复杂 








程序 之 i 


在 内 核 版 本 2.6.26 


司 




















日 于 管道 的 两 端 ， 即 分 别 月 
， 所 以 这 不 怎么 号 
的 数据 对 象 ， 在 用 fork 或 clone 复 











FE。 在 exec 系 统 调用 用 另 




















必须 把 管道 描述 符 重 定向 

















回 一 个 文件 


通过 





与 


间 的 通信 )。 
的 一 部 分 ， 



































因为 需 
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了 太 大 差别 。 我 们 将 厂 
发 期 间 


A 
上 












































Q@ 在 IA-32 计 


机 





它 通 过 提供 


间 判 


统 调用 
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Sa 
Da 














断 最 好 使 














了 何 和 

















所 需 的 








代码 。 


的 机 











器 代码 指令 ， 帮 助 C 标 准 














描述 符 ， 


时 的 传输 。 
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顾 名 基 


[ny 











bs 





个 读 进程 和 一 个 写 进 程 。 应 用 程序 必须 调用 pipe 系 统 调 月 


外， 供 进一步 处 理 。 


了 各 种 网 络 函数 以 及 虚拟 











用 于 交 
几 


0 是 

















日 产生 管 











月 于 管道 上 





上 




















已 ， 








因此 可 以 像 普通 文 


章 进程 时 同样 会 被 复 和 
个 程序 蔡 换 子 进程 之 
到 标准 输入 和 输出 ， 或 者 调用 dup 系 统 


的 读 和 写 。 











于 两 个 描述 符 

















判 。 
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使 用 管道 通信 












































个 不 同 的 应 


牛 一 样 处 理 。 


用 程序 之 间 
周 用 ， 以 确 




















日 


旧 不 同 了 























网 络 连 接 的 远程 系统 通信 (这 





要 


系统 上 两 个 本 地 进程 之 间 的 通信 或 分 别处 于 两 个 不 同 大 


昌 的 通信 ， 它 们 没 有 12 章 深入 讨 


举例 来 说 ， 这 种 “胶水 ”代码 可 以 放置 在 vsyscal] 
库 找 到 在 给 定 计算 机 上 执 











三 
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抽象 机 于 


9 








| 来 隐藏 通信 的 细节 。 从 











问 
制 。 











| 论 这 种 机 





i 的 


页 中 ， 它 会 





不 意味 着 套 


接 字 无 法 








I 户 的 
的 应 用 











， 信 号 量 特定 于 体系 结构 的 实现 ， 已 经 蔡 换 为 一 种 通用 形式 。 当 然 ， 








日 





映射 到 每 个 


用 户 地 址 空间 中 。 

















行 系统 调 

















中 方法 ， 并 将 页 映射 到 每 个 














户 层 进程 的 地 址 空间 中 。 该 页 也 














包含 了 执行 前 


的 最 快速 方法 。 内 核 在 








自动 时 
述 的 sigreturn 系 
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口 口 311 
































与 优化 代码 相 比 , 通用 实现 的 执行 效率 稍 差 , 但 由 于 信和 号 量 在 内 核 中 并 未 广泛 应 用 ( 互 斥 量 常见 得 多 )， 
实际 上 没什么 问题 。struct semaphore 的 定义 已 经 移 到 include/linux/semaphore.h， 所 有 相关 操 























作 在 kernel/semaphore.c 中 实现 。 最 重要 的 是 ， 信 号 量 API 没 有 改变 ， 如 此 使 


无 需 修改 。 
































在 内 核 2.6.26 开 发 期 间 引 入 的 另 一 个 改变 是 自 旋 锁 的 实现 。 根 和 








非 竞 争 状态 ， 因 此 内 核 没 有 提供 在 多 个 等 竺 者 之 间 实 现 公 平 的 机 制 。 也 就 是 说 ， 如 








中 定义 我 们 认为 这 种 锁 一 般 都 处 了 

















符 自 旋 锁 ， 那 么 在 锁 被 当前 持 有 者 释放 之 后 ， 等 待 进程 的 运行 次 序 是 未 定义 的 。 但 测量 结果 表明 ， 石 














处 理 器 数目 较 多 的 计算 机 上 这 种 做 法 可 能 时 致 不 公平 问题 ， 例 如 有 









































有 变化 ， 因 此 使 用 自 旋 锁 的 现存 代码 也 无 需 修 改 。 
5.5 





一 














用 信号 量 的 现存 代码 


人 
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果 有 多 个 进程 在 




















8 个 CPU 的 系统 


/| 
尽管 几 年 前 多 处 理 器 系统 仍然 很 罕见 ， 但 近来 半导体 工程 取得 的 成 就 彻底 改变 了 这 一 点 。 由 于 多 





可 





。 当 今 这 种 计算 


5 一 








并 不 罕见 ， 因 此 修改 了 自 旋 锁 的 实现 ， 使 得 多 个 等 待 者 获取 锁 的 顺序 与 到 达 的 顺序 相同 。API 同 样 没 




















核 CPU 的 出 现 ，SMP 计 算 机 不 再 仅 限 于 数值 计算 和 超级 计算 等 专业 领域 ,也 出 现在 了 普通 的 桌面 计算 























机 上 。 这 对 内 核 提 出 了 一 些 很 独特 的 挑战 ， 内 核 的 多 个 实例 可 以 同时 运行 ，] 















































到 强大 的 RCU 机 制 ， 可 以 在 保证 性 能 的 同时 确保 并 行 操作 的 正确 性 





结构 的 操作 。 内 核对 此 提供 了 一 整套 机 制 ， 我 在 本 章 已 经 讨论 过 这 些 。 这 些 























这 需要 协调 对 共享 数据 
几 制 从 简单 快速 的 自 旋 锁 
的 解决 方案 非常 重要 ， 

















我 也 讨论 过 需要 选择 适当 的 设计 ， 通 过 细 粒 度 锁 来 保证 性 能 的 同时 ， 在 较 小 型 的 计算 机 上 不 增加 过 多 


























的 开销 。 





















































在 用 户 层 进程 彼此 通信 时 , 也 会 出 现 与 内 核 类 似 的 问题 ,除了 提供 允许 独立 进程 通信 的 机 制 之 外 ， 


内 核 还 必须 向 进程 提供 同步 机 制 ,在 本 章 中 , 我 讨论 了 在 Linux 内 核 里 , 如 何 实现 原本 是 System V UNIX 


























中 的 这 些 机 制 。 





第 6 


\ 几 备 驱 动 程序 是 内 核 的 关键 领域 ， 
了 又 序 可 用 的 外 设 数 





至 
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设备 驱动 程序 














分 致力 于 设备 驱动 程序 的 实现 。 


的 原 
些 也 不 行 )。 











有 重要 的 部 分 
来 讲述 。 而 

















设备 驱动 程序 基于 
因 )。Linux 内 核 中 驱动 程序 的 数 
幸运 的 是 ， 我 们 也 不 必要 这 么 做 。 
因此 , 我 们 在 本 章 只 需要 讨论 所 有 对 
， 所 以 本 章 将 忽略 与 编写 引 
目前 有 两 本 书 讲 得 都 是 儿 









































因为 许多 


目 和 驱动 程序 对 外 设 的 支持 程度 来 判断 。 





P 心 内 核 提供 的 许多 不 同 的 机 制 ( 这 是 有 时 
目 巨大 ， 意 味 着 我 们 不 可 能 详细 地 讨 
因为 驱动 程序 的 结构 通常 











用 户 判 断 操 作 系 统 性 能 时 ， 主 要 是 通过 有 了 驱动 程 


























丸 此 ， 内 核 源 代码 的 相当 大 一 部 











驱动 程序 被 称 之 为 内 核 “ 应 用 程序 ” 
论 所 有 驱动 程序 〈 即 使 是 一 
E 常 类 似 ， 并 且 与 设备 无 关 ， 




































































Device Driversu 一 书 


荐 该 书 。 最 近 
Venkateswaran 。 
Kunst。 上 述 纪 
并 管理 
设备 驱动 程 
多 讨论 对 底 


6.1 
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2 











([CRKH05])。 对 任何 因 
内 核 黑客 的 书架 上 又 增 加 了 一 本 Essential Linux Device Drivers ([Ven08] )， 作 者 是 














K 动 程序 共有 的 儿 个 关键 方面 。 
区 动 程序 相关 的 一 些 具 体内 容 ， 
写 驱动 程序 。 该 领域 中 的 经 典 教 科 书 是 Corbet 等 人 的 Linux 











于 本 书 的 目标 是 涵盖 内 核 所 
因为 这 些 本 身 就 需要 用 一 本 书 






































兴趣 或 工作 而 需要 编 











写 设备 驱动 程序 的 人 ， 我 们 竭力 推 











能 够 阅读 德 文 的 读者 当然 也 会 喜欢 Linux Gerdtetreiber([QK06])， 作 者 是 Quade 和 











数据 结构 和 通 
字 相 关 的 




















基础 设施 的 实现 。 


IO 体系 结构 











与 乡 
能 出 现 i 





设 的 通 
题 的 领域 











加 

















可 
必须 向 


] 户 应 用 





保 程序 设计 的 工 











作 量 不 会 过 多 ， 











最 后 ， 
与 乡 








在 我 们 ; 




















用 户 空间 
设 的 通 


对 各 个 设备 


解 Linux 内 核 


需要 知道 内 核 


信和 通常 称 之 为 吕 
首先 ， 必 须根 据 具 体 的 设备 类 型 和 模型 ， 使 用 
设备 的 方法 。 但 凡 有 可 能 ， 都 应 当 采 用 统一 的 方案 ， 确 
保证 应 用 程序 能 够 在 不 考虑 特定 便 件 方法 的 情况 下 进行 互 操 作 。 


程序 和 系统 工具 所 





窟 是 层次 化 的 ， 
的 访问 ， 通 过 











层次 











对 于 详细 的 i 











Q@ 此 书 中 文 版 《Linux 设 备 驱动 程序 》 已 经 由 中 


的 参考 书 都 是 对 本 书 的 补充 。 在 这 
1 的 基础 设施 。 此 外 ， 我 们 还 要 讨论 用 于 支持 设备 驱动 程序 的 例 程 。 


BB 籍 ， 一 般 都 会 重点 可 使 用 这 些 例 程 来 真正 创建 新 的 驱动 程序 ， 而 不 会 过 






































解 如 








D0 








日 


提供 





:访问 各 利 


Ee， 我 们 主要 i 


DD ， 一般 都 缩写 为 W/O。 在 实现 外 设 的 VO 时 ， 内 核 必须 处 理 3 个 可 








述 内 核 如 何 为 设备 驱动 程序 设置 
男 一 方面 























]， 




































































司 时 








Ph 有 哪些 设备 可 
图 6-1 
化 的 多 个 抽象 层 进行 。 在 层次 结构 的 底部 是 设备 
系统 连接 到 其 他 设备 和 系统 CPU。 设 备 与 内 核 的 通信 经 由 该 路 径 进行 。 
相关 的 算法 和 结构 之 前 ， 值 得 简要 看 看 乡 
解 ， 读 者 可 以 参考 与 硬件 相关 的 出 版 物 ， 如 [MD03 ]。 


如 





用 。 





所 示 。 
























































四 




















各 种 方法 对 硬件 寻 址 。 其 次 ， 内 核 











电力 出 版 社 出 版 。 一 一 编者 注 





自身 ， 


它 通 过 总 线 




















部 的 扩展 便 件 通常 如 何 工 作 。 

















6.1 VODDOO 313 










































设备 特殊 文件 











: VFS 


Ez 


图 6-1 外 设 寻 址 的 分 层 模 型 








扩展 硬件 
人 硬件 设备 可 能 以 多 种 方式 连接 到 系统 。 主 板 上 的 扩展 槽 或 外 部 连接 器 是 最 常用 的 方法 。 当 然 ， 扩 

展 硬件 也 可 以 直接 集成 到 主板 上 。 这 种 方法 近年 来 变 得 比较 流行 。 虽 然 在 80386 时 代 把 硬盘 控制 器 作 

为 扩展 卡 揪 到 主板 的 特定 插 槽 中 是 很 平常 的 事情 ， 但 当今 即使 服务 器 主板 也 算得 上 司空 见 惯 。 主 板 上 

能 够 容纳 网 络 、USB、SCSI、 图 形 卡 等 芯片， 而 不 需要 庞大 的 扩展 卡 。 在 手持 和 迷你 笔记 本 领域 ， 这 

种 小 型 化 倾向 正在 进一步 推进 。 就 内 核 而 言 ， 外 设 连接 到 系统 其 他 部 分 的 方式 通常 没有 影响 ， 因 为 提 

象 屏蔽 了 这 些 硬 件 细节 。 

1. 总 线 系统 

尽管 外 设 的 范围 可 能 看 上 去 是 无 限 的 :从 CD 刻录 机 、 调 制 解 调 器 、ISDN 板 到 照相 机 和 声卡 等 ， 

但 这 些 都 有 一 个 共同 点 。 它 们 并 不 直接 连接 到 CPU， 而 是 通过 0 0 连接 起 来 。 总 线 负责 设备 与 CPU 之 

间 以 及 各 个 设备 之 间 的 通信 。 有 很 多 方法 可 以 实现 总 线 ,，“ 其 中 大 多 数 方法 Linux 都 能 够 支持 。 以 下 列 

出 了 一 些 代 表 性 的 总 线 。 

口 PCI (Peripheral Component Interconnect): 许多 体系 结构 上 使 用 的 主要 系统 总 线 。 因 而 在 本 章 

的 后 续 部 分 ， 我 们 将 仔细 考察 PCI 的 特性 及 其 在 内 核 中 的 实现 。PCI 设 备 插入 到 系统 主板 的 扩 

展 权 中 。 该 总 线 的 现代 版 本 也 支持 热 插 拔 ， 使 得 设备 可 以 在 系统 运行 时 连 入 或 断 开 (尽管 该 
选项 很 少 使 用 ， 内 核 源 代码 仍然 支持 此 功能 )。PCI 的 传输 速度 最 大 能 够 达到 每 秒 几 百 兆 字 节 ， 
所 以 应 用 得 非常 广泛 。 

口 ISA (Industrial Standard Architecture): 一 种 比较 古老 的 总 线 ， 应 用 仍然 很 广泛 (这 一 点 令 人 遗 
憾 )。 因 为 ISA 在 电学 原理 上 非常 简单 ， 这 使 得 爱好 者 和 小 公司 很 容易 设计 制造 额外 的 人 硬件。 
这 也 正 是 IBM 在 PC 发 展 早期 引入 该 总 线 的 意图 。 但 随 着 时 间 推 移 ， 该 总 线 引 起 了 越 来 越 多 的 
问题 ， 在 更 高 级 的 系统 中 最 终 被 替换 掉 。ISA 与 IA-32 体 系 结构 〈 及 其 前 辈 ) 的 某 些 特性 绑 定 
非常 紧密 ， 但 也 可 以 用 于 其 他 的 处 理 器 。 

口 SBus: 这 是 一 个 非常 高 级 的 总 线 ， 不 过 已 经 出 现 很 多 年 了 。 它 由 SUN 公 司 设计 ， 是 一 种 非 私 
有 的 开放 总 线 ， 但 未 能 在 其 他 体系 结构 上 为 自身 赢得 一 个 位 置 。 尽 管 SUN 公 司 基于 UltraSparc 
的 更 新 机 型 在 向 PCI 的 方 癌 转移 ， 但 SBus 仍 然 在 旧 一 点 的 SparcStation 上 发 挥 着 重要 作用 ， 因 此 
Linux 文 持 了 该 总 线 。 

口 IEEE1394: 对 市 场 而 言 ， 这 显然 不 是 一 个 较 通 俗 的 名 字 。 因 而 茶 些 厂商 将 其 称 之 为 FireWire， 而 
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Q 严格 地 说 ， 总 线 不 仅 可 以 用 来 与 外 设 通信 ， 还 可 以 与 系统 的 基本 组 件 ( 如 物理 内 存 ) 交换 数据 。 但 由 于 总 线 更 多 
的 是 与 硬件 和 电子 学 相关 ， 而 与 软件 和 内 核 交 互 较 少 ， 所 以 我 在 这 里 就 不 仔细 讨论 了 。 
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另 一 些 则 称 之 为 Ilink。 它 有 几 个 非常 有 趣 的 技术 特性 ， 包 括 预 先 设 计 的 热 插 拔 能 力 、 非 常 高 的 传 


OD USB 
上 





用 














输 速 率 。IEEE1394 是 高 端 笔记 本 电 
(Universal Serial Bus): 这 也 是 一 种 
自动 检测 新 硬件 的 能 力 。 其 最 高 速 
于 CD 刻录 机 、 键 盘 、 鼠 标 之 类 的 设备 。 该 总 线 的 一 种 新 版 本 〈2.0) 的 最 大 传输 速率 更 大 ， 


的 主要 特性 是 热 插 拔 能 力 ， 及 其 
































但 实际 上 软件 没什么 变 
USB 系 统 的 拓扑 结构 异乎 寻常 


化 《硬件 









































脑 上 非常 流行 的 一 种 外 部 总 线 ， 提 供 


层次 上 的 差别 要 大 得 多 ， 但 
， 其 中 的 设备 不 是 按 一 条 单 链 








人 








种 高 速 的 扩展 选项 。 





用 的 外 部 总 线 ， 有 很 高 








| 泛 应 
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的 市 场 接受 度 。 该 总 线 


中 等 水 平 ， 但 足以 


幸运 的 是 我 们 无 需 操 心 这 些 )。 
排 布 ， 而 是 按 树 型 结构 排 布 。 在 内 


Es 





































































































































































































核 寻 址 此 类 设备 时 ， 该 事实 就 显而易见 了 。USB 集 线 器 用 作 树 的 结 点 ， 在 它 上 面 可 以 进一步 连 
接 其 他 设备 〈 包 括 其 他 USB 集 线 器 )。USB 还 有 一 个 异乎 寻常 的 特性 ， 可 以 为 各 个 设备 预 留 固 
定 的 带宽 。 在 实现 均匀 数据 流 时 ， 这 是 一 个 重要 因素 。 

口 SCSI (Small Computer System Interface ): 这 种 总 线 过 去 称 为 0DDDOUDODD ， 因 为 相关 外 设 
的 成 本 很 高 。 由 于 SCSI 文 持 非常 高 的 数据 吞吐 率 ， 因 此 它 主要 用 在 服务 器 系统 上 寻 址 硬盘 ， 
可 适用 于 大 多 数 处 理 器 体系 结构 。 

它 很 少 用 于 工作 站 系统 ， 因 为 与 其 他 总 线 相 比 ，SCSI 的 电气 安装 非常 复杂 (每 个 SCSI 链 都 必 
须 终结 ， 才 能 正常 工作 。 

口 并 口 与 串口 (Parallel and Serial Interface): 这 些 存 在 于 大 多 数 体系 结构 上 ， 无 论 整 个 系统 的 设 

计 如 何 。 这 些 总 线 非常 简单 而 速率 极 低 ， 用 于 外 部 连接 ， 已 经 非常 古老 。 这 些 总 线 用 于 寻 址 











无 论 采 








设计 通常 包括 两 个 通过 桥接 器 互 连 的 PCI 总 线 。 出 于 兼容 性 的 原 
些 总 线 〈 如 USB 或 FireWire ) 无 法 作为 主 总 线 ， 始 终 需要 经 












































下 只 有 一 个 所 


E 模 )。 





























数据 传递 给 




















慢 速 设备 〈 如 打印 机 、 调 制 解 调 器 和 键盘 等 )， 此 类 设备 没什么 性 能 要 求 。 


用 的 处 到 











器 体系 结构 如 何 ， 系 统 都 不 会 只 有 一 种 总 线 ， 而 是 一 些 总 线 的 组 合 。 当 前 的 PC 



































因 ， 有 时 也 带 有 ISA 总 线 (大 多 数 情况 








1 另 一 个 系统 总 线 将 














理 器 。 图 6-2 说 明了 系统 中 不 同 总 线 的 连接 方式 。 





内 存 
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PCI 桥 接 器 
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2. 与 外 设 的 交互 

下 面 我 们 讲解 与 外 设 通 信 的 方法 。 有 几 种 方法 可 以 与 连接 到 系统 的 硬件 通信 。 

@ LILOUD 

一 种 选项 是 使 用 IA-32 和 许多 其 他 体系 结构 上 都 有 的 IO 端口 。 在 这 种 情况 下 , 内 核发 送 数据 给 IO 
控制 器 。 数 据 的 目标 设备 通过 唯一 的 端口 号 标识 ， 数 据 被 传输 到 设备 进行 处 理 。 处 理 器 管理 了 一 个 独 
立 的 虚拟 地 址 空间 ， 可 用 于 管理 所 有 LO 地 址 。 但 其 余 的 系统 硬件 必须 支持 这 种 方式 。 




































































































































































Wo 如 加 加 加 加 加 加 时 加 加 加 本 可 加 
0g 人 ogo 


有 不 同类 型 的 端口 。 有 些 是 只 读 的 ， 有 些 是 只 写 的 ， 但 通常 的 端口 都 可 以 双向 操作 ， 使 得 处 理 器 
与 外 设 之 间 可 以 双向 交换 数据 (进而 ， 在 应 用 程序 和 内 核 之 间 )。 
在 IA-32 体 系 结构 上 , 端口 地 址 空间 由 2“( 即 大 约 64 000) 个 不 同 的 8 位 地 址 组 成 , 通过 0x0 到 0xFFFF 
之 间 的 数字 唯一 标识 。 对 其 中 的 每 个 端口 号 而 言 ， 或 者 已 经 分 配 了 一 个 设备 ， 或 者 未 使 用 。 几 个 外 设 
tk 享 一 个 端口 是 不 可 能 的 。 

考虑 到 当今 的 复杂 技术 ，8 个 比特 位 在 与 外 部 设备 交换 数据 时 并 不 算 多 。 因 此 ， 可 以 将 两 个 连续 
的 8 位 端口 合并 为 一 个 16 位 端口 。 进 一 步 地 ， 两 个 连续 的 16 位 端口 (实际 上 是 4 个 连续 的 8 位 端口 可 
以 认为 是 一 个 32 位 端口 。 处 理 占 提供 了 一 些 适当 的 汇编 语句 ， 可 以 进行 输入 输出 操作 。 

每 种 处 理 器 类 型 实现 端口 访问 的 方式 都 不 同 。 因此， 内 核 必 须 提 供 一 个 适当 的 抽象 层 。 诸 如 outb 
( 写 一 个 字 节 )、outw〔 写 一 个 字 )、inb〔 读 取 一 个 字 节 ) 之 类 的 命令 在 asm-arch/io.h 中 实现 。 这 
些 定义 与 具体 处 理 器 非常 相关 ， 所 以 我 们 不 好 在 这 里 单独 讨论 。” 

@LIOoU0OD0OD 
程序 员 必 须 寻 址 许多 设备 ， 与 内 存 的 处 理 方式 类 似 。 因 此 现代 处 理 器 提供 了 对 IO 端口 进行 
吕 口 的 选项 ， 将 特定 外 设 的 端口 地 址 映射 到 普通 内 存 中 ， 可 以 像 处理 普 通 内 存 那样 操作 外 设 。 
通常 会 使 用 这 类 操作 ， 因 为 与 使 用 特定 的 端口 命令 相 比 ， 处 理 大 量 图 像 数 据 时 使 用 普通 处 理 器 命令 
更 容易 。 诸 如 PCI 之 类 的 系统 总 线 通常 也 是 通过 IO 地 址 映射 进行 寻 址 的 。 
为 使 用 内 存 映 射 ， 首 先 必 须 将 MO 端口 映射 到 普通 的 系统 内 存 中 【使 用 特定 于 处 理 器 的 例 程 )。 在 
不 同 的 底层 体系 结构 之 上 ， 完 成 这 一 任务 的 方法 有 很 大 的 不 同 ， 内 核 再 次 提供 了 一 个 小 的 抽象 层 ， 主 
要 包括 ioremap 和 :iounmap 命 令 ， 分 别 用 于 映射 TO 内 存 区 和 解除 映射 。 我 不 打算 专门 讨论 其 实现 。 

e00000 
除了 访问 外 部 设备 的 细节 之 外 ， 男 一 个 问题 也 很 有 趣 。 系 统 如 何 知道 某 个 设备 的 数据 已 经 就 绪 、 
可 以 读 取 ? 有 两 种 方法 可 以 判断 : 使 用 轮 询 或 中 断 。 
DD (polling) 方案 不 怎么 优雅 ， 但 背后 的 策略 非常 简单 。 只 需 重复 询问 设备 数据 是 否 可 用 ， 如 
上 月 ， 则 处 理 器 取 回 数据 。 
显然 ， 这样 做 比较 浪费 资源 。 为 检查 外 设 的 状态 需要 花费 系统 的 大 量 运行 时 间 ， 从 而 会 影响 如 
任务 的 执行 。 
DD 是 更 好 的 备 选 方案 。 每 个 CPU 都 提供 了 0UDD (interrupt line)， 可 由 各 个 系统 设备 共享 〈 几 
个 设备 也 可 能 共享 一 个 中 断 ， 我 会 在 下 文 讨论 )。 每 个 中 断 通 过 一 个 唯一 的 号 码 标识 ， 内 核对 使 用 的 
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Q@ 尽管 如 此 ， 从 某 种 角度 来 看 ，IA-32 处 理 器 上 1/O 函 数 的 实现 很 有 趣 ，include/asm-i386/io.h 使 用 了 大 量 微妙 的 
预 处 理 器 技巧 。 
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每 个 中 断 提 供 一 个 D D DD 。 
中 断 将 暂停 正常 的 系统 工作 。 在 外 设 的 数据 已 经 就 绪 ， 内 核 或 应 用 程序 (间接 地 ) 处 理 时 ， 
外 设 会 引发 一 个 中 断 。 使 用 这 种 方法 ， 系 统 就 不 再 需要 频繁 检查 是 否 有 新 的 数据 可 用 。 因 为 外 设 在 丰 
新 数据 的 情况 下 可 以 自动 通知 系统 。 
中 断 处 理 和 相关 实现 比较 复杂 ， 我 将 在 第 14 章 单独 讨论 。 
3. 通过 总 线 控制 设备 
并 非 所 有 设备 都 是 直接 通过 WO 语句 寻 址 ， 也 有 通过 总 线 系统 访 问 的 。 具 体 的 方式 与 所 用 的 总 线 
和 设备 相关 。 在 这 里 我 不 打算 深入 到 具体 的 细节 ， 我 只 会 讲解 各 种 方法 之 间 的 基本 差别 。 
并 非 所 有 设备 类 别 都 可 以 连接 到 所 有 总 线 系 统 。 例 如 ， 可 以 将 硬盘 和 CD 刻录 机 连接 到 SCSI 接 口 ， 
但 图 形 卡 就 不 行 。 但 后 者 可 以 插入 到 PCI 槽 中 。 相 比 之 下 ， 硬 盘 必 须 通过 另 一 种 接口 〈 通 常 是 IDE) 才 
能 连接 到 PCI 总 线 。 
不 同 的 总 线 类 型 称 作 口 口 和 0 0 总线 (我 不 会 费力 探究 其 技术 细节 )。 对 内 核 来 说 ， 硬 件 实现 方 
面 的 差别 并 不 重要 (因而 在 编写 设备 驱动 程序 时 ， 也 不 会 有 什么 关联 )。 只 有 总 线 和 附 接 外 设 寻 址 的 
方式 ， 才 与 我 们 讨论 的 主题 相关 。 
就 系统 总 线 而 言 ( 对 很 多 处 理 器 类 型 和 体系 结构 来 说 ， 是 PCI 总 线 )， 可 使 用 VO 语句 和 内 存 映 射 
与 总 线 自身 和 附 接 的 设备 通信 。 内 核 也 为 驱动 程序 提供 了 几 个 命令 ,以 调用 特殊 的 总 线 功 能 : 查询 可 
用 设备 的 列表 、 按 统一 的 格式 读 取 或 设置 配置 信息 ， 等 等 。 这 些 命令 都 是 平台 无 关 的 ， 相 应 的 代码 在 
各 种 平台 上 使 用 时 无 需 改变 ， 因 而 简化 了 驱动 程序 的 开发 。 
扩展 总 线 如 USB、IEEE1394、SCSI 等 ， 通 过 明确 定义 的 总 线 协 议 与 附 接 的 设备 交换 数据 和 命令 。 
内 核 通过 W/O 语句 和 内 存 映射 与 总 线 自身 通信 ， "同时 提供 了 平台 无 关 的 例 程 ， 使 总 线 能 够 与 附 接 的 设 
备 通信 。 
与 总 线 上 附 接 的 设备 通信 ， 不 见得 一 定 在 内 核 空间 中 由 设备 驱动 程序 进行 ， 有 时 也 可 能 在 用 户 空 
间 中 实现 。 最 初 的 例子 是 SCSI 刻 录 机 ， 通 常 通过 cdrecord 工 具 访 问 。 该 工具 产生 需要 的 SCSI 命 令 ， 
然后 利用 内 核 经 SCSI 总 线 将 命令 发 送 到 对 应 的 设备 ， 并 处 理 设备 返回 的 信息 和 响应 。 


6.2 访问 设备 
000000 (0000) 用 于 访问 扩展 设备 。 这 些 文件 并 不 关联 到 硬盘 或 任何 其 他 存储 介质 上 

的 数据 段 ， 而 是 建立 了 与 某 个 设备 驱动 程序 的 连接 ， 以 支持 与 扩展 设备 的 通信 。 就 应 用 程序 而 言 ， 普 

通 文件 和 设备 文件 的 处 理 有 一 点 差别 。 二 者 都 可 以 通过 同样 的 库 函 数 处 理 。 但 为 了 处 理 方便 ， 系 统 还 

提供 了 几 个 额外 的 命令 用 于 设备 文件 ， 这 些 对 普通 文件 是 不 可 用 的 。 

6.2.1 设备 文件 


我 们 通过 附 接 到 串 行 接口 的 调制 解 调 器 ， 来 讨论 设备 文件 的 处 理 方法 。 对 应 的 设备 文件 名 称 是 
/dev/ttyS0。 设 备 并 不 是 通过 其 文件 名 标识 ， 而 是 通过 文件 的 主 、 从 设备 号 标识 。 这 些 号 码 在 文件 
系统 中 作为 特别 的 文件 属性 管理 。 
用 于 读 写 普通 文件 的 工具 ， 同 样 用 来 向 设备 文件 写 入 数据 或 读 取 处 理 结果 。 例 如 ， 
wolfgang@meitner> echo "ATZ" > /dev/ttys0 


向 连接 到 第 一 个 串 行 接口 的 调制 解 调 器 发 送 一 个 初始 化 字符 串 。 































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































J) 这 些 总 线 通 常 是 PCI 插 槽 中 的 扩展 卡 ， 它 们 必须 以 适当 方式 进行 编 址 。 
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6.2.2 








的 数据 交换 ， 
区 分 字符 设备 和 块 设 备 。 前 一 类 包括 串 行 接 


[XI 








1. 标识 设备 文件 


上 述 两 种 类 型 可 以 通过 对 应 设备 文件 的 属性 来 区 分 。 








字符 设备 、 块 设备 和 其 他 设备 
根据 外 设 与 系统 之 间 交 换 数 









































包含 固定 数 














我 们 来 看 一 下 /dev 


wolfgang@meitner> Js -1 /dev/sdf{a,b} /dev/ttyst{0,1} 





局 的 方法 ， 可 以 将 设备 分 为 几 种 类 别 。 有 些 设备 非常 适合 于 面向 字符 
因为 数据 传输 量 很 低 。 其 他 的 设备 则 更 适合 于 处 型 
口 和 文本 终端 ， 而 后 一 类 则 包括 人 硬盘、 光驱 等 设备 。 





子 节 的 数据 块 。 内 核 会 


目录 的 一 些 成 员 。 





brw-r----- 1 root disk 8, 0 2008-02-21 21:06 /dev/sda 

brw-r-----— 1 root disk 8, 16 2008-02-21 21:06 /dev/sdb 

Crw-rw----l1 root uucp 4, 64 2007-09-21 21:12 ttyS0 

Crw-rw----l1 root uucp 4, 65 2007-09-21 21:12 ttySs1 

在 很 多 方面 ， 上 面 的 输出 都 与 普通 文件 没什么 区 别 ， 特 别 是 在 访问 权限 方面 。 但 其 中 有 两 个 重要 


























中 。 





口 访问 权限 之 


El 











的 字母 是 pb 或 ce， 分 另 




































































I 表示 0 DD 和 0 000D。 

































































































































































































































































口 设备 文件 没有 文件 长 度 ， 而 增加 了 另外 的 两 个 值 ， 分 别 是 0 口 口 O 和 DO0D0D0 。 二 者 共同 形 
成 一 个 唯一 的 号 码 ， 内 核 可 由 此 查找 对 应 的 设备 驱动 程序 。 

国 
sa 
| 

内 核 采 用 主 从 设备 号 来 标识 匹配 的 驱动 程序 。 采 用 两 个 号 码 的 原因 ,与 设备 驱动 程序 的 通用 结构 
有 关 。 首 先 ， 系 统 可 能 包含 几 个 同样 类 型 的 设备 ， 由 同一 个 设备 驱动 程序 管理 (将 同样 的 代码 多 次 加 
载 到 内 核 也 没有 意义 )。 其 次 ， 可 以 将 同类 设备 合并 起 来 ， 便 于 插入 到 内 核 的 数据 结构 中 进行 管理 。 
主 设备 号 用 于 寻 址 设备 驱动 程序 自身 。 根 据 上 述 的 例子 可 知 ， 硬 盘 sdaa 和 saqb 所 在 的 第 1 个 SATA 
控制 权 的 主 设备 号 是 8。 驱动 程序 管理 的 各 个 设备 〈 即 第 1 个 和 第 2 个 硬盘 ) 则 通过 不 同 的 从 设备 号 指 
定 。sqa 对 应 于 0，sqb 对 应 于 16。 两 个 从 设备 号 之 间 为 什么 有 很 大 的 差距 ? 我 们 来 看 一 下 /dev 目录 中 


与 sda 便 盘 有 关 的 其 他 设备 文件 。 














wolfgang@meitner> Is -1 /dev/sda* 















































brw-r----- 1 root disk 8, 0 2008-02-21 21:06 /dev/sda 
DEW=E = 1 root disk 8, 1 2008-02-21 21:06 /dev/sdal 
brw-r-----— 1 root disk 8, 2 2008-02-21 21:06 /dev/sda2 
brw-r-----— 1 root disk 8, 5 2008-02-21 21:06 /dev/sda5 
brw-r-----— 1 root disk 8, 6 2008-02-21 21:06 /dev/sda6 
brw-r----- 1 root disk 8, 7 2008-02-21 21:06 /dev/sda7 
正如 读者 所 知 ,硬盘 的 各 个 口 口 可 以 通过 设备 文件 进行 寻 址 (如 /gev/sqga? 
/aev/saa 则 代表 了 0 0 硬盘 。 连续 的 副 设备 号 用 于 标识 各 个 分 区 , 这 使 得 驱动 程序 可 以 








区 。 


个 驱动 程序 可 以 分 配 多 个 主 设备 号 。 如 果 系 统 上 有 





备 号 将 与 第 1 个 不 同 。 
刚才 讲解 的 区 别 


的 主 设备 号 是 4， 而 各 个 串 




















岂 适 

































































蛋 于 字符 设备 ， 字 符 设备 同样 
中 的 从 设备 号 




















164 开 始 分 配 。 


主 从 设备 号 标识 。 例 如 ， 串 行 接口 

















L、/aev/sda2 等 )， 而 


区 分 不 同 的 分 





丽人 个 SATA 总 线 ， 那 么 第 2 个 SATA 通 道 的 主 设 





驱动 程序 
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加 
gO 











在 Linux 发 展 的 早期 ， 主 设备 号 是 用 
在 为 新 驱动 程序 分 配 主 从 设备 号 时 ， 主 要 是 通过 一 个 半 官 方 组 织 管理 。 如 果 了 驱动 程序 不 使 用 该 列表 中 
注册 的 主 设备 号 标识 其 设备 ， 那 么 该 驱动 程序 不 能 也 不 会 包含 到 内 核 源 代码 的 标准 发 布 版 中 。 
设备 号 的 当前 列表 可 以 从 http://www.lanana.org 获 取 。 这 个 网 址 看 起 来 相当 古怪 ， 它 是 Linux 
assigned name and numbers authority 的 首 字母 缩写 。 内 核 源 代码 的 标准 发 布 版 也 包括 了 
Pp 给 出 了 该 版 本 发 布 时 的 最 新 数据 。 比 纯粹 的 数字 更 容易 读 














Documentation/devices.txt 文 件 ， 其 中 















































种 非常 宽松 的 方法 分 配 的 (其 时 只 有 少量 驱动 程序 )， 但 现 














































































































的 预 处 理 器 常数 ， 则 定义 在 <major.h> 中 。 该 文件 的 设备 号 与 LANANA 列 表 中 分 配 的 号 码 是 同步 的 ， 
但 并 非 LANANA 分 配 的 所 有 设备 号 都 对 应 了 一 个 预 处 理 器 符号 。SCSI 人 磁盘 〈SATA 设 备 归于 此 类 ) 和 



























































TTY 设 备 的 主 设备 号 分 别 是 8 和 4， 


<major.h> 


#define TTY_ MAJOR 

















#define SCSI_DISKO_ MAJOR 


2. 动态 创建 设备 文件 








/dev 中 的 设备 结 点 一 般 是 在 基于 侯 盘 的 文件 系统 中 静态 创建 的 。 随 着 支持 的 设备 越 来 越 多 , 必须 

















安置 和 管理 越 来 越 多 的 项 ， 

















个 设备 结 点 相 比 ) 设备 ， 
切换 到 udaevda， 这 是 一 个 
udevd 的 基本 思想 如 
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热 插 拔 消息 : 








图 6-3 使/ 























下 列 预 处 理 器 符号 表示 : 























型 的 发 布 版 大 约 包含 20 000 项 。 一 般 的 系统 只 包含 少量 (与 可 用 的 20 000 
[大 多 数 项 是 不 必要 的 。 因 此 几乎 所 有 的 发 布 版 都 将 /dev 内容 的 管理 工作 
护 进程 ， 允 许 从 用 户 层 

6-3 所 示 。 即 使 从 用 户 层 
就 无 法 判断 系统 上 有 哪些 设备 可 用 。 






























































动态 创建 设备 文件 。 
管理 设备 文件 ， 内 核 的 支持 也 是 绝对 必要 的 ， 否则 




























训 建 新 、| /dev/sda 


新 设备 





























judeva 从 用 户 层 管理 设备 结 点 











每 当 内 核 检 测 到 一 个 设备 时 ， 都 会 创建 一 个 内 核对 象 kopject (参见 第 1 草 )。 该 对 象 借助 于 sysfs 
文件 系统 导出 到 用 户 层 ( 更 多 细节 请 参见 10.3 节 )。 此 外 ， 内 核 还 向 用 户 空 间 发 送 一 个 热 插 拔 消息 ， 这 











一 点 会 在 7.4 节 讨论 。 












































如 果 在 系统 启动 期 间 发 现 新 设备 ， 或 在 运行 期 间 有 新 设备 接 入 《如 USB 存储 棒 )， 内 核 产 生 的 热 





插 拔 消息 包含 了 驱动 程序 为 设备 分 配 的 主 从 设备 号 。udeva 守 护 进程 所 需 完成 的 所 有 工作 ， 就 是 监听 





这 些 消息 。 在 注册 新 设备 时 ， 会 在 /dev 
由 于 引入 了 udev 机 制 ， /dev 不 有 





























文件 系统 ramfs 的 一 种 轻型 变 体 。 这 意味 着 设备 结 点 不 是 持久 性 的 ， 系 统 关 机 / 重 局 后 就 会 消失 。 如 果 





















































FP 创 建 对 应 的 项 ， 接 下 来 就 可 以 从 用 户 层 访问 该 设备 了 。 
引 放 置 到 基于 磁盘 的 文件 系统 中 ， 而 是 使 用 tmp 名 ， 这 是 RAM 做 盘 
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在 关机 后 印 下 一 个 设备 ， 则 对 应 的 设备 结 点 将 不 再 包含 于 /dev 中 。 由 于 系统 中 已 经 没有 该 设备 ， 对 应 
的 设备 结 点 不 会 重新 创建 ， 内 核 也 不 会 发 送 设备 注册 的 消息 ， 这 确保 了 /aev 中 没有 旧 的 、 过 时 的 设备 
文件 。 尽 管 并 不 限制 uaeva 使 用 基于 磁盘 的 文件 系统 ， 这 实际 上 也 没有 什么 意义 。 

除了 上 文 列 出 的 任务 之 外 ，udev 守 护 进程 还 有 一 些 职责 ， 如 确保 无 论 采 用 何 种 设备 拓扑 结构 ， 特 
定 设备 对 应 的 设备 结 点 总 是 名 称 相同 。 例 如 ， 用 户 在 计算 机 上 插入 一 个 USB 存储 棒 时 ， 通 向 希望 总 是 
建立 同样 的 设备 结 点 ， 这 应 该 是 与 USB 存储 棒 插 入 的 时 间 和 地 点 无 关 的 。 有 关 udev 守 护 进 程 处 理 此 
类 情况 的 方式 ， 更 多 信息 请 参考 手册 页 udeva (5)。 这 完全 是 用 户 空间 问题 ， 内 核 无 需 关注 。 


6.2.3 ”使 用 ioctl 进 行 设备 寻 址 


字符 设备 和 块 设备 通常 可 以 适当 地 融入 到 文件 系统 的 结构 中 ， 并 遵守 所 谓 的 UNIX 哲 学 “万 物 皆 
文件 ” 但 是 有 些 任务 只 使 用 输入 输出 命令 很 难 完成 。 这 些 涉及 检查 特定 于 设备 的 功能 和 属性 ， 超 出 
了 通用 文件 框架 的 限制 。 主 要 的 例子 是 设置 设备 的 配置 选项 。 

当然 ， 通 过 定义 具有 特殊 含意 的 “魔术 ”字符 串 并 使 用 通用 的 读 写 函数 ， 也 可 以 完成 此 类 任务 。 
例如 ， 可 将 这 种 方法 用 于 软盘 驱动 器 ， 使 之 支持 以 软件 方式 弹出 磁盘 。 设 备 驱动 程序 可 以 监控 发 送 到 
设备 的 数据 流 ， 在 遇 到 floppy:eject 字 符 串 时 弹出 磁盘 。 同 样 可 以 为 其 他 任务 定义 特别 的 编号 。 

这 种 方法 有 一 个 显然 的 缺点 。 如 果 将 包含 上 述 字 符 串 的 文本 文件 写 入 软盘 (该 文本 可 能 是 磁盘 驱 
动 器 操作 指南 的 一 部 分 )， 那 么 会 发 生 什么 情况 呢 ?” 驱 动 程序 将 弹出 磁盘 ， 给 用 户 带 来 麻烦 ， 这 可 不 
是 用 户 想 要 的 。 当 然 ， 为 阻止 这 种 情况 发 生 ， 也 可 以 让 用 户 空间 应 用 程序 检查 文本 ， 确 认 相 应 的 字符 
串 不 会 出 现 或 被 屏蔽 掉 〈 也 需要 定义 适当 的 方法 )。 整 个 过 程 不 仅 浪费 时 间 和 资源 ， 也 显得 笨拙 而 粒 
米 。® 
天 而 内 核 必 须 提供 一 种 方法 ， 能 够 支持 设备 的 特殊 属性 ， 而 无 需 依靠 普通 的 读 写 命令 。 一 种 方法 
是 引入 特殊 的 系统 调用 。 但 在 内 核 开发 者 当中 ， 这 种 做 法 很 难得 到 赞同 ， 因 而 只 用 于 少数 非常 普及 的 
设备 。 一 种 更 适当 的 解决 方案 称 之 为 IJOCTL， 它 表示 0 DODDDDD0OD ， 是 用 于 配置 和 修改 特定 设备 
属性 的 通用 接口 。 还 有 第 三 种 备 选 方案 : Sysfs 是 一 ee 
并 提供 了 设置 设备 参数 的 方法 。 有 关 这 种 机 制 的 更 多 信息 ， 将 在 10.3 节 讲述 。 在 这 里 ， 我 仍然 继续 
述 稍 显 过 时 、 但 仍然 有 效 的 IOCTTL 方法 。 

ioctl 通 过 一 种 可 用 于 处 理 文件 的 特殊 方法 实现 。 该 方法 对 设备 文件 可 产生 所 需 的 效果 ， 但 对 普通 
文件 无 效 。 第 8 章 讨 论 了 该 实现 如 何 融入 到 虚拟 文件 系统 的 方案 中 。 目 前 ， 我 们 只 需要 了 解 ， 每 个 设 
备 驱动 程序 都 可 以 定义 一 个 ioctl 例 程 ， 使 得 控制 数据 的 传输 可 以 独立 于 实际 的 输入 输出 通道 。 

从 用 户 和 程序 设计 的 角度 来 看 ，ioctl 如 何 使 用 呢 ? 标准 库 提 供 了 ioct1 函 数 ， 可 以 通过 特殊 的 码 
值 将 ioctl 命 令 发 送 到 打开 的 文件 。 

该 函数 的 实现 基于 ioct1 系 统 调用 ， 由 内 核 中 的 sys_ioct1 处 理 〈 该 系统 调用 实现 的 有 关 信 息 ， 
请 参见 第 13 章 )。 


fs/ioctl.c 
asmlinkage long sys_ioctl(unsigned int fd, unsigned int cmd, unsigned long arg) 


















































































































































































































































































































































































































































































































































二 







































































































































































































































































} 



































Q 由 于 历史 原因 ， 一 些 驱动 程序 确实 采用 了 这 种 方法 。 在 终端 上 广泛 使 用 了 这 种 方法 来 传输 控制 字符 修改 设备 的 属 
性 ， 如 文本 颜色 、 光 标 位 置 等 。 
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预 处 到 


表 ， 


述 的 
序 必 
络 相 


户 空间 无 法 访问 。 后 者 的 例 








ioctl 码 值 (cma) 传递 到 
器 常数 。 第 三 个 参数 〈 























arg) 





传输 











可 以 参考 系统 程序 设计 方面 的 大 量 











网 卡 及 其 他 设备 








文件 描述 符 (fq) 标识 的 扩 














文件 ， 





ioctl 码 值 一 般 定 

















i 更 多 的 信 
手册 )。6.5.9 节 更 访 

















us 





字符 设备 和 块 设备 不 是 内 核 管 


分 类 方案 中 《第 12 章 详细 地 论述 了 各 

















须 使 用 套 接 字 与 网 
关 函 数 调用 socke 
还 有 : 


卡通 信 。 
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子 包 括 











理 的 全 部 设备 类 





目 关 原因 )。 
套 接 字 是 一 个 抽象 层 ， 对 所 
1 系统 调用 与 内 核 通 





筷 ( 


/EN 























事实 很 


别 。 网 卡 在 内 核 中 具有 特殊 地 位 ， 








明显 : 网 卡 没 有 设备 文件 。 

















程序 
寻 址 


2.6 开 发 期 间 ， 


划分 


设备 号 可 


其 中 
Ea 





们 意 
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识 到 ， 


寻 址 ， 但 相应 的 函 
)。 所 以 ， 需 要 


数 只 
底层 


在 内 核 内 部 





























的 设备 驱动 程 
6.2.4” 主 从 设备 号 的 表示 
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J 月 





学 提供 函数 ， 


























因为 历史 原因 ， 有 两 种 方法 可 以 
使 用 一 个 16 位 的 整数 〈 通 
，8 个 比特 位 表示 主 设备 号 ，8 个 比 
[用 。 当 
包含 了 数目 非常 庞大 的 硬盘 。 
因而 16 位 整数 的 定义 被 替 ] 


















































用 于 从 设备 号 。 这 引起 了 下 述 的 问题 
口 许多 驱动 程序 作出 了 不 正确 
口 存储 在 旧 的 文件 系统 上 
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有 网 卡 提供 
言 交 互 ， 进 而 访问 网 卡 。 
-他 一 些 没 有 设备 文件 的 系统 设备 。 这 些 设备 或 者 通过 特别 定义 的 系统 调用 访问 ， 或 者 在 
所 有 的 扩展 总 线 ， 如 USB 和 SCSI。 
日 〈 





尽管 这 些 总 


NI 














导出 到 用 














空间， 供应 
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唤 为 32 位 整数 (相关 
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的 抽象 类 





16 个 比特 位 已 经 超出 主 设备 号 的 需要 。 


的 假定 ， 
的 设备 文件 号 只 使 用 了 
5 用 比特 位 的 非 对 称 














因 





认为 只 有 16 个 比特 位 可 用 




















须 解 决 现 在 对 主 从 设备 























一 个 问题 可 以 通过 修 
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情况 ， 











内 核 使 用 了 用 户 空 间 可 





驱动 程序 来 消除 ， 
见 的 数据 类 型 u32 来 表示 











而 第 二 





型 是 dev_ 


16 个 比特 位 ， 但 
划分 所 引起 
个 问题 在 更 大 程度 上 是 本 质 性 





























了 一 个 抽象 视图 。 标 准 


线 可 以 通过 设备 驱 
因此 ，USB 扩 展 卡 也 没有 设备 文件 ， 无 法 通过 设备 文 
程序 访问 。 


义 为 比较 易 读 的 


有 关内 核 支持 的 所 有 ioctl 码 值 和 相关 参数 的 详 


# 细 地 讨论 了 内 核 端 对 ioctl 的 实现 。 


它 无 法 融入 到 前 
相反 ， 用 户 程 
这 的 网 





























全 
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设备 的 主 从 设备 号 〈 在 一 个 复合 数据 类 型 中 )。 在 内 核 版 本 
常 是 unsigned short) 来 表示 主 从 设备 号 。 
位 表示 从 设备 号 。 这 意 
前 的 有 些 系统 规模 远 远 超出 了 上 述 的 限制 , 我 





该 整数 按 1:1 比 例 
味 着 刚好 有 256 个 主 设备 号 和 256 个 从 
从 而 需要 考虑 SCSI 存 储 阵 列 的 例子 即 可 ， 




















t), 但 这 样 做 会 有 
比 ， 主 设备 号 分 配 了 12 个 比特 位 ， 


来 表示 主 从 设备 号 。 


些 后 果 。 我 
剩余 的 20 个 比 

















仍然 必须 运作 
题 。 





的 问题 























正人 硼 。 





因此 ， 必 


























的 。 为 处 理 





新 的 
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让 设备 号 ， 主 从 设备 号 的 划分 如 图 6-4 所 示 。 











从 设备 号 
A 
内 部 表示 E 欧 主 设备 号 
0 19 31 
图 6-4 将 设备 号 划分 为 主 从 两 部 分 
口 在 内 核 中 ， 比 特 范围 0~19 共 20 个 比特 位 用 于 从 设备 写 。 而 比特 范围 20~31 中 的 12 个 比特 位 用 
于 主 设备 号 。 

口 当 需 要 在 外 部 (用 户 空间 ) 表示 dev_t 时 ， 则 将 比特 范围 0~7 中 的 8 个 比特 位 用 作 从 设备 号 的 
第 一 部 分 ， 接 下 来 的 12 个 比特 位 (比特 范围 8~19〉 用 作 主 设备 号 ， 最 后 12 个 比特 位 (比特 范 




















6.2 0UU00D0 321 





围 20 一 31) 用 作 从 设备 号 剩余 的 部 分 。 
旧 的 布局 共 包括 16 个 比特 位 ， 在 主 从 设备 号 之 间 平 均 分 配 。 如 果 主 设备 号 和 从 设备 号 都 小 于 
255， 那 么 新 旧 表 示 是 兼容 的 。 
如 果 代 码 坚持 使 用 在 aev 上 和 外 部 表示 之 间 进 行 转换 的 函数 , 那么 即使 将 来 内 部 数据 类 型 再 次 
发 生 改 变 ， 代 码 也 无 需 变 动 。 
这 种 划分 的 优点 在 于 ， 该 数据 结构 的 前 16 个 比特 位 ， 可 以 解释 为 旧 的 设备 号 。 从 兼容 性 的 角度 考 
虑 ， 这 是 很 重要 的 。 
内 核 提 供 了 下 列 函 数 / 宏 《定义 在 <kdqev 上 .h> 中 )， 以 便 从 u32 表 示 提 取信 息 ， 并 在 u32 和 aev 上 
之 间 进 行 转换 。 
口 MAJOR 和 MINOR 分 别 从 dev_t 提 取 主 设备 号 和 从 设备 号 。 
口 MKDEV (major，minor) 根 据 主 从 设备 号 产生 一 个 dev_t 类 型 值 。 
口 new_encode_dev 将 dev_t 转 换 为 具有 上 述 外 部 表示 的 u32 类 型 值 。 
口 new_decode_gdev 将 外 部 表示 转换 为 dev_t。 
口 old_encode_dev 和 olqd_decode_gdev 在 旧 的 u16 表 示 和 现在 的 dev_t 表 示 之 间 进 行 切 换 。 
函数 原型 定义 如 下 : 
<kdev_ th> 


ul6 old_ encode dev(dev_t dev); 


) 
dev_t old decode dev(ul6 val); 
) 
) 
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U32 new_encode_ dev(dev_t dev); 
dev_t new_ decode dev(u32 dev); 


6.2.5 注册 


内 核 如 果 能 了 解 到 系统 中 有 些 哪些 字符 设备 和 块 设备 可 用 , 那 自 然 是 很 有 利 的 ， 因 而 需要 维护 一 
个 数据 库 。 此 外 必须 提供 一 个 接口 ， 以 便 驱动 程序 编写 者 能 够 将 新 项 添加 到 数据 库 。 

1. 数据 结构 

下 面 我 们 将 重点 讲解 用 于 管理 设备 的 数据 结构 。 

euUU000 
尺 管 块 设备 和 字符 设备 彼此 的 行为 确实 有 很 大 不 同 ， 但 用 于 跟踪 所 有 可 用 设备 的 数据 库 是 相同 
的 。 这 是 很 自然 的 ， 因 为 字符 设备 和 块 设备 都 通过 唯一 的 设备 号 标识 。 但 是 ， 数 据 库 会 根据 块 设备 / 
字符 设备 ， 来 跟踪 记录 不 同 的 对 象 。 

口 每 个 字符 设备 都 表示 为 struct cdev 的 一 个 实例 。 

口 struct genhd 用 于 管理 块 设备 的 分 区 ， 作 用 类 似 于 字符 设备 的 caev。 这 是 合理 的 ， 如 果 块 设 

备 没有 分 区 ， 我 们 也 可 以 视 之 为 具有 单一 分 区 的 块 设备 。 

现在 只 要 知道 ， 每 个 块 设备 和 字符 设备 都 表示 为 对 应 数据 结构 的 一 个 实例 ， 就 足够 了 。 数 据 结构 
的 具体 内 容 无 关 紧要 ， 我 们 将 在 下 文中 更 仔细 地 讨论 。 在 这 里 ， 重 要 的 是 注意 到 内 核 跟踪 所 有 cdev 
和 genhd 实 例 的 方式 。 图 6-5 对 此 给 出 了 综述 。 
有 两 个 全 局 数组 (baqev_map 用 于 块 设 备 ，cqev_map 用 于 字符 设备 ) 用 来 实现 散 列 表 ， 使 用 主 设 
备 号 作为 散 列 键 。cdev_map 和 bdev_map 都 是 同一 数据 结构 struct kobj_map 的 实例 。 散 列 方法 相当 
简单 : major % 255。 由 于 当前 只 有 非常 少量 设备 的 主 设备 号 大 于 255， 因 此 这 种 方法 工作 得 很 好 ， 
散 列 磁 撞 也 很 少 。struct kobj_map 的 定义 也 包括 了 散 列 链表 元 素 struct probe 的 定义 。 
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[b,c] dev_map 





HA A 


P Struct cdev 
A Set genhd | ii 











图 6-5 ”跟踪 所 有 块 设备 和 字符 设备 的 设备 数据 库 




















drivers/base/map.c 
struct kobj _ map { 
struct probe { 

struct probe *next; 
dev_t dev; 
unsigned long range; 
struct module *owner; 
kobj_probe t *get; 


void *data; 
} *probes[255]; 
struct mutex *lock; 
}; 
互 斥 量 lock 实 现 了 对 散 列 表 访 问 的 串 行 化 。struct probe 的 成 员 如 下 。 
口 next 将 所 有 散 列 元 素 连接 在 一 个 单 链表 中 。 
口 dev 表 示 设 备 号 。 回 忆 前 文 可 知 ， 该 数据 中 包含 了 主 设备 号 和 从 设备 号 。 
口 从 设备 号 的 连续 范围 存储 在 range 中 。 那 么 与 设备 关联 的 各 个 从 设备 号 的 范围 是 [MINORS 
(dev), MINORS(dev) + range - 1]。 
口 owner 指 向 提供 设备 驱动 程序 的 模块 (如 果 有 的 话 )。 
口 get 指 向 一 个 函数 ， 可 以 返回 与 设备 关联 的 kobject 实 例 。 通 常 该 任务 很 简单 ， 但 如 果 使 用 ] 
设备 映射 器 ， 则 会 变 得 复杂 化 。 
口 块 设备 和 字符 设备 的 区 别 在 于 data。 对 于 字符 设备 ， 它 指向 struct cdev 的 一 个 实例 ， 而 对 
于 块 设 备 ， 则 指向 struct genhq 的 实例 。 
euUUUU0O00000 
第 二 个 数据 库 只 用 于 字符 设备 。 它 用 于 管理 为 驱动 程序 分 配 的 设备 号 范围 。 驱 动 程序 可 以 请 求 一 
个 动态 的 设备 号 ， 或 者 指定 一 个 范围 ， 从 中 获取 。 前 一 种 情况 ， 内 核 需要 找到 一 个 空闲 的 范围 ， 而 对 
于 后 一 种 情况 ， 必 须 确 保 指定 的 范围 不 与 现存 的 范围 重 谷 。 
这 里 再 次 使 用 了 散 列 表 来 跟踪 已 经 分 配 的 设备 号 范围 ， 并 同样 使 用 主 设备 号 作为 散 列 键 。 所 述 的 
数据 结构 如 下 所 示 : 
fs/char_dev.c 
static struct char_device_ struct { 
struct char_device_struct *next; 
unsigned int major; 


unsigned int baseminor; 
int minorct; 
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char name[64]; 
struct file operations *fops; 
struct cdev *cdev; /* 未 来 版 本 将 删除 */ 

} *chrdevs [CHRDEV_MAJOR_ HASH_ SIZE]; 

组 织 散 列 项 的 方法 与 上 文 struct kobj_map 采 用 的 技术 非常 相似 。next 连 接 同 一 散 列 行 中 的 所 有 

散 列 元 素 (major_to_index 根 据 主 设备 号 计算 散 列 位 置 )。 读 者 可 能 已 经 猜 到 ，major 指 定 了 主 设备 

号 ， 而 baseminor 是 包含 minorct 个 从 设备 号 的 连续 范围 中 最 小 的 从 设备 号 。name 为 该 设备 提供 了 一 

个 标识 符 。 通 常 ， 该 名 称 会 选择 类 似 于 该 设备 对 应 的 设备 特殊 文件 的 名 称 ， 但 没有 严格 的 要 求 。fops 

指向 与 该 设备 关联 的 file_operations 实 例 ， 而 cdev 指 向 struct cdev 的 实例 ， 该 结构 将 在 6.4.1 

节 讨 论 。 

2. 注册 过 程 
现在 我 们 来 考虑 如 何 注册 块 设备 和 字符 设备 。 
euUUU0 

在 内 核 中 注册 字符 设备 需要 两 个 步骤 来 完成 。 

口 注册 或 分 配 一 个 设备 号 范围 。 如 果 驱 动 程序 需要 使 用 特定 范围 内 的 设备 号 ， 则 必须 调用 
register_chradev_region， 而 alloc_chrdev_region 则 由 内 核 来 选择 适当 的 范围 。 函 数 原 
型 定义 如 下 : 
<fs.h> 
int register_chrdev_region(dqev t from, unsigned count, const char *name) 


int alloc chrdev_region(dev_t *dev, unsigned baseminor, unsigned count, 
Const char *name); 


在 用 alloc_chrdev_region 分 配 新 的 范围 时 ， 必 须 在 baseminor 和 count 参 数 中 指定 最 小 的 从 
设备 号 和 设备 号 范围 的 长 度 。 所 选择 的 主 设备 号 通过 aev 参 数 返 回 。 要 注意 ， 在 注册 或 分 配 设 
备 号 时 并 [0 U DU struct cdev 实 例 。 

口 在 获取 了 设备 号 范围 之 后 ， 需 要 将 设备 添加 到 字符 设备 数据 库 ， 以 激活 设备 。 这 需要 用 
cdev_init 初 始 化 一 个 struct cdev 的 实例 ， 接 下 来 调用 cdev_adda。 这 些 函 数 的 原型 定 
义 如 下 : 
<cdev.h> 


void cdev_init(struct cdev *cdev, const struct file operations *fops); 
int cdev_add(struct cdev *p, dev_t dev, unsigned count); 


cdev_init 的 参数 fops 包 含 了 一 些 函 数 指针 ， 指 向 处 理 与 设备 实际 通信 的 函数 。cdev_agdg 的 
count 参 数 表示 该 设备 提供 的 从 设备 号 的 数量 。 
注意 下 述 例 子 ， 其 中 FireWire 视 频 驱 动 程序 激活 了 一 个 字符 设备 (该 驱动 程序 已 经 注册 ， 主 设 
备 号 为 IEEE1394_VIDEO1394_DEV， 有 16 个 从 设备 号 )。 


drivers/ieee1394/video1394.c 
static struct cdev video1l394 cdev; 



















































































































































































































































































Cdev_init(&video1394 cdev, &video1394 fops); 


ret = cdev_add(&videol1l394 cdev, IEEE1394 VIDEO1394 _ DEV, 16); 
在 cdev_add 成 功 返 回 后 ， 设 备 进入 活动 状态 。 
于 上 面 讨论 的 所 有 注册 函数 对 数据 库 数 据 结构 的 操作 都 很 直接 ， 我 就 不 费力 讨论 代码 了 。 
在 很 入 以 前 , 字符 设备 的 标准 注册 函数 曾经 是 register_chrdev。 现在 出 于 向 后 兼容 的 考虑 仍然 
文 持 该 函数 ， 而 且 还 有 相当 多 的 驱动 程序 尚未 更 新 到 如 上 上 所 述 的 新 接口 。 但 新 的 代码 不 应 该 使 用 该 函 
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数 ! “而 

















该 函数 对 大 于 255 的 设备 号 无 法 工作 。 





e000 


注册 











块 设备 只 需要 调用 add_disk 一 次 。 为 描述 设备 的 属性 ， 需 要 将 











参数 。 我 们 将 在 6.5.1 节 讨论 这 个 结构 。 











较 早 的 内 核 版 本 需要 使 

<fs.h> 

int register blkdev(unsigned int major, 

name 通 常 与 设备 文件 名 称 相 同 , 但 
仍然 是 可 


























用 的 。 其 好 处 在 于 ， 














jregister_blkdev 注 














册 块 设备 ， 其 原型 如 下 : 


const char *name); 


























6.3 与 文件 系统 关联 


除 极 少数 例外 ， 


讨论 的 虚拟 文件 


6.3.1 





也 可 以 是 和 有 





F 意 有 效 的 字符 串 。 尽 管 现在 不 必 再 调用 该 函数 ， 
块 设备 将 显示 在 /proc/devices。 























设备 文件 都 是 








标准 函数 处 理 



































系统 管理 。 














系统 中 的 每 个 文件 都 关联 到 恰好 一 























E 这 里 就 不 完全 复制 了 ， 只 给 出 其 





























struct inode { 


口 为 唯 
面向 字符 )， 
dev_t。 





dev_t 


i_rdev; 
umode_t i_mode; 
struct file operations 1_ foOBy 


union { 


普通 文件 和 设备 文件 部 是 通过 完全 相 同 
inode 中 的 设备 文件 成 员 


虚拟 文件 
见长 ， 我 有 


<fs.h> 


个 inode， 


中 与 设备 驱动 程序 有 关 


， 类 似 于 普通 文件 。 


























的 接口 访问 。 

















用 于 管理 文件 的 属性 。 


的 成 员 。 




















struct block_ device *i_bdev; 


struct cdev *i_cdev; 




















地 标识 与 一 个 设备 文件 关联 的 设备 ， 








而 在 1_raev 中 存储 了 主 从 设备 号 。 主 从 设备 号 在 内 核 


一 个 struct gennd 实 例 作 为 





设备 文件 也 是 通过 将 在 第 8 章 





inode 数 据 结构 非常 








内 核 在 i_mode 中 存储 了 文件 类 型 (再 





























P 合 








为 一 





向 块 ， 或 者 
种 变量 类 型 
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加 
0000000 ejerd niaeadj gi sas 加 Ooogggg 
国有 








Be 


fop 是 一 组 函数 指针 的 集 
牛 系统 使 



































j 来 处 








在 








过 月 


时 ， 

















j 核 中 尚 没 有 cqev 和 





register_chrdev 时 ， 不 必要 处 理 struct cdev， 这 是 
象 ， 因 此 旧 的 驱动 程序 无 法 得 知 任 全 











合 ， 包 括 许多 文件 
里 块 设备 《〈 该 结构 的 准确 定义 将 在 第 8 章 给 出 )。 














操作 (如 打开 、 















































有 关 信 息 。 


读 取 、 写 入 等 )， 这 些 














动 管理 的 。 原 因 很 简单 :在 设计 register_chrdev 
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口 内 核 会 根据 inode 表 示 块 设备 还 是 字符 设备 ,来 使 用 i_bqdev 或 i_cdev 指 向 更 多 具体 的 信息 ， 这 
些 将 在 下 文 进一步 讨论 。 
6.3.2 ”标准 文件 操作 
在 打开 一 个 设备 文件 时 ， 各 种 文件 系统 的 实现 会 调用 init_special_inode 函 数 ， 为 块 设备 或 字 
符 设备 文件 创建 一 个 inode。? 


fs/inode.c 
void init special_ inode(struct inode *inode, umode t mode, dev_t rdev) 


{ 
































inode->i_mode = mode; 

if (S_ISCHR(mode)) { 
inode->i_fop = &def_chr_fops; 
inode->i_rdev = rdev; 

} else if (S_ISBLK(mode)) { 
inode->i_fop = &def blk_ fops; 
inode->i_rdev = rdev; 


else 





printk (KERN_DEBUG "init_ special_ inode: bogus i mode (%o)\n", 
mode); 





} 
除了 通过 mode 参 数 传递 进来 的 设备 类 型 之 外 , 底层 文件 系统 还 必须 返回 主 从 设备 号 。 代 码 中 会 根 
据 设备 类 型 ， 癌 inode 提 供 不 同 的 文件 操作 。 
6.3.3 ”用 于 字符 设备 的 标准 操作 
字符 设备 的 情况 最 初 非常 含混 ， 因 为 只 有 一 个 文件 操作 可 用 。 
fs/devices.c 


struct file operations aqef_chr_ fops = { 
.Open = chrdev_open, 






































3 
字符 设备 彼此 非常 不 同 。 因而 内 核 在 开始 不 能 提供 多 个 操作 , 因为 每 个 设备 文件 都 需要 一 组 独立 、 
自 定 义 的 操作 。 因 而 chrdev_open 函 数 的 主要 任务 就 是 向 该 结构 填 入 适用 于 已 打开 设备 的 函数 指针 ， 
使 得 能 够 在 设备 文件 上 执行 有 意义 的 操作 ， 并 最 终 能 够 操作 设备 自身 。 
6.3.4 用 于 块 设备 的 标准 操作 
相 比 字符 设备 ， 块 设备 遵循 的 方案 更 加 一 致 。 这 使 得 内 核 刚 开始 就 有 很 多 操作 可 供 选 择 。 这 些 操 
作 的 指针 群集 到 一 个 称 作 blk_fops 的 通用 结构 中 。 


fs/block_dev.c 

























































































const struct file operations def blk fops = { 
.Open = blkdev_open, 
.release = blkdev_close, 
.llseek = block_ llseek, 
.read = do_sync_read, 
.write = do_sync_ write, 
.dio_read = generic file aio_ read, 
.aio_write = generic file aio write nolock, 
.mmap = generic file mmap, 























GD 为 简明 起 见 ， 我 省 去 了 为 套 接 字 和 fifo 创 建 inode 的 代码 《它们 与 所 讲 内 容 不 相关 )。 
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block_ fasyne, 
block_ ioct]l, 
generic file splice read, 
generic file splice write, 


eole 
.unlocked_ ioctl 
.splice_read 
.Splice write 


于 
读 写 操作 由 通用 的 内 核 例 程 进行 。 内 核 中 的 缓存 自动 用 于 块 设备 。 



































DD file operations[| block device operations[| UUUOOO0O0O0O0O0O0O050 
file operations 四 YES 加 加 加 加 加 回回 加 回回 加 四 昌 四 旧 Bliock device” 
operations[|] DDO0DO00000U0UUUUU block device operations[| [DDD 
加 了 
OOOOOUODOOD 


与 字符 设备 相 比 ， 上 述 数 据 结构 无 法 完全 描述 块 设备 ， 因 为 对 块 设备 的 访问 不 是 分 别处 理 单个 的 
请 求 ， 而 是 通过 由 缓存 和 请 求 队 列 构成 的 精细 、 复 杂 的 系统 来 高 效 地 管理 。 绥 存 主要 由 通用 的 内 核 代 
码 操作 ， 而 请 求 队列 则 由 块 设备 层 管理 。 在 我 更 详细 地 讨论 可 能 的 块 设备 驱动 程序 操作 时 ， 读 者 会 看 
到 更 多 用 于 管理 请 求 队列 的 数据 结构 ， 它 将 汇集 并 重 排 发 给 相关 设备 的 指令 。 

6.4 字符 设备 操作 

字符 设备 的 硬件 通常 非常 简单 ， 而 且 相 关 的 驱动 程序 并 不 难于 实现 ， 这 并 不 令 人 惊讶 。 
6.4.1 表示 字符 设备 

我 们 知道 ， 字 符 设备 由 struct cdev 表 示 。 同 时 ， 内 核 维护 了 一 个 数据 库 ， 包 括 所 有 活动 的 cdev 
实例 。 下 面 将 讲解 该 结构 的 内 容 ， 其 定义 如 下 : 

<cdev.h> 

struct cdev { 

struct kobject kobj; 

struct module *owner; 

const struct file operations *ops; 
struct list head list; 


dev_t dev; 
unsigned int count; 





































































































































































































































































































}; 

kobj 是 一 个 嵌入 在 该 结构 中 的 内 核对 象 。 照 例 ， 它 用 于 该 数据 结构 的 一 般 管 理 。ownez 指 向 提供 
驱动 程序 的 模块 (如 果 有 的 话 )， 而 ops 是 一 组 文件 操作 ， 实 现 了 与 硬件 通信 的 具体 操作 。dev 指 定 了 
设备 号 ，count 表 示 与 该 设备 关联 的 从 设备 号 的 数目 。1ist 用 来 实现 一 个 链表 ， 其 中 包含 所 有 表示 该 
设备 的 设备 特殊 文件 的 inode。 

最 初 ， 字 符 设备 的 文件 操作 只 包含 用 于 打开 相关 设备 文件 (在 使 用 驱动 程序 时 ， 这 总 是 第 一 个 操 
作 ) 的 一 个 方法 。 因 此 ， 我 们 首先 讲解 该 方法 。 


6.4.2 ”打开 设备 文件 


fs/devices.c 中 的 chrdev_open 是 用 于 打开 字符 设备 的 通用 函数 。 图 6-6 给 出 了 相关 的 代码 流程 图 。 
假定 表示 设备 文件 的 inode 此 前 没有 打开 过 。 根 据 给 出 的 设备 号 ，kobject_1lookup 查 询 字 符 设 备 的 
数据 库 〈 在 6.2.5 节 讲 过 )， 并 返回 与 该 驱动 程序 关联 的 kobject 实 例 。 该 返回 值 可 用 于 获取 cdev 实 例 。 
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找到 特定 于 


设备 的 file_operations 


图 6-6 ”chrdev_open 的 代码 流程 图 


获得 了 对 应 于 设备 的 cdev 实 例 ， 内 核 通 过 cdev->ops 还 可 以 访问 特定 于 设备 的 file_ 
operations。 接 下 来 设置 各 种 数据 结构 之 间 的 关联 ， 如 图 6-7 所 示 。 


struct inode struct cdev struct file operations 


也 
[iaevices| 一 






























































Struct file 








图 6-7 表示 字符 设备 的 各 个 数据 结构 之 间 的 关系 


口 inode->i_cdev 指 向 所 选择 的 cdev 实 例 。 在 下 一 次 打开 该 inode 时 ， 就 0 口 再 查询 字符 设备 的 
数据 库 ， 因 为 我 们 可 以 使 用 缓存 的 值 。 

口 该 inode 将 添加 到 cqev->list (inode 中 的 1_dqevices 用 作 链 表 元 素 )。 

口 file->f_ops 是 用 于 struct file 的 file_operations， 设 置 为 指向 struct cdev 给 出 的 

file_operations 实 例 。 
接 下 来 调用 struct file 新 的 file_operations 中 的 open 方 法 (现在 是 特定 于 设备 的 )， 在 设备 

上 执行 所 需 的 初始 化 任务 《有些 外 设 在 第 一 次 使 用 之 前 ， 需 要 通过 握手 来 协商 操作 的 细节 )。 该 函数 

也 可 以 对 数据 结构 作 一 点 修改 ， 以 适应 特定 的 从 设备 号 。 
我 们 考虑 一 个 字符 设备 的 例子 ， 其 主 设备 号 为 1。 根 据 LANANA 标 准 ， 该 设备 有 10 个 不 同 的 从 设 

备 号 。 每 个 都 提供 了 一 个 不 同 的 功能 ， 这 些 都 与 内 存 访问 操作 相关 。 表 6-1 列 出 了 一 些 从 设备 号 ， 以 及 

相关 的 文件 名 和 含义 。 






















































































































































































表 6-1 用 于 主 设备 号 1〈 内 存 访 问 ) 的 各 个 从 设备 号 




















从 设备 号 文件 含义 
1 /dev/mem 物理 内 存 
2 /dev/kmem 内 核 虚 拟 地址 空间 
3 /dev/null 比特 位 桶 
4 /dev/port 访问 IO 端 
5 /dev/zero NULL 字 符 源 
8 /dev/random 非 确定 性 随机 数 发 生 器 


一 些 设备 是 我 们 熟悉 的 ， 特 别 是 /aev/nul1。 无 需 深 入 到 各 个 从 设备 号 的 细节 ， 根 据 设 备 描 述 我 
们 就 可 以 很 清楚 ， 尽 管 这 些 从 设备 号 都 涉及 内 存 访 问 ， 但 所 实现 的 功能 有 很 大 的 差别 。 上 文 提 到 ， 在 
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chrdevs 项 的 结构 中 只 定义 了 一 个 函数 指针 ， 从 这 个 例子 来 看 ， 我 们 确实 也 不 需要 恢 讶 。 在 打开 上 述 


某 个 文件 之 后 ，open 指 向 memory_open。 
该 函数 定义 在 drivers/Vchar/mem.c 中 ， 实 现 了 一 个 分 配器 《根据 从 设备 号 区 分 各 个 设备 ， | 


选择 适当 的 file_operations)。 图 6-8 说 明了 在 打开 内 存 设备 时 ， 文 件 操作 是 如 何 改 变 的 。 


mem_fops 
kmem_fops 
def_chr_fops 一 一 2 memory_fops en 芷 证 
random_fops 


根据 主 设备 根据 从 设备 
号 选择 号 选择 


图 6-8 ”打开 内 存 设备 时 的 文件 操作 

所 涉及 的 函数 逐渐 反映 了 设备 的 具体 特性 。 最 初 具 知道 用 于 打开 字符 设备 的 一 般 函 数 。 然 后 由 打 
F 与 内 存 相关 设备 文件 的 具体 函数 所 蔡 代 。 接 下 来 根据 选择 的 从 设备 号 ， 进 一 步 细 化 函数 指针 。 为 不 
同 从 设备 号 最 终 选 定 的 函数 指针 未 必 相 同 ， 如 null_fops (用 于 /aqev/nul1) 和 random_fops (用 于 
/dev/random) 的 例子 所 示 。 


drivers/charmem.c 
static struct file operations null fops = { 
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.llseek = null_lseek, 
.read = read null, 
.write = write null, 


.splice write splice write null, 


$s 


drivers/char/random.c 
struct file operations random fops = { 


.read = random read, 
.write = random write, 
:POLL = random poll, 
:Loctl = random ioct]， 


3 
其 他 设备 类 型 也 采用 了 同样 的 方法 。 首 先 根据 主 设备 号 设置 一 个 特定 的 文件 操作 和 集 。 其 中 包含 的 
操作 ， 接 下 来 可 以 由 根据 从 设备 号 选择 的 其 他 操作 替代 。 


6.4.3 ” 读 写 操作 

读 写 字符 设备 文件 的 实际 工作 不 是 一 项 特别 有 趣 的 任务 , 因为 虚拟 文件 和 设备 驱动 程序 代码 之 间 
已 经 建立 了 关联 。 调 用 标准 库 的 读 写 操作 ， 将 向 内 核发 出 一 些 系统 调用 《第 8 章 讨 论 )， 最 终 调用 
PF 相 关 的 操作 (主要 是 read 和 write)。 这 些 方法 的 具体 实现 依 设 备 而 不 同 ， 


































































































file_operations 结 构 
不 能 一 般 化 。 

上 述 的 内 存 设备 不 必 费 力 与 实际 的 外 设 交互 ， 它 们 只 需 调用 其 他 的 内 核 函数 来 完成 。 
例如 ，/dqev/mnul1 设 备 使 用 reaq_nul1 和 write_nul1 函 数 实 现 比特 位 桶 的 读 写 操作 。 人 快速 浏览 一 
下 内 核 源 代 码 ， 就 可 以 知道 这 些 函 数 的 实现 实际 上 非常 简单 。 


drivers/charmem.c 
static ssize t freadq_nul1l(Sstruct file * file, char _ user * buf, 
size t count, loff 七 *ppos) 























{ 
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return 0; 


static ssize tt write null(struct file * file, const char _ user * puf, 


{ 
return count; 


} 


从 空 设备 读 取 时 ,什么 也 不 返 





size_t count, 








loff_t *ppos) 








回 ， 这 很 容易 实现 。 返 回 的 结果 是 一 个 长 度 为 0 字 节 的 数据 流 。 向 











该 设备 写 入 的 数据 直接 被 忽略 ， 但 无 论 任 何 长 度 的 数据 ， 都 会 报告 写 入 成 功 。 






































6.5 块 设备 操作 









































块 设备 与 字符 设备 在 3 个 主要 























更 复杂 的 字符 设备 ， 需 要 提供 


在 内 核 通过 VFS 接 口 支持 的 外 设 
































读 写 真正 有 意义 结果 的 函数 ， 但 一 般 机 制 是 不 变 的 。 


Ph， 块 设备 总 数 是 第 二 多 的 。 但 令 人 遗憾 的 是 ， 块 设备 驱动 程序 
面 对 的 情况 比 字符 设备 复杂 得 多 。 导 致 这 种 情况 的 环境 因素 很 多 ， 主 要 包括 : 块 设 备 层 的 设计 导致 需 
要 持续 地 调整 块 设备 的 速度 ， 块 设备 的 工作 方式 ， 块 设备 层 开发 方面 的 历史 原因 。 






































方面 有 根本 的 不 同 。 
口 可 以 在 数据 中 的 任何 位 置 进行 访问 。 对 字符 设备 来 说 ， 这 是 可 能 的 ， 但 不 是 必然 的 。 














口 数据 总 是 以 固定 长 度 的 块 进行 传输 。 即 使 
取出 一 个 完全 块 的 数据 。 相 上 


























~ 


之 下 ， 字 符 设 备 能 够 返回 单个 字 节 。 


请 求 一 个 字 节 的 数据 ， 设 备 驱 动 程序 也 会 从 设备 





























口 对 块 设备 的 访问 有 大 规模 的 缓存 ， 即 已 经 读 取 的 数据 保存 在 内 存 中 。 如 果 再 次 需要 ， 则 直接 


从 内 存 获得 。 写 入 操作 也 使 月 


























日 了 缓存 ， 以 便 延 迟 处 理 。 

















这 对 字符 设备 没有 意义 如 键盘 )。 因 为 ， 字 符 设备 的 每 次 读 请 求 都 必须 真正 与 设备 交互 才能 


完成 。 











我 们 在 下 文中 重复 使 用 两 个 术语 ， 块 (block) 和 肩 区 (sector)。 日 是 一 个 特定 长 度 的 字 节 序列 ， 






































的 整数 倍 。 由 于 扇 区 是 特定 于 便 伯 





















































的 常数 ， 它 也 用 





























备 都 视 为 一 个 线性 表 











| 按 整 数 编写 的 局 区 或 块 组 成 。 














于 保存 在 内 核 和 设备 之 间 传 输 的 数据 。 块 的 长 度 可 通过 软件 方法 修改 。 口 口 是 一 个 固定 的 硬件 单位 ， 
指定 了 茶 个 设备 最 少 能 够 传输 的 数据 量 。 块 不 过 是 连续 肩 区 的 序列 而 
来 指定 设备 上 某 个 数据 块 的 位 置 。 内 核 将 每 个 块 设 





。 因 此 ， 块 长 度 总 是 扇 区 长 度 





四 


























当前 几乎 所 有 常见 块 设 备 的 扇 区 长 度 都 是 S12 字 节 ， 块 长 度 则 有 512、1 024、2 048、4 096 字 节 等 。 








但 应 该 注意 到 ， 块 的 最 大 长 度 ， 会 受到 特定 体系 结构 的 内 存 页 长 度 的 限制 。IA-32 系 统 支 持 的 块 长 度 
为 4096 字 节 ， 因 为 其 内 存 页 长 度 是 4096 字 节 。 男 一 方面 ，IA-64 和 Alpha 系 统 能 够 处 理 8 192 字 节 的 块 。 














块 长 度 的 选择 相对 自由 ， 这 对 计 






























































F 多 块 设备 应 用 程序 有 好 处 ， 例 如 ， 读 者 在 学 习 文件 系统 实现 方式 


























时 ， 会 注意 到 这 一 点 。 文 件 系统 会 将 硬盘 划分 为 不 同 长 度 的 块 ， 以 便 在 处 理 许多 小 文件 或 少数 大 文件 








时 分 别 优化 性 能 。 因 为 文件 系统 外 








E 够 将 传输 














的 块 长 度 与 自身 块 长 度 匹 配 ， 所 以 实现 起 来 要 容易 得 多 。 











块 设备 层 不 仅 负 责 寻 址 块 设备 ， 也 负责 执行 其 他 任务 ， 以 提高 系统 中 所 有 块 设 备 的 性 能 。 此 类 任 


务 包括 0D 口 口 口 的 实现 ,在 内 核 关 
先 将 数据 读 入 内 存 。 
































靳 应 

















用 程序 稍 后 将 需要 使 用 某 数 据 时 ， 会 使 用 预 读 算法 从 块 设备 预 











如 果 预 读 的 数据 不 是 立即 需要 ， 那 么 块 设备 层 必 须 提供 缓冲 区 /缓存 来 保存 这 些 数据 。 这 种 缓冲 








区 /缓存 不 仅 用 于 保存 预 读数 据 ， 志 月 











a 


于 临时 保存 经 常用 到 的 块 设备 数据 。 








内 核 在 访问 块 设备 时 ， 使 用 了 大 量 的 技巧 和 优化 。 不 过 ， 本 章 没 有 一 一 详解 这 部 分 内 容 。 下 面 将 
讲解 块 设备 层 的 各 种 组 件 以 及 交互 方式 。 
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6.5.1 块 设备 的 表示 
块 设备 有 一 组 属性 ， 由 内 核 管理 。 内 核 使 用 所 谓 的 0 口 口 口 口中 (request queue management)， 
使 得 此 类 与 设备 的 通信 尽 可 能 高 效 。 它 能 够 缓存 并 重 排 读 写 数据 块 的 请 求 。 请 求 的 结果 也 同样 保存 在 
缓存 中 ， 使 得 可 以 用 非常 高 效 的 方式 读 取 /重新 读 取 数据 。 在 进程 重复 访问 文件 的 同一 部 分 时 ， 或 不 同 
进程 并 行 访问 同一 数据 时 ， 该 特性 尤其 有 用 。 

完成 这 些 任务 需要 很 多 数据 结构 ， 如 下 所 述 。 图 6-9 概 述 了 块 设备 层 的 各 个 成 员 。 


块 设备 数据 库 





































































































































































block_device 























请 求 队列 

















IO 调度 器 对 请 求 进行 排序 















































| 户 空间 应 用 程序 
图 6-9” 块 设备 层 


裸 块 设备 由 struct block_qevice 表 示 ， 我 会 在 下 文 进 一 步 讨 论 该 结构 。 该 结 松 
有 趣 的 方式 进行 管理 ， 我 们 首先 需要 仔细 考察 这 一 点 。 
按照 惯例 ， 内 核 将 与 块 设 备 关 联 的 block_device 实 例 紧邻 块 设备 的 inode 之 前 存储 。 该 行为 由 以 
下 数据 结构 实现 : 

fs/block_dev.c 

struct bdev_inode { 


struct block_device bdev; 
struct inode vfs_inode; 























1 内 核 以 一 种 很 














人 
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所 有 表示 块 设备 的 inode 都 保存 在 伪 文 件 系 统 bdev 中 (参见 8.4.1 节 )， 这 些 对 用 户 层 不 可 见 。 这 使 
导 可 以 使 用 标准 的 VFS 函 数 ， 来 处 理 块 设备 inode 的 集合 。 
特别 地 ， 辅 助 函 数 bpgqget 就 利用 了 这 一 点 。 给 定 由 dev_t 表 示 的 设备 号 ， 该 函数 查找 伪 文 件 系统 ， 
看 对 应 的 inode 是 否 已 经 存在 。 如 果 存 在 ， 则 返回 指向 inode 的 指针 。 由 于 struct bdev_inogde 的 存在 ， 
利用 返回 的 inode 指 针 ， 立 即 就 可 以 找到 该 设备 的 block_device 实 例 。 如 果 此 前 设备 没有 打开 过 ， 致 
使 inode 尚 未 存在 ，bdaget 和 伪 文 件 系统 会 确保 自动 分 配 一 个 新 的 baev_inode 并 进行 适当 的 设置 。 
与 字符 设备 层 相 比 ， 块 设备 层 提供 了 丰富 的 队列 功能 ， 每 个 设备 都 关联 了 0 DODD 。 这 种 队列 也 
是 块 设备 层 最 复杂 的 部 分 了 。 如 图 6-9 所 示 ， 各 个 数组 项 《简化 形式 ) 中 都 包含 了 指 加 各 种 结构 和 函数 
的 指针 ， 其 中 最 重要 的 成 员 如 下 : 
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口 一 个 等 竺 队列， 保存 对 设备 的 读 写 请 
口 函数 指针 ， 指 向 IO 调度 器 实现 ， 用 来 重 排 请 求 的 函数 ; 
口 特征 数据 ， 如 扇 区 、 块 长 度 和 设备 容量 ; 

D 0D 0 抽象 genha 对 每 个 设备 都 可 用 ， 其 中 存储 了 分 区 数据 以 及 指向 底层 操作 的 指针 。 
每 个 块 设备 都 必须 提供 一 个 探测 函数 ， 该 函数 通过 register_blkdev_range 直 接 注册 到 内 核 ， 
或 者 通过 下 文 讨论 的 gendisk 对 象 ， 使 用 aqd_qisk 间 接地 注册 到 内 核 。 该 函数 由 文件 系统 代码 调用 ， 
以 找到 匹配 的 gendisk 对 象 。 
对 块 设备 的 读 写 请 求 不 会 立即 执行 对 应 的 操作 。 相 反 ， 这 些 请 求 会 汇总 起 来 ， 经 过 协同 之 后 传输 
没 备 。 因 此， 对 应 设备 文件 的 file_operations 结 构 中 ; 没有 保存 用 于 执行 读 写 操作 的 具体 函数 。 相 
反 ， 其 中 包含 了 通用 函数 ， 如 generic_read_file 和 generic_write_file， 这 两 个 轴 数 会 在 第 8 章 讨 
论 。 
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值得 注意 的 是 ， 其 中 0 使 用 了 通用 函数 ， 这 是 块 设 备 的 一 个 特征 。 在 字符 设备 的 情形 中 ， 这 些 函 
数 都 是 特定 于 驱动 程序 的 。 所 有 特定 于 硬件 的 细节 都 在 请 求 执行 时 处 理 。 所 有 其 他 函数 处 理 的 都 是 一 
个 抽象 队列 ， 它 们 从 缓冲 区 /缓存 接收 结果 ， 一 般 不 与 底层 设备 交互 “除非 绝对 必要 )。 因 而 ， 从 read 
或 write 系 统 调用 到 实际 与 外 设 通 信 的 路 径 长 而 复杂 


6.5.2 ”数据 结构 
































































































































直到 现在 ， 对 内 核 内 部 表示 块 设备 所 需 的 数据 结构 ， 我 只 是 稍微 讨论 了 一 点 。 现 在 我 将 要 详细 地 
剖析 这 些 结构 。 

1. 块 设备 

块 设备 的 核心 属性 由 struct block_qevice 表 示 。 我 们 首先 讨论 该 结构 ， 然 后 考察 它 与 其 他 结构 
的 复杂 交互 

<fs.h> 

struct block device { 

dev_t bd_dev; /* 不 是 kdev_t， 它 是 一 个 用 二 */ 

















struct inode * bd_inode; /* 未 来 版 本 将 会 删除 * 
int bd_openers; 


struct list_ head bd_ inodes; 
void * bd holder; 


struct block_ device * bd_contains; 
unsigned bd block size; 
struct hd struct * bd part; 


unsigned bd part_ count; 
int bd invalidated; 
struct gendisk * bd disk; 
struct list_ head bd list; 


unsigned long bd private; 
3 


口 块 设备 的 设备 号 保存 在 ba_gev。” 



































Q 由 于 历史 原因 ， 包 含 了 对 数据 类 型 kdev_t 的 注释 。 在 内 核 版 本 2.6 的 开发 之 初 ， 内 核 使 用 了 两 个 不 同 数 据 类 型 
(dev_t 和 kdev_t)， 分 别 表示 内 核 内 部 /外 部 的 设备 号 。 
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口 pd_inode 指 向 bdev 伪 文件 系统 
因而 是 见 余 的 ， 该 字段 将 在 未 来 的 内 核 版 本 
口 bq_inodes 是 一 个 链表 的 表 头 ， 该 链表 包含 了 表示 该 块 设备 的 设备 特殊 文件 的 所 有 inode。 

















表示 该 块 设备 的 inode( 本 质 上 该 信息 也 可 
PP 删除 )。 








以 使 用 baget 获 取 ， 














D000 


DODUUUUUUUDinodeN baev00OU00D0 inode00Ou00o00o00050 








口 bd_openers 统 计 用 do_open 打 开 该 块 设备 
口 bq_part 指 向 一 个 专 

后 我 会 讨论 该 结构 。 
口 bd part_coun 
该 设备 内 


在 用 rescan_pa 


中 引 








则 禁 


口 ba_invaliaateq 设 置 为 1， 表 示 该 分 
F 该 设备 时 ， 将 要 重新 扫 
个 抽象 层 ， 





口 bq_private 可 月 














未 | 重新 扫 




















上 0 口 
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HH， 





下 一 次 打 姑 
口 baq_disk 提 供 了 另 
口 ba_list 是 一 个 链表 元 素 ， 用 了 
局 变量 a11_bdevs。 使 
日 于 在 block_qdevice 实 例 





全 























TtLiLions 司 


段 定 的 那样 统计 了 分 
区 的 次 数 。 
E 新 扫 


























描 分 区 表 。 




















的 次 数 。 
的 数据 结构 (struct hd_struct)， 表 示 包 含 在 该 块 设备 上 的 分 区 。 稍 


描 分 区 时 ， 这 个 计数 很 有 必要 。 如 果 baq_part_count 大 于 
因为 旧 的 分 区 仍然 在 使 用 中 。 
区 在 内 核 中 的 信息 无 效 ， 











区 的 数目 。 相 反 ， 它 是 一 个 使 用 计数 ， 计 算 了 内 核 





遇 





站 弘 
已 经 


大 








改变 。 








为 磁盘 上 的 分 区 


也 用 来 划分 便 盘 。 该 机 制 将 在 后 续 章 节 讲 解 。 








F 跟 踪 记 录 系 统 

















PP 所 有 可 























| 的 block_device 实 例 。 该 链表 的 表 


该 链表 ， 无 需 查 询 块 设备 数据 库 ， 即 可 过 历 所 有 块 设备 。 


Ph 存储 特定 于 持 有 者 的 数据 。 











bqd_privatel| 





避 轩 一 和 几 | 加 加“ 加 加 辐 加 轩 有 0 Gateaessaee 四 加 加 加 加 加 轩 加 加 轩 
een a elmer 
国 下 emeeteleas 人 | 
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O00OD 

关于 内 核 的 哪个 部 分 允许 持 有 块 设备 ， 没 有 固定 的 规则 。 例 如 在 Ext3 文 件 系统 中 ， 会 持 有 已 装载 
文件 系统 的 外 部 日 志 的 块 设备 , 并 将 超级 块 注册 为 持 有 者 。 如果 某 个 分 区 用 作 交 换 区 , 那么 在 用 swapon 
系统 调用 激活 该 分 区 之 后 ， 页 交换 代码 将 持 有 该 分 区 。 

在 使 用 blkdev_open 打 开 块 设备 并 请 求 独占 使 用 时 (6.5.4 节 会 讨论 这 一 点 )， 与 该 设备 文件 关联 
的 file 实 例会 持 有 该 块 设备 。 

我 们 注意 到 有 一 点 很 有 趣 : 当前 在 内 核 源 代码 中 尚未 使 用 ba_private 字 段 。 即 使 当前 没有 持 有 
者 需要 将 私有 数据 关联 到 块 设 备 ， 但 ba_claim 机 制 仍然 很 有 用 。 

最 后 ， 使 用 baq_release 释 放 块 设备 。 


2. 通用 硬盘 和 分 区 








核 数据 结构 的 关 








尽管 struct block_device 对 设备 驱动 程序 








1 此 
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上 崩 - 


DL 








添加 到 系 
block_ devi 


区 ) 更 为 有 用 。 
统 上 
ce 实例 。 为 
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Eb 














设备 上 
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记 有 关 的 
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1 去 ): 


段 已 经 4 








区 的 信 | 
PF 时 ， 内 核 将 读 取 
EF 内 核 使 


自 度 来 看 ， 我 们 对 块 设备 自 
已 不 依赖 于 表示 该 分 












































屋 表 示 一 个 块 设备 , 而 男 一 个 抽象 则 强调 与 通 
身 并 不 感 兴趣 。 相 反 ， 硬 盘 的 概念 〈 可 能 包含 子 
区 的 block_device 实 例 。 实 际 上 ， 将 一 个 磁 





用 的 内 











分 析 底 层 块 设备 上 的 分 区 信息 ， 




















但 并 不 会 对 各 个 分 区 创建 

















用 以 下 数据 结构 ， 对 已 经 分 








区 的 硬盘 提供 了 一 种 表示 与 统计 敌 
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<genhd.h> 
struct gendisk { 
int major; /* 驱动 程序 的 主 设备 号 */ 
int first minor; 
int minors; /* 从 设备 号 的 最 大 数目 ，=1 表 明 磁 盘 无 法 分 区 。*/ 
char disk_ name[32]; /* 主 驱动 程序 的 名 称 */ 
struct hd_struct **part; /* [索引 是 从 设备 号 ] */ 


int part_ uevent_suppress; 

struct block device operations *fops; 
struct request_queue *queue; 

void *private data; 

sector_t capacity; 

int flags; 

struct device *driverfs_dev; 

struct kobject kobj; 


二 
口 major 指 定 驱 动 程序 的 主 设备 写 。first_minor 和 minors 表 明 从 设备 号 的 可 能 范围 (我 们 已 经 
知道 ， 每 个 分 区 都 会 分 配 自身 的 从 设备 号 )。 
Daisk_name 给 出 了 磁盘 的 名 称 。 它 用 于 在 sys 和 /proc/partitions 中 表示 该 磁盘 。 
口 part 是 一 个 数组 ， 由 指向 hg_struct 的 指针 组 成 ，hg_struct 的 定义 如 下 。 每 个 磁盘 分 区 对 应 
于 一 个 数组 项 。 
口 如 果 part_uevent_suppress 设 置 正 值 ， 在 检测 到 设备 的 分 区 信息 改变 时 ， 就 不 会 向 用 户 空间 
发 送 热 插 拔 事件 。 只 有 在 磁盘 尚未 完全 集成 到 系统 之 前 ， 初 始 分 区 扫描 时 ， 才 会 这 样 做 。 
fops 是 一 个 指针 ， 指 向 特定 于 设备 、 执 行 各 种 底层 任务 的 各 个 函数 。 我 会 在 下 文 讨论 该 结构 。 
queue 由 于 管理 请 求 队列 ， 下 文 会 讨论 。 
Private_data 是 一 个 指针 ， 指 向 私有 的 驱动 程序 数据 ， 不 会 由 块 设备 层 的 通用 函数 修改 。 
capacity 指 定 了 磁盘 容量 ， 单 位 是 扇 区 。 
driverfs_dev 标 识 该 磁盘 所 属 的 硬件 设备 。 指 针 指 癌 驱动 程序 模型 的 一 个 对 象 ， 我 将 在 6.7.1 
节 讨 论 。 

口 kobj 是 一 个 庶 入 的 kobject 实 例 ， 一 般 的 内 核对 象 模型 已 经 在 第 1 章 讨 论 过 。 

对 每 个 分 区 来 说 ， 都 有 一 个 ha_struct 实 例 ， 用 于 描述 该 分 区 在 设备 内 的 键 。 我 给 出 的 该 数据 结 
构 仍 然 是 一 个 稍微 简化 的 版 本 ， 以 集中 于 该 数据 结构 的 基本 特征 。 


<genhd.h> 

struct hd_ struct { 
sector_t start_sect; 
sector_t nr_sects; 
struct kobject kobj; 
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}3 

start_sect 和 nr_sects 定 义 了 该 分 区 在 块 设备 上 的 起 始 扇 区 和 长 度 ， 因 而 唯一 地 描述 了 该 分 区 
(为 简明 起 见 ， 忽 略 了 用 于 统计 目的 的 其 他 成 员 )。 照 例 ，kobj 将 该 对 象 与 通用 对 象 模 型 关联 起 来 。 
part 数 组 中 填充 了 各 种 例 程 ， 可 用 于 在 人 硬盘 注册 时 考察 其 分 区 结构 。 内 核 文 持 许多 分 区 方法 ， 可 
以 文 持 在 许多 体系 结构 上 与 大 多 数 其 他 系统 共存 。 我 不 会 详细 讨论 具体 的 实现 方式 ， 因 为 只 有 在 从 磁 
盘 读 取 并 分 析 信 息 的 细节 方面 有 些 差别 。 


加 区 ge 到 加 
有 一 点 同样 重要 ， 即 struct gendisk 的 实例 不 能 由 驱动 程序 分 别 分 配 。 相 反 ， 必 须 使 用 胃 
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数 alloc_disk: 
























































<genhd.h> 

struct gendisk *alloc disk(int minors); 

给 出 设备 的 从 设备 号 数目 ， 调 用 该 函数 可 以 自动 分 配 genha 实 例 ， 其 中 包括 了 指向 各 个 分 区 的 
hq_struct 的 指针 所 需 的 空间 。 

DOO0000000000000000000000000000UUUD0O 

adqq_partitionlDUUO0OOO0O0D0 

此 外 ，alloc_qdisk 将 新 的 磁盘 集成 到 设备 模型 的 数据 结构 中 。 

因此 ，gengisk 不 能 在 销毁 时 简单 地 释放 ， 而 要 使 用 del_gendisk。 








3. 各 个 部 分 的 联系 
此 前 介绍 的 各 个 数据 结构 (s 
接 关 联 的 。 图 6-10 说 明 绪 
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bd part 





struct hd_struct 
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6-10” 块 设备 (plock_device)、 通 月 

















对 块 设备 上 已 经 打 








分 





gengisk 实 例 中 的 part 成 员 指向 ha_s 
block_device 表 示 分 





的 每 个 分 区 ， 都 对 应 于 一 个 struct block_device 的 实例 。 对 
block_device 实 例 通 过 bdq_contains 关 联 到 对 应 于 整个 块 设备 的 block_device 实 伪 
block_device 实 例 都 通过 bq_qisk， 指 向 其 对 应 的 通用 磁盘 数据 结 


区 的 人 磁盘 有 多 个 block_qevice 实 例 ， 但 只 对 应 于 一 个 gendisk 实 例 。 











truct 指 针 的 数组 。 


区 ， 其 中 包含 了 一 个 指针 指向 所 述 的 haQ_struct，ha_struct 实 











gendisk 和 和 struct block_device 之 间 是 





《部 的 。 














此 外 ， 通 用 
block_subsystem 表 示 。kset 
表 上 


| .o 





口 右 



































人 硬盘 gendisk 还 集成 到 kobject 让 
个 链表 ， 每 个 gendisk 实 例 所 包含 的 kobject 实 例 都 放置 在 该 链 





匡 架 中 ， 如 


1struct hd_struct 表 示 的 分 区 对 象 也 包含 了 一 个 散 入 的 kobject。 概 念 上 ， 分 



































元 素 ， 这 一 点 也 被 内 核对 象 的 数据 结构 所 所 
通用 硬盘 gendisk 中 髓 入 的 kobject。 





者 获 。haq_struct9 





bd_contains 


月 硬盘 (gengdisk) 和 分 


truct block device、 struct gendisk 和 struct haq_struct) 


为 间 彼 此 关联 的 方式 。 


struct 
block_device 


一 
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忠于 分 区 
1。 所 有 


尽管 一 个 


rN 
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区 (ha_struct) 之 间 的 关 








的 
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Ls 











构 gendisk。 要 注意 ， 





每 个 数组 项 都 表示 一 个 分 


xl 


。 如 果 一 个 


例 在 struct 

















图 6-11 所 示 。 块 设备 子 系统 由 kset 实 例 



































区 是 硬盘 的 子 
P 拉 入 的 kobject 的 parent 指 针 ， 将 指向 
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struct gendisk 


EE ee 


struct kset ! 1 ! 1 | 
block_subsys ! ! 1 | ， 


! entry 中 entry ' 嵌入 的 kobj 


和 
































kobj.parent kobj.parent 
LL _ 





struct hd_struct 


图 6-11 通用 硬盘 genai sk 与 一 般 的 内 核对 象 框架 的 集 
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4. 块 设备 操作 
特定 于 块 设备 的 操作 汇总 在 下 面 〈 稍 微 简化 ) 的 数据 结构 中 
<fs.h> 
struct block device operations { 
int (*open) (struct inode *, struct file *); 
int (*release) (struct inode *, struct file *); 
int (*ioctl) (struct inode *, struct file *, unsigned, unsigned long); 








int (*media changed) (struct gendisk *); 
int (*revalidate disk) (struct gendisk *); 


struct module *owner; 
和 
open、telease 和 ioct1 与 file_operations 中 等 价 函数 的 语义 相同 ， 分 别 用 于 打开 、 关 闭 文 件 
以 及 向 块 设备 发 送 特殊 命令 。 


国有 本 有 三国 避 本 昌国 本 上 国有 ESSEEDSEESES 同 
Ogo0go 


block_dqevice_operations 剩 余 的 成 员 列 出 了 仅 对 块 设备 可 用 的 选项 。 

口 media_changeq 检 查 存储 介质 是 否 已 经 改变 ， 对 于 软盘 和 ZIP 软 驱 等 设备 ， 这 是 有 可 能 的 〈 硬 
盘 通常 不 支持 该 函数 ， 因 为 它们 通常 不 能 换 盘 片 …… )。 该 例 程 仅 供 内 核 内 部 使 用 ， 以 防 粗心 
的 用 户 交 互 导 致 的 不 一 致 。 如 果 软 盘 未 经 卸载 便 从 驱动 器 移 除 ， 而 且 缓 存 中 的 数据 也 没有 与 
磁盘 的 数据 同步 ， 那 么 数据 损失 是 不 可 避免 的 。 如 果 用 户 在 修改 尚未 写 回 时 便 移 除 软盘 并 揪 
入 新 的 软盘 《数据 不 同 )， 情 况 会 更 糟糕 。 那 么 在 最 后 回 写 时 ， 新 软盘 的 数据 会 被 毁坏 ， 至 少 

bh 会 严重 损坏 。 我 们 应 该 不 惜 任何 代价 防止 这 种 情况 发 生 ， 因 为 此 时 第 一 个 软盘 的 数据 已 经 

丢失 了 ,通过 在 代码 中 适当 的 位 置 调用 check_media_change,; 内 核实 际 上 可 以 防止 这 种 损失 。 

口 顾名思义 ，revaliaate_disk 用 于 使 设备 重新 生效 。 当 前 ， 只 有 在 直接 移 除 旧 的 介质 并 替换 

为 新 的 介质 时 《未 进行 外 载 和 加 载 ) 才 有 必要 使 用 该 函数 。 

如 果 驱 动 程序 实现 为 模块 , 那么 ownez 字 段 指向 内 存 中 的 一 个 模块 结构 。 和 否则 , 该 成 员 为 NULL 指 针 。 

5. 请 求 队列 

块 设 备 的 读 写 请 求 放置 在 一 个 队列 上 ， 称 之 为 0 口 口 口 。gendisk 结 构 包 括 了 一 个 指针 ， 指 向 这 
个 特定 于 设备 的 队列 ， 由 以 下 数据 类 型 表示 。 
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<blkdev.h> 
struct request_queue 
{ 
/* 
* 与 queue_head 一 同 用 于 缓存 行 共享 
eo 
struct list_head queue_head; 
struct list head *]ast_merge; 
elevator_t elevator; 
struct request_list rq; /* 队列 中 空闲 请 求 的 列表 */ 
request_fn proc *request_fn; 
make_ request_fn *make_request_fn; 


prep_rq fn *prep_rq fn; 

unplug_fn *unplug_fn; 
merge_bvec_fn *merge_ bvec_fn; 
prepare_flush fn *prepare_ flush fn; 
softirq done_ fn *softirq done_ fn; 














/* 

* 自动 拔 出 特性 涉及 的 状态 值 

4 

struct timer_list unplug_ timer; 

int unplug_thresh; /* 累积 请 求 数目 的 阔 值 */ 
unsigned long unplug_delay; /* 累积 时 间 的 闵 值 ， 按 jiffies 计 算 */ 
struct work_struct unplug_work; 


struct backing dev_info backing dev_info; 


/* 如 果 页 帧 号 大 于 该 值 ， 则 使 用 弹性 缓冲 区 */ 




















unsigned long bounce_ pfn; 
int bounce_gfp; 
unsigned long queue_flags; 


/* 队列 设置 */ 




















unsigned long nr_requests; /* 请 求 的 最 大 数目 */ 
unsigned int nr_congestion on: 

unsigned int nr_congestion off; 

unsigned int nr_batching; 

unsigned short max_sectors; 

unsigned short max_hw_sectors; 

unsigned short max_phys_segments; 

unsigned short max_hw_segments; 

unsigned short hardsect_size; 

unsigned int max_segment size; 


站 

queue_head 是 该 数据 结构 的 主要 成 员 ， 是 一 个 表 头 ， 用 于 构建 一 个 IO 请 求 的 双 链表 。 链 表 每 个 
元 素 的 数据 类 型 都 是 request (在 下 文 讨论 ), 代表 向 块 设备 读 取 数 据 的 一 个 请 求 。 内 核 会 重 排 该 链表 
以 取得 更 好 的 VO 性 能 (提供 了 几 个 算法 来 执行 WO 调度 器 的 任务 ， 如 下 所 述 )。 因 为 有 各 种 方法 可 以 重 
排 请 求 ，elevator 成 员 " 以 函数 指针 的 形式 将 所 需 的 函数 群集 起 来 。 我 在 下 文中 会 返回 来 讨论 


elevator_t 这 个 结构 。 









































































































































GD 该 术语 稍微 有 点 混淆 ， 因 为 内 核 使 用 的 算法 都 没有 实现 经 典 的 电梯 算法 (elevator method)。 不 过 ， 这 些 算法 与 电 
梯 算法 的 功能 类 似 。 
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rq 用 作 request 实 例 的 缓存 ， 其 数据 类 型 为 struct request_list。 除 了 缓存 之 外 ， 它 还 提供 了 








两 个 计数 器 ， 用 于 记录 可 用 的 空 闪 输入 和 输出 请 求 的 数目 。 
结构 中 的 下 一 部 分 包含 一 系列 函数 指针 ， 表示 了 请 求 处 理 
返回 类 型 都 通过 typedef 定 义 〈(struct bio 管理 传输 的 数据 ， 将 在 下 文 讨论 
<blkdev.h> 
typedef void 
typedef int 


typedef int 
typedef void 

































































(request_fn proc) 
(make_request_fn) 
(prep_rq fn) 

(unplug_fn) 


(struct request_ queue *q); 
(struct request_queue *q, 
(struct request queue *, 
(struct request_ queue *); 


int (merge_ bvec_fn) 
void 
void 


typedef 
typedef 
typedef 


(struct request_ queue *, struct bi 
(prepare_flush fn) (struct request queue *, 
(softirq done fn) (struct request *); 

内 核 提 供 了 这 些 函 数 的 标准 实现 ， 可 以 用 于 大 多 数 设备 驱动 程序 。 
身 的 request_fn 函 数 ， 该 函数 是 请 求 队列 管理 与 各 个 设备 的 底层 功能 之 间 
当前 队列 以 执行 待 决 的 读 写 操作 时 ， 会 调用 该 函数 。 

前 4 个 函数 负责 管理 请 求 队列 。 
口 request_fn 是 用 于 向 队列 添加 新 请 求 的 标准 接口 。 在 内 核 期 








































































































期 望 驱动 











ee， 域 。 


但 每 个 驱动 程序 都 必须 实现 


函数 的 参数 设置 和 


struct bio *bio); 
struct request *); 


O *, struct bio_vec *); 


struct request *); 
































的 主要 关联 ， 在 内 核 处 理 








程序 执行 某 些 工作 时 《如 


























ee 或 向 设备 号 入 数据 )， 内 核 会 
称 之 为 D0 DDD (strategy routine ) 。 
口 make_request_fn 创 建新 请 求 。 内 核对 该 函数 的 标准 实现 向 请 求 链 
会 看 到 。 如 果 链 表 中 有 足够 多 的 请 求 ， 则 会 
所 有 这 些 请 求 。 






































内 核 允 许 设备 驱动 程序 定义 自身 的 make_reauest_fn 图 数 ， 因 为 某 些 设备 〈 





调用 特定 于 驱动 程序 的 request_fn 函 


动 调用 该 函数 。 按 内 核 的 术语 ， 该 函数 


表 添 加 请 求 ， 读 者 在 下 文 
数 ， 以 处 理 























侈 如 RAM 磁 盘 ) 























不 使 用 队列 ， 这 可 能 是 由 于 按 任意 顺序 访问 数据 都 不 会 影 
内 核 更 了 解 如 何 处 理 请 求 ， 因 而 使 
惯例 还 是 比较 罕见 的 。 
口 prep_rq_fn 是 一 个 请 0 大 多 数 驱 动 程序 不 使 用 该 函数 ， 
NULL。 如 果实 现 了 该 函数 ， 它 会 产生 所 需 Dian 用 于 在 发 送 


























al 











内 核 的 标准 方法 不 会 带 来 好 处 
































































































































请 求 。 辅 助 函 数 blk_queue_prep_rq 会 设置 给 定 队 列 的 prep_rq_fn。 

口 unplug_fn 用 于 拔 出 一 个 块 设备 时 调用 。 请 入 的 设备 不 会 了 请 求 ， 
拔 出 时 执行 。 巧 妙 地 使 用 该 方法 ， 能 够 提高 块 设备 层 的 性 能 。 下 面 3 

口 merge_bvec_fn 确 定 是 否 允 许 疝 一 个 现存 的 请 求 增加 更 多 数据 。 
国定 的 ， 限 制 了 其 中 请 求 的 数目 ， 因 此 内 核 可 使 用 这 种 机 制 来 避免 可 能 















































向 性 能 ， 也 可 能 是 


是 由 于 驱动 程序 比 
(例如 卷 管理 器 )。 但 这 种 





























让 





会 将 对 应 的 指针 设置 为 
实际 的 请 求 之 前 预备 一 个 








而 是 将 请 求 收集 起 来， 在 
个 函数 稍微 专门 一 些 。 





于 请 求 队列 的 长 度 通常 是 


的 问题 。 但 更 专门 的 








驱动 程序 ， 特 别 是 复合 
提供 了 辅助 例 程 blk_queue_merge_bvec 来 设置 队列 的 merge 















































中 ， 设 备 可 以 进行 必要 的 清理 。 
十 助 函 数 blk_queue_ordqereq 可 以 用 来 向 请 求 队列 设置 特定 的 方法 。 





























口 对 于 大 的 请 求 来 说 ， 完 成 请 求 ， 即 完成 所 有 IO， 可 能 是 一 个 耗 时 的 过 程 。 





设备 的 驱动 ， 队列 长 度 的 限制 可 能 不 同 ， 因 此 需要 
bvec 


口 在 预备 刷 出 队列 时 ， 即 一 次 性 执行 所 有 待 决 请 求 之 前 ， 会 调用 prepare_flush_fn。 


是 供 该 函数 。 内 核 
fno 
在 该 方法 





在 内 核 版 本 2.6.16 




















开发 期 间 ， 添 加 了 使 
的 特性 。 可 以 通过 








了 软 中 断 SoftIRQ (有 关 该 机 制 的 更 多 细节 请 参 


调用 lblk_complete_request 要 求 异步 完成 请 求 ， 


























参见 第 14 章 ) 异步 完成 请 求 
softirq_done_fn 在 这 种 
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情况 下 用 作 回 调 函 数 ， 通 知 驱 动 程序 请 求 已 经 完成 。 

内 核 提 供 了 标准 函数 blk_init_queue_nogde， 用 于 产生 一 个 标准 的 请 求 队列 。 在 这 种 情况 下 ， 驱 
动 程 序 自身 唯一 必须 提供 的 管理 函数 就 是 request_fn。 任 何其 他 的 管理 问题 都 通过 标准 函数 处 理 。 
用 这 种 方法 实现 请 求 管 理 的 驱动 程序 ， 在 调用 agg_gisk 激 活 磁盘 0 喇 ， 需 要 调用 blk_init_ 
queue_node 创 建 请 求 队列 ， 并 将 结果 request_queue 实 例 附加 到 设备 的 gendisk 实 例 。 

请 求 队列 可 以 在 系统 超 负 蓓 时 插入 。 接 下 来 新 的 请 求 都 会 处 于 未 处 理 状 态 ， 直 至 队列 “ 拔 出 ”， 
该 特性 称 之 为 LU D D 《queue plugging)。 以 unplug 为 前 级 的 各 个 成 员 用 于 实现 一 种 定时 器 机 制 ， 
在 一 定时 间 间 隔 后 自动 “ 拔 出 ”队列 。unplug_fn 负 责 实 际 的 拔 出 操作 。 

queue_flags 借 助 标志 来 控制 队列 的 内 部 状态 。 

request_1ist 结 构 的 最 后 一 部 分 包含 了 一 些 信息 ， 更 详细 地 描述 了 所 管理 的 块 设备 ， 并 反映 了 
与 硬件 相关 的 设备 设置 。 该 信息 总 是 以 数值 形式 出 现 ， 各 个 成 员 的 语义 在 表 6-2 中 给 

nr_requests 表 明了 可 以 管理 到 队列 的 请 求 的 最 大 数目 ， 我 们 将 在 第 17 章 再 讨论 该 主题 。 


表 6-2 请求 队 列 的 硬件 特征 值 











































































































































































































































































































































































































































































































成 员 语 义 

max_sectors 指定 设备 在 单个 请 求 中 可 以 处 理 的 扇 区 的 最 大 数 长 度 单位 是 具体 设备 的 扇 区 长 度 
(hardsect_size) 

max_segment_size 单个 请 求 的 最 大 段 长 度 〈 按 字 节 计算 ) 

max_phys_segments 指定 用 于 运输 不 连续 数据 的 分 散 - 聚 集 请 求 中 ， 不 连续 的 段 的 最 大 数目 

max_hw_segments 与 max_phys_segments 相 同 ， 但 考虑 了 【可 能 的 ) WO MMU 所 进行 的 重新 映射 。 该 成 员 
指定 了 驱动 程序 可 以 传递 到 设备 的 地 址 /长 度 对 的 最 大 数目 

hardsect_size 指定 了 设备 的 物理 扇 区 长 度 ， 该 值 通常 是 512。 只 有 少数 非常 新 的 设备 使 用 不 同 的 设置 











6.5.3 ”向 系统 添加 磁盘 和 分 区 


在 介绍 了 构成 块 设备 层 的 大 量 数据 结构 之 后 , 我 们 来 考虑 向 系统 添加 通用 硬盘 的 方式 ， 在 其 间 更 
仔细 地 讨论 所 涉及 的 各 个 结构 。 如 前 所 述 ，adaa_daisk 负 责 完成 该 功能 。 对 实现 的 讨论 接 下 来 会 讲解 
add_partition 如 何 将 分 区 添加 到 内 核 的 数据 结构 。 
1. 添加 分 区 
adq_partition 负 责 向 通用 硬盘 数据 结构 添加 一 个 新 的 分 区 。 我 在 这 里 将 讨论 一 个 稍微 简化 的 版 
本 。 首 先 ， 分 配 了 一 个 新 的 struct haq_struct 实 例 ， 并 填充 了 有 关 该 分 区 的 一 些 基 本 信息 































































































fs/partitions/check.c 
void add partition(struct gendisk *disk, int part, sector t start, sector t len, int flags) 
{ 


strict, hd_strict. “es 
p = kzalloc(sizeof (*p), GFP_ KERNEL); 
p->start_sect = start; 


p->nr_sects = len; 
p->partno = part; 








在 指定 一 个 用 于 显示 的 名 字 〔 例 如 ， 在 sysfs 中 〉 后 ， 将 分 区 的 内 核对 象 的 父 对 象 设置 为 通用 硬盘 
对 象 。 与 完整 的 磁盘 相 比 ，ktype 不 是 ktype_block， 而 设置 为 ktype_part。 这 使 得 可 以 区 分 源 自 磁 
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盘 和 源 自分 区 的 uevent (参见 7.4 节 ): 


fs/partitions/check.c 
kobject_set _ name (&p->kobj, "%s%d", 
kobject name (&disk->kobj),part); 


p->kobj.parent = &disk->kobj; 
p->kobj.ktype = &ktype_ part; 











用 kobject_adgd 添 加 新 对 象 ， 使 之 成 为 块 设备 子 系统 的 一 个 成 员 ， 因 此 提供 有 关 该 分 区 信息 
的 sysfs 项 会 出 现在 /sys/block 中 。 最 后 ， 必 须 修改 通用 人 硬盘 对 象 ， 使 对 应 的 part 数 组 项 指 癌 新 的 


分 区 : 









































fs/partitions/check.c 
kobject_init(&p->kobj); 
kobject_add (&p->kobj); 


disk->part[part-1] = p; 


} 
2. 添加 磁盘 
图 6-12 给 出 了 aqq_qisk 的 代码 流程 图 。 其 中 采用 了 一 个 三 阶段 的 策略 。 











blk_register _ queue 


图 6-12”aqdq_qisk 的 代码 流程 图 


首先 ， 调 用 blk_register_region， 确 认 所 要 求 的 设备 号 范围 尚未 分 配 。 更 有 趣 的 工作 由 
register_qisk 执 行 。 在 给 内 核对 象 提 供 了 一 个 名 字 之 后 ， 用 baqget_disk《〈 该 函数 是 bdaget 的 一 个 前 
澳 ， 负 责 参数 转换 ) 获取 了 该 设备 的 一 个 新 的 block_gdevice 实 例 。 

直到 现在 ， 我 们 对 该 设备 的 分 区 尚 一 无 所 知 。 为 补救 这 种 情况 ， 内 核 调用 了 几 个 函数 ， 最 终 调 用 
到 rescan_partitions (有 关 调 用 栈 的 准确 信息 ， 请 参考 下 一 节 的 讨论 )。 该 函数 试图 通过 试 错 法 识 
别 块 设备 上 的 分 区 。 全 局 数组 check_part 包 含 了 一 些 函 数 指针 ， 能 够 识别 特定 的 分 区 类 型 。 在 标准 
的 计算 机 上 ， 通 常会 使 用 PC Bios 或 EFI 分 区 ， 但 对 更 神秘 的 类 型 如 SGI Ultrix 或 Acorm Cumana 分 区 也 提 
供 了 支持 ,这些 函数 中 的 每 一 个 都 允许 察看 该 块 设备 , “如 果 检 测 到 某 种 知道 的 分 区 方案 , check_part 
中 的 函数 会 向 rescan_partitions 返 回 该 信息 。 接 下 来 ， 正 如 前 文 的 讨论 ， 将 对 各 个 检测 到 的 分 区 调 
用 aqq_partition。 


6.5.4 打开 块 设备 文件 


在 用 户 应 用 程序 打开 一 个 块 设备 的 设备 文件 时 ， 虚 拟 文件 系统 将 调用 file_operations 结 构 的 
open 函 数 ， 最 终 会 调用 到 blkdev_open。 图 6-13 给 出 了 相关 的 代码 流程 图 。 
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Q 要 注意 ， 这 意味 着 在 用 disk_adq 注 册 该 设备 时 ， 必 须 已 经 能 够 从 该 块 设备 读 取 数据 ! 
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ba_acauire 首 先 找到 与 该 设备 匹配 
指针 可 以 直接 从 inodqe->i_ bdqev 得 到 。 
的 主要 部 分 ， 如 下 所 述 。 如 果 设 置 了 标志 0 
要 求 持 有 该 块 设备 。 这 会 ; 

do_open 的 第 一 步 是 调 
的 讨论 ， 我 们 知道 gengis 
尚 不 完整 。 尽 管 如 此 ， 利 用 该 设备 工作 所 需 的 、 特 定 于 设备 
可 以 在 gendisk 结 构 中 找到 。 








blkdev_open 














各 与 设备 文 从 
用 get_gendisk。 该 函数 将 返 世 














k 结 构 描 述 了 块 设备 的 分 


get_gendisk 


disk->fops->open 














设置 了 0_EXCL 标 志 ? 





图 6-13 ”blkdev_open 的 代码 流程 图 







































































内 核 接 下 来 需要 根据 块 设备 的 类 型 和 状态 采取 不 同 的 策略 ， 如 
























口 
口 











会 更 简单 ， 这 可 以 通过 打 


get_gendisk 

















设备 此 前 打开 过 ? 













臣 


是 分 区 ? 


奋 


EXCL 来 请 求 对 块 设备 的 独 
关联 的 file 实 例 设置 为 该 块 设备 的 当前 持 有 者 。 
属于 块 设备 的 gendisk 实 例 。 忆 
区 。 但 如 果 这 是 第 
的 block_device_operations 实 例 , 已 经 


的 block_qevice 实 例 。 如 果 设备 
占 访 问 ， 那 么 会 调用 ba_claim 








己 经 使 用 过 ， 指 向 该 实例 的 











忆 6.2.5 节 
该 块 设备 ， 其 中 的 信息 









































分 区 信息 无 效 ? 


图 6-14 所 示 。 如 果 块 设备 此 前 打开 
者 计数 block_qevice->bq_openers 判 断 。 


次 打 























disk->fops->open 











三 
上 ~ 二 >| 将 block_qevice 插 入 到 数据 结构 中 














disk->fops->open 





rescan partitions 
































分 区 信息 无 效 ? 














图 6-14 ”do_open 的 代码 流程 图 

















上 一 escan_ partitions | 


硬件 的 初始 化 任务 。 











disk->fops->open 调 
如 果 block_dqevice->ba_invalidqateq 表 明 分 区 信 ， 








吾 


出 





如 果 设 备 此 前 没有 打 玫 





EE 新 读 取 分 











中 可 能 包含 分 





区 信息 。 如 果 更 换 了 可 移动 介质 ， 那 么 原来 


文件 适当 的 open 函 数 ， 执 行 特定 了 














妃 已 经 无 效 ， 则 调 

















jrescan_partitions 




















F 过 ， 则 需要 更 多 工作 。 首 先 假定 打 玫 
区 。 在 这 种 情况 下 ， 需 要 像 上 述 的 例子 那样 ， 处 理 






































此 





的 分 区 信息 将 是 无 效 的 。 
F 的 是 主 块 设备 ， 而 不 是 分 








区 ， 当 然 其 
籍 记 细节 : disk->fops->open 
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处 理 打开 设备 的 底层 工作 ， 如 果 现 存 的 分 区 信息 无 效 则 调用 rescan_partitions 读 取 分 区 表 。 

但 通常 这 是 系统 第 一 次 读 入 分 区 信息 。 在 使 用 aaaq_dqisk 注 册 一 个 新 磁盘 时 ， 内 核 将 
gendisk->bq_invaliaateq 设 置 为 1， 这 表明 块 设 备 上 的 分 区 表 无 效 〈 实 际 上 由 于 根本 没有 分 区 表 ， 
确实 不 能 称 之 为 0 0 1。 接 下 来 构建 一 个 假 的 文件 作为 参数 传递 给 ao_open， 这 样 做 可 以 读 取 分 区 对 


和 白 
恒心 \o 


如 果 打 开 的 块 设备 代表 一 个 此 前 没有 打开 过 的 分 区 ， 内 核 需 要 将 分 区 的 block_gdevice 实 例 与 包 
含 分 区 的 block_qdevice 关 联 起 来 。 关 联 的 过 程 如 下 述 代码 所 示 : 

fs/block_dev.c 

struct hd_struct *p; 


struct block_ device *whole; 
whole = bdget disk(disk, 0); 






















































































7 

































































bdev->bd_contains = whole; 
p = disk->partl[lpart -1]; 


Daev Soba art = p; 
在 找到 表示 包含 分 区 的 整个 磁盘 的 block_qdevice 实 例 之 后 ,使 用 block_device->bd_contains 
建立 了 分 区 及 其 容器 之 间 的 关联 。 要 注意 ， 内 核 从 对 应 于 分 区 的 block_qevice 实 例 可 以 找到 对 应 于 
整个 块 设备 的 block_qevice 实 例 ， 反 过 来 则 不 可 以 ! 此 外 ，ha_struct 中 的 分 区 信息 现在 由 gendisk 
和 分 区 的 block_qdevice 实 例 共享 ， 如 图 6-10 所 示 。 
6.5.5 ”请求 结构 

内 核 提 供 了 数据 结构 以 描述 发 送 给 块 设备 的 请 求 。 


<blkdev.h> 
struct request { 
struct list_ head queuelist; 


struct list_ head donelist; 










































































struct request_ queue *q; 
unsigned int cmd_ flags; 


enum rq _ cmd_ type_bits cmd_ type; 
































sector_t sector; /* 需要 传输 的 下 一 个 而 区 号 */ 
sector_t hard_ sector; /* 需要 传输 的 下 一 个 而 区 号 */ 
unsigned long nr_sectors; /* 还 需要 传输 的 扇 区 数目 */ 
unsigned long hard _nr_sectors;  /* 还 需要 传输 的 扇 区 数目 */ 











/* 当前 段 中 还 需要 传输 的 肩 区 数目 */ 
unsigned int current nr_sectors; 



































/* 当前 段 中 还 需要 传输 的 扇 区 数目 */ 
unsigned int hard cur_sectors; 








striuet. bio. *bio: 
struct bio *biotail;s 


void *elevator_ private; 
void *elevator private2; 


struct gendisk *rqg disk; 
unsigned long start time; 
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unsigned short nr_phys_segments; 
unsigned short nr_ hw_ segments; 


unsigned int cmd_ len; 
ye 
请 求 一 个 特有 性 质 就 是 ， 请 求 需 要 保存 在 请 求 队列 上 。 这 种 队列 使 用 双 链 表 实 现 ，queuelist 提 
具 了 所 需 的 链表 元 素 。"a 指 向 该 请 求 所 属 的 请 求 队列 (如 果 有 的 话 )。 
在 一 个 请 求 完 成 后 ， 即 所 有 需要 的 IO 操作 都 已 经 执行 完毕 ， 可 以 将 其 排 到 完成 链表 上 ， 此 时 使 
用 donelist 作 为 链表 元 素 。 
结构 包含 的 3 个 成 员 ， 指 定 了 所 需 传输 数据 的 准确 位 置 。 
口 sector 指 定 了 数据 传输 的 起 始 扇 区 。 
口 current_nr_sectors 表 明了 当前 请 求 在 当前 段 中 还 需要 传输 的 扇 区 数目 。 
D nr_sectors 指 定 了 当前 请 求 还 需要 传输 的 而 区 数目 。 






































二 





















































































































































hard_sector、hard_cur_sectors 和 hard_nr_sectors 与 结构 中 没有 hard_ 前 级 的 对 应 成 员 语 
义 相 同 ， 但 涉及 的 是 实际 人 硬件 而 非 虚 拟 设 备 。 通 常 两 组 变量 的 值 相 同 ， 但 在 使 用 RAID 或 逻辑 卷 管理 
器 (Logical Volume Manager) 时 可 能 会 有 差别 ， 因 为 这 些 机 制 实际 上 是 将 几 个 物理 设备 合并 为 一 个 虚 




















拟 设 备 。 
在 使 用 分 散 -聚集 IO 操作 时 ，nr_phys_segments 和 nr_hw_segments 分 别 指定 了 请 求 中 段 的 数 
和 经 过 WO MMU 可 能 的 重 排序 之 后 段 的 数 
类 似 于 大 多 数 内 核 数据 类 型 ， request 也 包含 了 指向 私有 数据 的 指针 。 在 这 里 ， 甚 至 有 两 个 成 员 
可 用 (elevator_private 和 elevator_private2)! 它们 可 以 通过 当前 处 理 请 求 的 VO 调度 器 (传统 
上 称 为 0] 0 ，elevator) 设置 。 
BIO 用 于 在 系统 和 设备 之 间 传 输 数 据 。 其 定义 将 在 下 文 讲解 。 
口 bio 标 识 传输 尚未 完成 的 当前 BIO 实例 。 
口 biotail 指 向 最 后 一 个 BIO 实例 ， 因 为 一 个 请 求 中 可 使 用 多 个 BIO。 
请 求 可 用 于 回 设 备 传送 控制 命令 ， 更 正式 地 讲 ， 请 求 可 以 用 作 D D D 0D 0 D D (packetcommand 
carrier)。 想 要 的 命令 在 cmd 数 组 中 列 出 。 在 这 里 ， 我 们 省 去 了 与 每 记 有 关 的 几 项 。 
与 请 求 关联 的 标志 分 为 两 个 部 分 。cmq_flags 包 含 了 用 于 请 求 的 一 组 通用 标志 ， 而 cma_type 表 示 
请 求 的 类 型 。 以 下 是 可 用 的 请 求 类 型 : 
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<blkdev.h> 

enum rq_cmd type bits { 
REQ_TYPE FS = 1, /* 文件 系统 请 求 */ 
REQ_TYPE_BLOCK_PC， /* scsi 命 令 */ 
REQ_TYPE_SENSE, /* 1 于 scsi/atapi 设 备 */ 
REQ_TYPE_PM_ SUSPEND, /* ， 要 求 暂停 设备 */ 
REQ_TYPE_ PM RESUME, /* 电源 管 今 ， 要 求 唤醒 设备 */ 
REQ_TYPE_ PM_ SHUTDOWN, /* 电源 管理 命令 ， 要 求 将 设备 停机 */ 
REQ_TYPE_FLUSH, /* 刷 出 请 求 */ 
REQ_TYPE_SPECIAL, /* 驱动 程序 定义 的 请 求 类 型 */ 
REQ_TYPE_ LINUX_ BLOCK, /* 一 般 性 的 块 设备 层 消息 */ 











J) 这 只 对 异步 完成 请 求 有 必要 。 通 常 不 需要 该 链表 。 
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常见 的 请 求 类 型 是 REQ_TYPE_FS: 它 用 于 与 块 设备 之 间 的 实际 数据 传输 。 其 余 类 型 的 请 求 用 来 
发 送 各 种 类 型 的 命令 ， 请 参看 具体 的 设备 驱动 程序 源 文件 中 的 注释 。 
除了 请 求 类 型 之 外 ， 还 有 几 个 标志 ， 描 述 了 请 求 的 特征 : 



























































<blkdev.h> 

enum rq_ flag bits { 
__REO_RW, /* 未 置 位 ， 读 请 求 ， 置 位 ， 写 请 求 */ 
__ REQ FAILFAST, /* 底层 驱动 程序 不 进行 重 试 */ 
__REQO_SORTED, /* 该 请 求 由 I/o 调 度 器 使 用 */ 














月 
_ REQ_SOFTBARRIER， /* 不 能 由 I/o 调 度 器 传递 */ 
__ REQ_HARDBARRIER， /* 不 能 由 驱动 程序 传递 */ 

R 



































































































































































































































__REQO_FUA, /* 司 用 EURA( forced unit acces 
/* 即 写 入 的 数据 直接 存储 到 块 设备 的 介 | 不 使 用 块 设备 自身 的 缓存 */ 

__REQ_ NOMERGE, /* 该 请 求 不 能 进行 合并 */ 

__ REQO_STARTED, /* 驱动 程序 已 经 开始 处 理 该 请 求 */ 

__ REQ_ DONTPREP, /* 对 该 请 求 ， 不 要 调用 请 求 队列 的 prep_rq_fn 方 法 来 预先 准备 发 送 到 
/* 设备 的 命令 */ 

__REQ_ QUEUED, /* 表明 潜在 设备 具有 排队 处 理 多 个 命令 的 能 力 */ 

__ REQ_ELVPRIV， /* 附加 了 I/o 调 度 器 的 私有 数据 */ 

— REQ_FAIDED， /* 如 果 请 求 失 败 ， 则 置 位 */ 

_ REQ_QUIET， /* 不 报告 失败 */ 

__REQ_PREEMPT, /* 对 ide_preempt 请 求 置 位 ， 此 类 请 求 用 于 IDE 人 磁盘 ， 
/* 将 强占 队列 中 的 当前 请 求 。 */ 

__REQ_ORDERED_COLOR, /* 在 屏障 之 前 或 之 后 */ 

__REQ_RW_SYNC, /* 请 求 是 同步 的 (0O_DIRECT) */ 

__REQ_ALLOCED, /* 请 求 来 自分 配 池 */ 

__ REQ_RW_ META, /* 元 数据 I/O 请 求 */ 

__ REQ_NR_BITS ， /* 到 此 为 止 */ 

于 





_ REQ_RW 特 别 重 要 ， 因 为 它 指出 了 数据 传输 的 方向 。 如 果 该 比特 位 置 位 ， 则 将 数据 写 入 设备 ; 
和 否则， 从 设备 读 取 数 据 。 剩 余 的 比特 位 用 于 发 送 特殊 的 与 设备 相关 的 命令 ， 可 以 设置 屏障 "， 或 传输 
控制 码 。 内 核 代码 的 注释 中 己 经 简明 地 描述 了 其 语义 ， 我 不 再 袭 述 。 
6.5.6 BIO 
在 给 出 BIO 的 准确 定义 之 前 ， 最 好 先 讨论 其 原理 ， 如 图 6-15 所 示 。 




































































































































struct page 


图 6-1$ ”BIO 的 结构 


BIO 的 主要 管理 结构 (bio) 关联 到 一 个 向 量 ( 即 数组 )， 各 个 数组 项 都 指向 一 个 内 存 页 (切记 : 口 
口 页 在 内 存 中 的 地 址 , 而 是 对 应 于 该 页 帧 的 page 实 例 )。 这些 页 用 于 从 设备 接收 数据 、 向 设备 发 送 数 据 。 





















































Q 如果 设 备 在 请 求 序列 中 遇 到 一 个 屏障 ， 那 么 在 执行 任何 其 他 操作 之 前 ， 必 须 将 所 有 待 决 请 求全 部 处 理 完 
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这 些 内 存 页 可 以 但 不 必 一 定 按 连 续 方 式 组 织 ， 这 简化 了 分 散 -聚集 IO 操作 的 实现 。 
BIO 在 内 核 源 代码 中 对 应 的 结构 定义 如 下 《已 经 简化 ): 








































































































<bio.h> 
struct bio { 
sector_t bi_sector; 
struct bio *bi_next; /* 将 与 请 求 关联 的 几 个 BIO 组 织 到 一 个 单 链表 中 */ 
struct block_device *bi_bdev; 
unsigned short bi_vent; /* bio_vec 的 数目 */ 
unsigned short bi_idx; /* bi_io_vec 数 组 中 ， 当 前 处 理 数组 项 的 索引 */ 
unsigned short bi_phys_segments; 
unsigned short bi_hw_ segments; 
unsigned int bi_size; /* 剩余 I/O 数 据 量 */ 
struct bio_vec *bi_io_vec; /* 实际 的 bio_vec 数 组 */ 
bio_engd_ io_t *bi_engd_io; 
void *bi_ private; 
}3 
口 bi_sector 指 定 了 传输 开始 的 扇 区 号 。 
口 pi_next 将 与 请 求 关联 的 几 个 BIO 组 织 到 一 个 单 链表 中 。 
口 bi_bqaev 是 一 个 指针 ， 指 向 请 求 所 属 设备 的 block_qevice 数 据 结构 。 
口 bi_phys_segments 和 bi_hw_segments 指 定 了 传输 中 段 的 数目 ， 二 者 分 别 是 由 IO MMU 重 新 








映射 之 前 /之 后 的 数值 。 
口 bi_size 表 示 请 求 所 涉及 数据 的 长 度 ， 单 位 为 字 节 。 
口 bi_io_vec 是 一 个 指向 IO 向 量 的 指针 ，bi_vcnt 指 定 了 该 数组 中 数组 项 的 数目 。bi_idqx 表 示 
当前 处 理 的 数组 项 索引 。 
各 个 数组 元 素 的 结构 定义 如 下 : 
<bio.h> 
struct bio_vec { 
struct page *bv_page; 


unsigned int bv_len; 
unsigned int bv_offset; 









































bv_page 指 癌 用 于 数据 传输 的 页 对 应 的 page 实 例 。lbv_offset 表 示 该 页 内 的 偏 移 量 ， 通 常 该 值 
为 0， 因 为 页 边界 通常 用 作 IO 操 作 的 边界 。 
len 指 定 了 用 于 数据 的 字 节 数目 (如 果 整 页 不 完全 填充 的 话 )。 
口 通用 BIO 代 码 不 会 修改 pi_private， 该 成 员 可 用 于 驱动 程序 相关 的 信息 。 
口 bi_gdestructor 指 向 一 个 析 构 函数 ， 在 从 内 存 删 除 一 个 bio 实 例 之 前 调用 。 
口 在 硬件 传输 完成 时 ,设备 驱动 程序 必须 调用 bi_eng_io。 这 使 得 块 设备 层 有 机 会 进行 清理 , 或 































































































6.5 UU000 345 











唤醒 等 待 该 请 求 结束 的 睡眠 进程 。 
6.5.7 ”提交 请 求 
在 本 节 中 ,我 讨论 内 核 将 数据 请 求 提交 给 外 设 的 机 制 。 这 也 涉及 缓冲 和 请 求 的 重 排 ， 以 减少 磁头 
寻 道 的 移动 ， 或 捆绑 多 个 操作 以 提高 性 能 。 此 外 还 涵盖 了 设备 驱动 程序 的 操作 ， 驱 动 程序 与 具体 的 硬 
件 交 互 以 处 理 请 求 。 本 节 还 包括 了 虚拟 文件 系统 中 与 设备 文件 相关 的 通用 代码 ， 这 部 分 代码 通过 设备 
文件 又 关联 到 用 户 应 用 程序 以 及 内 核 的 其 他 部 分 。 读 者 从 第 8 和 16 章 会 看 到 ， 内 核 将 已 经 从 块 设备 读 
取 的 数据 保存 在 缓存 中 ， 以 便 在 未 来 重复 提交 同样 的 请 求 时 重用 。 我 们 在 这 里 对 缓存 这 方面 不 是 特别 
感 兴趣 。 我 们 将 讨论 内 核 如 何 向 设备 提交 物理 请 求 来 读 取 和 写 入 数据 。 
内 核 分 两 个 步骤 提交 请 求 。 
口 它 首 先 创 建 一 个 bio 实 例 以 描述 请 求 ， 然 后 将 该 实例 嵌入 到 请 求 中 ， 并 置 于 请 求 队 列 上 。 
口 接 下 来 内 核 将 处 理 请 求 队列 并 执行 bio 中 的 操作 。 
我 们 对 bio 实 例 的 创建 不 太 感 兴趣 ， 其 中 只 涉及 指定 块 设备 上 的 位 置 并 提供 用 于 保存 /传输 相关 数 
据 的 页 帧 。 我 就 不 详细 讲解 了 。 
在 BIO 创建 后 , 调用 make_request_fn 产 生 一 个 新 请 求 以 插入 到 请 求 队列 。 "请求 通过 request_fn 
















































































































































































































































































直到 内 核 版 本 2.6.24， 这 些 操 作 的 实现 都 在 block/11_rw_blk.c 中 。 文 件 名 看 起 来 很 古怪 ， 实 际 
上 是 low level read write handling for block device 的 缩写 。 以 后 的 内 核 将 实现 拆 分 到 一 些 较 小 的 文件 中 ， 
命名 遵循 block/blk-*.c 的 模式 。 
1. 创建 请 求 
submit_pbio 是 一 个 关键 函数 ， 负 责 根 据 传 递 的 bio 实 例 创建 一 个 新 请 求 ， 并 使 用 make_ 
request_fn 将 请 求 置 于 驱动 程序 的 请 求 队列 上 。 图 6-16 给 出 了 相关 的 代码 流程 图 。 我 们 首先 考虑 一 个 
简化 的 版 本 ， 稍 后 再 返回 来 讨论 在 某 些 情况 下 可 能 出 现 的 一 些 问 题 ， 以 及 内 核 如 何 用 小 技巧 来 解决 这 


些 问 题 。 






















































































进行 统计 量 计算 


bdev_get_queue 























blk_partition_remap 





queue->make_request_fn 





图 6-16 ”submit_bio 的 代码 流程 图 
内 核 中 各 个 地 方 都 会 调用 该 函数 发 起 物理 数据 传输 。submit_pbio 只 是 更 新 内 核 的 统计 量 ， 实 际 


























山 | 






































Q 如果 驱 动 程序 已 经 用 自身 的 函数 显 式 代替 了 默认 的 实现 ， 也 可 以 将 请 求 存储 到 其 他 地 方 。 
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作 在 迁 回 到 generic_make_request 之 后 委托 给 ”generic_make_request,， 具体 细节 在 下 文 解释 。 
在 进行 一 些 检查 之 后 (例如 ， 一 种 检查 会 确认 请 求 是 否 超出 设备 的 物理 能 力 )， 实 际 工作 分 3 步 进行 。 

口 使 用 baev_get_queue， 找 到 该 请 求 所 涉及 块 设备 的 请 求 队列 。 

口 如 果 该 设备 是 分 区 的 ， 则 用 blk_partition_ remap 重 新 映射 该 请 求 ， 以 确保 读 写 正确 的 区 域 。 

这 使 得 内 核 的 其 余部 分 可 以 将 各 个 分 区 当 作 独立 的 、 非 分 区 设备 对 符 。 如 果 分 区 起 始 于 扇 区 7 

而 将 要 访问 分 区 内 的 扇 区 产 ， 那 么 必须 创建 一 个 请 求 来 访问 块 设备 的 扇 区 mHz。 分 区 的 正确 但 
移 量 ， 保 存在 与 队列 关联 的 genai sk 实例 的 parts 数 组 中 。 
口 q->make_request_fn 根 据 bio 产 生 请 求 并 发 送 给 设备 驱动 程序 。 对 大 多 数 设 备 ， 发 送 操作 调 
用 内 核 的 标准 函数 (__make_request) 完成 。 

我 在 上 文 已 经 提 到 ， 上 述 方法 可 能 会 出 现 一 些 问题 , 现在 我 们 将 讲解 具体 的 问题 。 内 核 中 的 一 些 
块 设备 驱动 程序 〈 磁 盘 和 设备 映射 器 〉 不 能 使 用 内 核 提 供 的 标准 函数 ， 而 需要 自行 实现 相应 的 函数 。 
但 这 些 自行 实现 的 函数 会 递归 调用 generic_make_reauest! 
尽管 递归 函数 调用 在 用 户 空 间 是 没 问 题 的 , 但 由 于 内 核 中 栈 空 间 非 常 有 限 , 因此 可 能 会 引起 问题 。 
对 而 需要 确定 一 个 合理 的 值 ， 来 限制 递归 的 最 大 深度 。 为 理解 如 何 进 行 限制 ， 首 先 回 顾 表示 进程 的 
task_struct 结 构 (参考 第 2 章 )， 其 中 包含 了 两 个 与 BIO 处 理 有 关 的 成 员 : 
<sched.h> 


struct task_struct { 


/* 递归 调用 累积 的 块 设备 信息 */ 


struct bio *bio list, **bio_ tail; 









































































































































































































































































































































































































































} 

上 述 指针 用 于 将 递归 的 最 大 深度 限制 为 1， 这 样 就 不 会 丢失 任何 提交 的 BIO。 如 果 _ generic_ 
make_request 或 一 些 子 函数 调用 了 generic make request， 代 人 码 的 流程 将 在 下 一 次 递归 调用 
__generic make request 之 前 返回 。 为 理解 这 一 点 ， 我 们 需要 看 一 下 generic_make_request 的 实 
现 (回想 一 下 ， 可 知 current 指 向 当前 运行 进程 的 task_struct 实 例 )。 


block/ll_rw_blk.c 
void generic make request(struct bio *bio) 


{ 










































































if (current->bio tail) { 
/* make_request 处 于 活动 状态 */ 





*(current->bio tail) = bio; 
bio->bi next = NULL; 
current->bio tail = &bio->bi next; 
eturns 


do { 
current->bio_list = bio->bi next; 
if (bio->bi_ next == NULL) 
current->bio _ tail = &current->bio_ list; 
else 


bio->bi_ next = NULL; 
generic make request (bio); 
bio = current->bio_ list; 
} while (bio); 
current->bio_tail = NULL; /* make_request 不 再 活动 */ 
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该 方法 很 简单 ， 但 很 有 创造 性 。 图 6-17 说 明了 数据 结构 随时 间 的 演变 过 程 。 








































































































bio bio 
[bi_next | bi_next | 
Bio1 i bi_nextH 
| 
2 Bio2 
bio_list bio_list 
bio_tail bio_tail 
current current 
(a) (b) 
pS ed 
bi_nextH |bi_next bi_next bi_next bi_next bi_next 
Bio1 Bio2 Bio1 Bio2 Bio 3 Bio 4 


io listh bio_list 
bio_tail 


current 
(9) (d) 


图 6-17 递归 调用 generic_make_request 时 BIO 链 表 的 演变 


current->bio_tail 初 始 化 为 NULL， 因 此 可 以 跳 过 第 一 个 条 件 块 语句 。 在 提交 一 个 bio 实 例 时 ， 
数据 结构 如 图 6-17a 所 示 。bio 指 向 提交 的 BIO， 而 current->bio_1ist 为 NULD，current->bio tail 
指向 current->bio_1list 的 地 址 。 要 注意 ， 图 6-17 中 (b)、(c)、(qd) 儿 幅 图 考虑 的 都 是 第 一 次 调用 
generic_make_request 时 的 局 部 变量 bio， 并 不 涉及 后 续 调 用 的 栈 帧 中 的 局 部 变量 。 
现在 假定 _ generic_make_request 递 归 调 用 generic make request 提 交 一 个 BIO 实例 ， 我 们 称 之 
为 BIO 2。 在 generic_make_request 返 回 时 ， 数 据 结 构 会 如 何 变化 呢 ? 考虑 函数 在 递归 调用 时 的 
行为 : 由 于 current->bio_tail 不 是 NULL 指 针 ，generic_make_request 中 开始 的 if 块 语句 会 进行 处 
理 。 接 下 来 current->bio_1ist 指 向 第 二 个 BIO， 而 current->bio_tail 指 向 BIO 2 的 bi_next 成 员 
的 地 址 。 在 __generic_make_request 返 回 时 ， 数 据 结构 如 图 6-17b 所 示 。 
现在 do 循环 将 执行 第 二 次 。 在 循环 中 第 二 次 调用 _generic_make_request 之 前 ,数据 结构 如 图 
6-17c 所 示 ， 第 二 个 bio 实 例 已 经 处 理 。 如 果 不 再 递归 提交 BIO， 那 么 工作 就 完成 了 。 
如 果 ”generic_ make _request 调 用 了 generic_make_request 超 过 一 次 ， 该 方法 也 是 可 行 的 。 
假定 共 提 交 了 3 个 额外 的 BIO。 结 果 数 据 结 构 如 图 6-17d 所 示 。 如 果 此 后 不 再 提交 BIO， 那么 循环 会 依次 
处 理 现 存 的 BIO 实例 ， 然 后 返回 。 
在 解决 了 递归 调用 generic_make_request 的 困难 之 后 ， 我 们 接着 讨论 make_request_fn 的 上 默认 
见 _make_request。 图 6-18 给 出 了 其 代码 流程 图 。? 
在 创建 请 求 所 需 信 息 已 经 从 传递 的 bio 实 例 读 取 之 后 , 内 核 调 用 elv_queue_empty 检 查 IO 调 度 器 
队列 当前 是 否 为 衬 。 倘 若 如 此 ， 工 作 会 更 容易 ， 因 为 无 需 将 该 请 求 与 现存 的 请 求 合 并 《没有 现存 的 请 
求 )。 



























































































































































































































































































































































GO 这 里 稍微 简化 了 一 点 ， 省 去 了 弹性 缓冲 区 的 处 理 。 比 较 旧 的 硬件 可 能 只 能 够 向 内 存 中 一 些 特定 的 区 域 传输 数据 。 
在 这 种 情况 下 ， 内 核发 起 传输 ， 将 数据 传输 到 硬件 可 以 访问 的 内 存 区 域 ， 传 输 结束 后 将 数据 复制 到 更 适当 的 内 存 


区 。 
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趣 。 它 返回 一 个 指 他 





elv_merge 





从 pio 读 取信 息 






elv_queue_empty? 


blk_plug_device 




















出 队列 “如 有 必 


1/O 调 度 器 ， 给 出 对 WO 请 求 如 何 排列 的 指导 




















建立 请 求实 例 











adqd_request 站 一; elV_ add_redcuest pos| 














栈 出 队列 ， 判 则 


是 否 达到 了 队列 栈 出 阔 值 


站 一 ;| generic unplug aevice] 











与 现存 请 求 合 
口 ELEVAT 


























案 差 异 很 大 。 


在 满足 1/O 调 度 器 的 需求 之 后 (在 可 能 的 情况 下 )， 内 核 必 须 产生 一 个 新 请 求 。 
get_request_wait 分 配 一 个 新 请 
到 请 求实 例 中 。 如 果 队 列 仍然 为 空 〈 通 过 
入 。 这 是 内 核 在 新 请 求 进入 之 后 阻止 处 理 
集 到 的 所 有 请 求 〈 稍 后 讨论 )。 
在 用 _elv_aqq_request_pos 更 齐 
周 度 器 的 函数 el 








(会 调用 特定 于 VOYY 











定 的 位 置 。 











如 果 一 个 请 求 将 要 同步 处 理 




















图 6-18 


如 果 队 列 中 有 待 决 请 求 ， 则 调 
elevator_merge_fn 函 数 (IO 调度 器 的 实现 ， 将 在 6.5.8 节 讨论 )。 此 


_ make request 和 























了 elv_merge, 该 函 























_BACK_MERGE 和 

于 elv_merge 或 elevator_merge_fn 返 回 的 位 置 上 日 

数据 合并 到 现存 请 求 的 数据 之 后 ，EL 
医改 现存 的 请 求 ， 产 生 一 个 合并 的 请 求 ， 涵 六 所 要 的 区 域 。 

口 ELEVATOR_NO_MERGE 发 现 该 请 求 无 法 与 请 求 队列 上 现存 的 请 求 合 3 

请 求 队列 中 。 

这 是 IO 调度 器 可 以 采取 仅 有 的 

了 IO 调度 器 和 CPU 调度 器 之 间 的 差别 。 尽 管 两 者 都 

















EF， 指向 请 求 链表 






































ELEVATO 新 请 求 与 请 求 链表 




























































































调用 请 求 队列 elevator 成 员 的 
只 对 该 函数 的 结果 感 兴 
。JIO 调 度 器 还 指定 了 请 求 是 否 以 及 如 何 




















Pp 找到 的 请 求 合并 。 对 
R_BACK_MERGE 将 新 























的 数据 之 前 。 
































些 操作 ， 它 不 能 以 任何 其 他 方法 景 














青 求 必须 添加 到 


这 清楚 地 表明 





徊 临 一 个 非常 类 似 的 问题 , 但 是 它 人 
































求实 例 ， 然 后 使 用 init_request_from bio 将 bio 中 的 数据 填 




















jelv_queue_empty 检 查 )， 则 用 blk_plug_device 将 队列 插 



































折 一 些 内 核 统 计量 之 后 ，adq_request) 
tor_adqd_req fn) 中 ， 扣 






























































(请 求 的 bio 实 例 




















门 提 供 的 解决 方 




















内 核 会 汇集 读 写 操作 的 请 求 ， 并 一 次 性 执行 收 


和 请 求 添加 到 请 求 链表 
到 的 IO 调度 器 调用 确 








内 核 必须 使 月 





二 
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__generic_unplug_device 拔 出 队列 , 确保 请 求实 际 上 可 以 同步 处 理 。 此 类 请 求 很 少 使 用 ， 因 为 它们 
否定 了 IO 调度 的 效果 。 
2. 队列 插入 

就 性 能 而 言 ， 我 们 当然 希望 重 排 各 个 请 求 ， 并 将 可 能 的 请 求 合 并 为 更 大 的 请 求 ， 

的 性 能 。 显 然 ， 这 只 适用 于 队列 包含 了 多 个 可 以 合并 的 请 求 的 情况 。 因 而 ， 内 核 首 先 需 要 在 队列 中 汇 
集 一 些 请 求 ， 然 后 一 次 性 处 理 所 有 请 求 ， 这 样 就 自动 创造 了 合并 请 求 的 时 机 。 
内 核 使 用 口 口 口 口 〈queue plugging) 机 制 , 来 有 意 阻止 请 求 的 处 理 。 请 求 队列 可 能 处 于 空闲 状态 
或 者 插入 状态 。 如 果 队 列 外 于 空闲 状态 ， 队 列 中 等 竺 的 请 求 将 会 被 处 理 。 否 则 ， 新 的 请 求 只 是 添加 到 
队列 ， 但 并 不 处 理 。 如 果 队 列 处 于 插入 状态 ， 则 request_queue 的 queue_flags 成 员 中 QUEUE_ 
FLAG_PLUGGED 标 志 置 位 。 内 核 提 供 了 blk_queue_plugged 辅 助 函数 检查 该 标志 。 
在 讲解 _make_request 时 ， 我 已 经 提 和 到， 内核 用 blk_plug_device 插 入 一 个 队列 ， 但 如 果 没 有 
发 送 同 步 请 求 ， 则 不 会 显 式 拔 出 队列 。 那 么 ， 如 何 确保 队列 将 在 未 来 的 某 个 时 间 再 次 得 到 处 理 呢 ? 答 
案 可 以 在 blk_plug_dqevice 中 找到 。 


drivers/block/ll_rw_blk.c 
void blk plug device(request _ queue 七 *q) 
{ 



































































































































































































































































































































If (!test _ and set bit (QUEUE _ FLAG PLUGGED, &q->queue flags)) { 
mod timer (&q->unplug_ timer, jiffies + gq->unplug_ delay); 


y; 
} 


这 一 段 代 人 码 确 保 队 列 的 拔 出 定时 器 在 q->unplug_delay (单位 是 jiffies， 通常 是 (3 * HZ) / 1000， 
或 3 毫秒 ) 之 后 启用 。 定 时 器 会 调用 blk_unplug_timeout 拔 出 队列 。 
还 有 男 一 个 机 制 可 用 于 拔 出 队列 。 如 果 当 前 读 写 请 求 的 数目 (保存 在 请 求 链表 的 count 数 组 的 两 
个 数组 项 中 ) 达到 unplug_thresh 指 定 的 闵 值 ， 则 elv_insert" 中 调用 __generic_unplug_device 
以 触发 拔 出 操作 ， 使 得 等 待 的 请 求 得 到 处 理 。 
__generic unplug . device 并 不 复杂 。 


block/ll_rw_blk.c 
VO generic unplug_ device(request queue 七 *q) 


{ 































































































If (!blk remove plug(qg)) 
return; 


q->request_fn(qga); 


} 
在 blk_remove_plug 清 除 队列 的 插入 状态 和 用 于 自动 拔 出 的 定时 器 〈unplug_timer) 之 后 ， 其 
中 调用 了 request_fn 来 处 理 等 待 的 请 求 。 这 就 是 所 有 需要 完成 的 工作 ! 
在 重要 的 IO 操作 处 于 待 决 状态 时 ， 内 核 还 能 够 手工 进行 拔 出 操作 。 这 确保 在 数据 紧急 需要 时 
能 够 立即 执行 重要 的 读 取 操作 。 在 出 现 同步 请 求 (上 文 简 要 地 提 到 过 ) 时 ， 就 会 发 生 这 种 情况 。 

3. 执行 请 求 
在 请 求 队列 中 的 请 求 即 将 处 理 时 ， 会 调用 特定 于 设备 的 request_fn 函 数 。 该 任务 与 硬件 的 关联 

















































































































GO) elv_insert 是 IO 调度 器 实现 的 内 部 函数 ， 在 内 核 中 各 个 地 方 调用 。 
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非常 紧密 ， 因 此 内 核 不 会 提供 默认 的 实现 。 相 反 ， 内 核 总 是 使 用 blk_daev_init 注 册 队 列 时 传递 的 方法 。 
尽管 如 此 ， 在 大 多 数 设 备 驱 动 程序 中 ，request 函 数 的 结构 都 与 下 面 讲解 的 例子 代码 类 似 。 我 假 


























定 请 求 队列 中 有 几 个 请 求 的 情况 。 
sample_request 是 一 个 与 硬件 无 关 的 示例 例 程 ， 用 了 
的 基本 步骤 。 
void sample request (request queue 七 *G) 


int status; 
struct request *req; 























明 所 有 了 驱动 程序 在 request_fn 中 所 执行 


莹 

















while ((req = elv_ next _ request(q)) != NULL) 
IE (!blk fs_ request (req)) 

end_ request (req, 0); 

continue; 


status = perform sample_ transfer (req); 
end_ request (req, status); 














这 个 函数 非常 简单 。 在 一 个 while 循 环 中 髓 入 了 elv_next_request， 用 于 从 队列 顺序 读 取 请 求 。 
传输 通过 perform_sample_transfer 执 行 。end_request 是 一 个 标准 的 内 核 函 数 , 用 于 从 请 求 队列 删 
除 请 求 ， 并 更 新 内 核 统计 量 ， 并 执行 任何 在 request->completion 等 待 的 完成 量 (参见 14.4 节 )。 还 
调用 了 特定 于 BIO 的 bi_eng_io 函 数 ， 内 核 可 以 根据 BIO 将 一 个 清理 函数 指定 到 bi_eng_io。 

BIO 不 仪 可 用 于 传输 数据 ， 还 可 以 传输 诊断 信息 ， 了 驱动 程序 必须 调用 blk_fs_request 来 检查 实 
际 上 传输 的 是 否 是 数据 。 为 简明 起 见 ， 我 忽略 了 所 有 其 他 类 型 的 传输 。 
在 真正 的 驱动 程序 中 ,特定 于 人 硬件 的 操作 通常 会 分 离 到 独立 的 函数 中 ， 以 保持 代码 的 简洁 。 在 我 
门 的 示例 例 程 中 ， 我 已 经 采用 了 同样 的 方法 。 在 实现 真正 的 驱动 程序 时 ， 需 要 用 特定 于 人 硬件 的 函数 来 


必 奉 perform_sample_transfer 中 的 注释 部 分 。 
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int perform transfer(request *reqg) 
Switch (req->cmd) 
Case READ: 
/* 执行 特定 于 硬件 的 数据 读 取 功 能 */ 
break; 
Case WRITE: 
/* 执行 特定 于 硬件 的 数据 写 入 功能 */ 
break; 
default: 
return -EFAULT; 


在 判断 请 求 是 读 操 作 还 是 写 操作 时 ， 会 查看 cmd 字 段 。 接 下 来 采取 适当 的 行动 ， 在 系统 和 硬件 之 
间 传输 数据 。 
6.5.8 ”1/O 调 度 

内 核 采 用 的 各 种 用 于 调度 和 重 排 VO 操作 的 算法 ， 称 之 为 OD 口 口 (对 比 通常 的 进程 调度 器 ， 或 
网 络 中 控制 通信 数据 量 的 数据 包 调 度 器 )。 通 常 ，1/O 调 度 器 也 称 作 口 虽 (elevator)。 它 们 由 下 列 数据 
结构 中 的 一 组 函数 表示 9， 


<elevator.h> 
struct elevator_ops 


{ 








































































































GD 内 核 还 定义 了 typedef struct elevator_s elevator t。 
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elevator merge_ fn *elevator merge_fn; 
elevator merged fn *elevator merged fn; 
elevator_ merge req fn *elevator merge reqg fn; 


levator_ dispatch fn *elevator dispatch fn; 
levator_add req fn *elevator add reqg fn; 
levator_activate req fn *elevator activate reqg fn; 
levator_deactivate req fn *elevator_ deactivate req fn; 


ooo 


elevator_ queue empty_fn *elevator queue empty_fn; 
elevator_completed req fn *elevator_ completed req fn; 


elevator_ request_list fn *elevator_ former req fn; 
elevator_ request_list fn *elevator_ latter req fn; 


elevator_set_reqg fn *elevator_ set req fn; 
elevator put_req fn *elevator put_req fn; 


elevator may_queue_fn *elevator may_queue_fn; 


elevator_init fn *elevator init_ fn; 
elevator_ exit_fn *elevator exit_fn; 


}3 
IO 调度 器 不 仅 负 责 请 求 重 排 ， 还 负责 请 求 队列 全 部 的 管理 工作 。 
口 elevator_merge_fn 检 查 一 个 新 的 请 求 是 否 可 以 与 现存 请 求 合 并 ， 如 上 文 所 述 。 它 还 指定 了 
请 求 插入 到 请 求 队列 中 的 位 置 。 
口 elevator_merge_req_fn 将 两 个 请 求 合 并 为 一 个 请 求 。elevator_merged_fn 在 两 个 请 求 已 经 
合并 0 调用 《〈 它 执行 清理 工作 ， 并 返回 MO 调度 器 中 因为 合并 而 不 再 需要 的 那 部 分 管理 数据 )。 
口 elevator_dispatch_fn 从 给 定 的 请 求 队列 中 选择 下 一 步 应 该 调度 执行 的 请 求 。 
口 elevator_adqd_req fn 和 elevator_remove_req_fn 分 别 负 责问 请 求 队列 添加 请 求 、 册 
请 求 。 
口 elevator_queue_empty_fn 检 查 队 列 是 否 包 含 可 供 处 理 的 请 求 。 
口 elevator_former_req_ fn 和 elevator_latter_req_ fn 分别 查找 给 定 请 求 的 前 一 个 和 后 
个 请 求 。 在 进行 合并 时 ， 这 两 个 函数 很 有 用 。 
口 elevator_set_req_fn 和 elevator_put_req_fn 分 别 在 创建 新 请 求 和 释放 回 内 存 管理 子 系统 
时 调用 《此 时 请 求 尚 末 或 不 再 与 任何 队列 关联 ， 或 已 经 完成 )。 这 两 个 函数 使 得 IO 调度 器 可 以 
分 配 、 初 始 化 和 释放 用 于 管理 的 数据 结构 。 
口 elevator_init_fn 和 elevator_exit_fn 分 别 在 队列 初始 化 和 释放 时 调用 。 其 效果 等 同 于 构 
造 函 数 和 析 构 函数 。 
每 个 IO 调度 器 都 封装 在 下 列 数据 结构 中 ， 其 中 还 包含 了 供 内 核 使 用 的 其 他 管理 信息 : 


<elevator.h> 
struct elevator_type 


{ 
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struct list head list; 

struct elevator_ops ops; 

struct elv_fs_entry *elevator_ attrs; 
char elevator name[ELV_NAME MAX]; 
struct module *elevator_ owner; 


3 
内 核 将 所 有 I1O 调 度 器 在 一 个 标准 的 双 链 表 中 维护 ， 链 开 
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元 素 是 1ist 成 员 〈 表 头 由 全 局 变 





AT 
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享 。 如 果 队 列 的 数目 大 于 等 于 同时 进行 WO 的 进程 数 
实际 问题 〈 如 多 个 进程 映射 到 

















等 等 ) 使 得 带宽 的 分 配 不 是 完全 公平 的 ，1 





度 器 都 是 默认 的 调度 器 。 此 后 预测 调 
c 包 调度 器 成 为 默认 的 选择 。 


细节 。 但 应 当 指 出 ，deadline 调 度 器 的 复杂 度 比 预 
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测 调度 器 低 得 多 ， 但 大 多 数 情 况 下 提供 了 同样 的 性 能 。 
6.5.9 ioctl 的 实现 

ioctl 使 得 我 们 能 够 使 用 特殊 的 、 特 定 于 设备 的 功能 ， 这 些 功能 无 法 通过 普通 的 读 写 操作 访问 。 这 
种 文 持 通过 ioct1 系 统 调 用 实现 ， 该 系统 调用 可 以 用 于 普通 的 文件 〈 许 多 系统 程序 设计 手册 都 详细 描 
述 了 其 用 法 )。 

该 系统 调用 在 sys_ioct1 实 现 ， 但 主要 工作 由 vfs_ioct1 完 成 。 图 6-19 给 出 了 相关 的 代码 流程 图 。 

所 需 的 ioctl 通 过 传递 的 一 个 常数 指定 。 通 常 ， 为 此 定义 了 一 些 预 处 理 器 符号 常数 。 

在 内 核 检 查 过 指定 的 参数 是 否 ;为 标准 的 ioctl (适用 于 系统 中 所 有 类 型 的 文件 ) 之 后 ， 必须 区 分 两 
种 情形 。 例 如 ， 在 执行 exec 时 是 否 需 要 改变 所 涉及 的 文件 描述 符 “〈 参 见 第 2 章 )。 
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处 理 标准 的 ioctl | 
否 
file->f_op->ioctl | 


| 对 于 块 设备 ， 调 blkaef ioctl| 
图 6-19 sys_ioct1 的 代码 流程 网 


口 如 果 文 件 是 普通 文件 ， 则 调用 file_ioct1。 该 函数 首先 检查 若干 标准 的 、 对 普通 文件 总 是 会 
实现 的 ioctl (例如 FIGETBSz， 用 于 查询 文件 使 用 的 块 长 度 )。 接 下 来 使 用 go_ioct1 调 用 
file_operations 中 特定 于 文件 的 ioct1 函 数 〈 如 果 存 在 的 话 ) 以 处 理 该 ioct1〈 普 通 文件 通 
常 不 提供 ioct1 函 数 ， 这 样 该 系统 调用 会 返回 错误 码 )。 

口 如 果 该 文件 不 是 普通 文件 ， 会 立即 调用 do_ioct1， 进 而 调用 特定 于 文件 的 ioct1 方 法 。 用 于 
块 设备 的 ioct1 方 法 是 blkqev_ioct1。 

blkqev_ioct1 也 实现 了 一 些 ioctl， 对 所 有 块 设 备 都 必须 是 可 用 的 。 例 如 ， 读 取 设 备 的 分 区 信息 

数据 或 确定 设备 的 总 长 度 。 此 后 ， 通 过 调用 gendisk 实 例 的 Efile_operations 中 的 ijoct1 方 法 ， 来 处 
时 特定 于 设备 的 ioctl。 特 定 于 驱动 程序 的 命令 在 其 中 实现 ， 例 如 光驱 的 弹出 介质 命令 。 


6.6 ”资源 分 配 


VO0 0 和 1/OD 0 是 两 种 概念 上 的 方法 ， 用 以 支持 设备 驱动 程序 和 设备 之 间 的 通信 。 为 使 得 各 种 
不 同 的 驱动 程序 彼此 互 不 干扰 , 有 必要 事先 为 驱动 程序 分 配 端口 和 LO 内 存 范围 。 这 确保 几 种 设备 驱动 
程序 不 会 试图 访问 同样 的 资源 。 
6.6.1 资源 管理 
我 们 首先 讲解 用 于 管 
1. 树 数 据 结构 
Linux 提 供 了 一 个 通用 构架 ， 用 于 在 内 存 中 构建 数据 结构 。 这 些 结构 描述 了 系统 中 可 用 的 资源 ， 
使 得 内 核 代码 能 够 管理 和 分 配 资源 。 注 意 ， 其 中 关键 的 数据 结构 是 resource， 定 义 如 下 : 
<ioport.h> 
struct resource { 
resource_size t start; 
resource_size_t end; 
const char *name; 


unsigned long flags; 
struct resource *parent, *sibling, *child; 
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Mea 





资源 的 数据 结构 和 函数 。 












































}; 

name 存 储 了 一 个 字符 囊 ， 以 便 给 资源 赋予 一 个 有 意义 的 名 字 。 资 源 名 称 实际 上 与 内 核 无 关 ,但 在 
以 可 读 形式 输出 资源 列表 (在 proc 文 件 系 统 中 ) 时 比较 有 用 。 
资源 自身 的 特征 由 下 述 3 个 参数 描述 。start 和 enaq 类 型 为 unsignedq long， 指 定 了 一 个 一 般 性 的 
区 域 。 尽 管理 论 上 这 两 个 数字 的 内 容 可 以 自由 解释 ， 但 通常 表示 某 个 地 址 空间 中 的 一 个 区 域 。flags 


用 于 更 准确 地 描述 资源 及 其 当前 状态 。 
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我 们 比较 感 兴趣 的 是 3 个 指向 其 他 resource 结 构 的 指针 。 这 些 指 针 能 够 建立 一 个 树 型 层次 结构 ， 
此 针 在 其 中 的 用 法 ， 读 者 可 以 参看 下 文 。 
图 6-20 说 明了 parent、child 和 sibling 指 针 在 树 型 结构 中 的 编排 方式 ， 很 容易 使 人 想起 第 2 章 讨 
论 过 的 进程 的 网 状 结构 。 
































一 和 兄弟 结 点 指针 
> 父 结 点 指针 
0 











图 6-20 ” 树 型 结构 中 的 资源 管理 


于 连接 parent、chilgd 和 sibling 成 员 的 规则 很 简单 。 
口 每 个 子 结 点 0 DU 一 个 父 结 点 。 

口 一 个 父 结 点 可 以 有 任意 数目 的 子 结 点 。 

口 同一 个 父 结 点 的 所 有 子 结 点 ， 会 连接 到 兄弟 结 点 链表 上 。 

在 内 存 中 表示 数据 结构 时 ， 必 须要 注意 以 下 问题 。 

口 尽管 每 个 子 结 点 都 有 一 个 指针 指向 父 结 点 ， 但 父 结 点 只 有 一 个 指针 指向 第 一 个 子 结 点 。 所 有 
其 他 子 结 点 都 通过 兄弟 结 点 链表 访问 。 
口 指向 父 结 点 的 指针 同样 可 以 为 NULL， 在 这 种 情况 下 ， 说 明 已 经 没有 更 高 层次 的 结 点 了 。 

如 何 将 该 层次 结构 用 于 设备 驱动 程序 ?我 们 来 考察 一 个 系统 总 线 的 例子 ， 其 上 附 接 了 一 块 网 卡 。 
网 卡 支 持 口 口 输出 ， 每 个 都 分 配 了 一 个 特定 的 内 存 区 域 ， 用 于 数据 的 输入 和 输出 。 总 线 自身 也 有 一 个 
IO 内 存 区 域 ， 其 中 一 些 部 分 由 网 卡 使 用 。 

该 方案 可 以 完美 地 融入 到 树 形 层次 结构 中 。 总 线 的 内 存 区 域 理 论 上 占用 了 《假想 的 ) 0 和 1 000 之 
闻 的 内 存 范围 ， 充 当 根 结 点 《最 高 的 父 结 点 )。 网 卡 要求 使 用 100 和 199 之 间 的 内 存 区域 ， 这 是 根 结 点 
(总 线 自 身 ) 的 一 个 子 结 点 。 网 卡 的 子 结 点 表示 各 个 网 络 输出 ， 分 配 的 IO 内 存 区 分 别 是 100 到 149 和 150 
到 199。 原 来 较 大 的 资源 区 域 重 复 地 细 分 为 较 小 的 部 分 ， 每 次 细 分 都 表示 了 抽象 模型 中 的 一 个 层次 。 
因此 ， 子 结 点 可 用 于 将 内 存 区 划分 为 越 来 越 小 、 功 能 越 来 越 具体 的 部 分 。 

2. 请 求 和 释放 资源 
为 确保 可 靠 地 配置 资源 (无 论 何 种 类 型 )， 内 核 必须 提供 一 种 机 制 来 分 配 和 释放 资源 。 一 旦 资源 
已 经 分 配 ， 则 不 能 由 任何 其 他 驱动 程序 使 用 。 

请 求 和 释放 资源 ， 无 非 是 从 资源 树 中 添加 和 删除 项 而 已 。” 












































































































































































































































































































































































































































要 的 是 要 注意 到 ， 许 多 系统 资源 无 需 分 配 即 可 使 用 。 除 极 少 例 外 ， 处 理 器 作为 资源 是 无 法 进行 分 配 的 。 因 而 ， 
管 在 大 多 数 情况 下 可 以 省 去 资源 的 分 配 , 但 从 清洁 的 程序 设计 风格 的 角度 出 发 , 还 是 需要 使 用 如 下 所 述 的 函数 。 
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e000O 
内 核 提供 了 __request_resource 函 数 ， 用 于 请 求 一 个 资源 区 域 .。" 这 函数 需要 一 系列 参数 , 包括 
一 个 指向 父 结 点 的 指针 ， 资 源 区 域 的 起 始 和 结束 地 址 ， 表 示 该 区 域名 称 的 字符 串 。 


kernel/resource.c 
static struct resource * request_ resource(struct resource *root, 
struct resource *new); 


该 函数 用 于 分 配 一 个 request 实 例 ， 并 用 传递 的 数据 填充 其 内 容 。 其 中 也 会 进行 检查 ， 如 果 检 测 
到 一 些 显 然 的 错误 (例如, 起 始 地 址 大 于 结束 地 址 ) 使 得 请 求 无 用 ， 则 放弃 操作 。request_resource 
只 负责 必要 的 锁 操 作 ， 主 要 工作 委托 给 __request_resource。 它 连续 地 扫描 现存 的 资源 ， 将 新 资源 
添加 到 正确 的 位 置 ， 或 发 现 与 已 经 分 配 区 域 的 冲突 。 完 成 所 述 工 作 ， 需 要 遍历 兄弟 结 点 的 链表 。 如 果 
所 需 的 资源 区 域 是 空间 的 ， 则 插入 新 的 resource 实 例 ， 这 样 就 完成 了 资源 的 分 配 。 如 果 该 区 域 不 是 空 
闲 的 ， 则 分 配 失败 。 

00000000000000000000000000000000000000000 

D000000 

如 果 资 源 无 法 分 配 ， 驱 动 程序 自然 就 知道 该 资源 已 经 分 配 ， 因 而 目前 是 不 可 用 的 。 

e000D0 

调用 release_resource 函 数 释放 使 用 中 的 资源 。 


kernel/resource.c 
void release resource(struct resource *old) 


6.6.2 ”I/O 内 存 


资源 、 管 理 还 有 一 个 很 重要 的 方面 是 IO 内 存 的 分 配方 式 ， 因 为 在 所 有 平台 上 这 都 是 与 外 设 通信 
的 主要 方法 〈IA-32 除 外 ， 其 中 MO 端口 更 为 重要 )。 
IO 内 存 不 仅 包 括 与 扩展 设备 通信 和 直接 使 用 的 内 存 区域 ， 还 包括 系统 中 可 用 的 物理 内 在 和 ROM 存 
储 器 ， 以 及 包含 在 资源 列表 中 的 内 存 〈 可 以 使 用 proc 文 件 系统 中 的 iomem 文 件 ， 显 示 所 有 的 MO 内 存 )。 


wolfgang@meitner> cat /proc/iomem 
00000000-0009e7ff : System RAM 
0009e800-0009ffff : reserved 
000a0000-000bffff : Video RAM area 
000c0000-000c7fff : Video ROM 
000£0000-000fffff : System ROM 
00100000-07ceffff System RAM 
00100000- 002aleb9 : Kernel code 
002aleba-0030cabf : Kernel data 
07cf0000-07cfefff : ACPI Tables 
07cf0000-07cfefff : ACPI Tables 
07cff000-07cfffff : ACPI Non-volatile Storage 
































































































































































































































































































































f4000000-f407ffff : Intel Corp. 82815 CGC [Chipset Graphics Controller] 
£f4100000-£f41fffff PCI Bus #01 
f4100000- £4100fff : Intel Corp. 82820 (ICH2) Chipset Ethernet Controller 
f4100000-f4100fff : eeprol100 
f4101000-f41017ff : PCI device 104c:8021 (Texas Instruments) 
































Q 出 于 兼容 性 的 考虑 ， 内 核 源 代码 还 包含 其 他 用 于 分 配 资源 的 函数 ， 但 它们 不 应 该 再 用 于 新 代码 。 还 有 搜索 具有 指定 
长 度 资源 的 函数 ， 以 便 自 动 填充 仍然 空闲 的 区 域 。 我 不 会 讨论 这 些 扩展 选项 ， 因 为 它们 具 在 内 核 中 少数 地 方 使 
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所 有 分 配 的 VO 内 存 地 址 , 都 通过 一 棵 资源 树 管理 , 树 的 根 结 点 是 全 局 内 核 变量 iomem_resource。 
上 述 输 出 中 ， 每 个 缩 进 表 示 一 个 子 结 点 层次 。 具 有 相同 的 缩 进 层次 的 所 有 项 是 兄弟 结 点 ， 会 通过 链表 
联系 起 来 。 图 6-21 给 出 了 该 数据 结构 在 内 存 中 的 一 部 分 ，proc 文 件 系统 中 的 信息 即 由 此 获取 。 




































































= 0xc02aa2a7 "PCI mem" 


rt 
= 4294967295 
12 


= 0x0 
child = Oxc0002000 












71: *(*(struc,..->parent 
= 0xclle7300 "PCI Bus #01" 











name = 0xclle661c "Intel Corp. 82815 CGC [Chipset Graphics Controller]" 
start = 4160749568 


end = 4227858431 


= 尽 2 
3 xe02F123¢ = Oxc02F1234 
sibling = Oxc11le645c 0 
child = Oxclle345c 了 

















= 


60: *(*(struc,..8],child : *(*(struc,,.,>sibling 


name = Oxc1lle361c "Intel Corp. 82820 (ICH2) Chipset Ethernet Controller”" name = Oxclle4alc "PCI device 104c:8021 (Texas Instruments)" 
Start = 4094689280 攻 Start = 4094693376 

end = 4094693375 | end = 4094695423 

flags = 512 flags = 512 

parent = Oxclle693c parent = 0xclle693c 

sipling = Oxclle485c sibling = 0xclle4c5c 

child = 0xc11fad60 child = 








































69: *(*(struc...d->child 
name = 0xc02c60af "eeprol00" 
0 








= 2147483648 
parent = Oxclle345c 
sipling = 0x0 
child = 0x0 


图 6-21 ”对 一 个 PCI 网 卡 分 配 的 资源 

但 在 使 用 VO 内 存 时 ， 分 配 内 存 区 域 并 不 是 所 需 的 唯一 操作 。 取 决 于 总 线 系统 和 处 理 器 类 型 ， 
可 能 必需 将 扩展 设备 的 地 址 空间 映射 到 内 核 地 址 空间 中 之 后 ， 才 能 访问 该 设备 〈 称 之 为 0] 0 VOD 
0 )。 这 是 通过 使 用 ioremap 内 核 函 数 适当 设置 系统 页 表 而 实现 的 , 内核 源 代码 中 有 若干 不 同 地 方 使 
用 了 该 函数 ， 其 定义 是 体系 结构 相关 的 。 同 样 地 ， 还 提供 了 特定 于 体系 结构 的 ijounmap 函 数 来 解除 
映射 。 
在 某 种 程度 上 ， 实 现 对 进程 页 表 的 操作 元 长 而 复杂 。 特 别 地 ， 不 同系 统 的 实现 有 很 大 的 差别 ， 
而 且 它 对 理解 设备 驱动 程序 并 不 重要 ， 比 我 就 不 详细 讨论 其 实现 了 。 一 般 地 说 ， 更 重要 的 就 是 : 
将 一 个 物理 地 址 映射 到 处 理 器 的 虚拟 地 址 空间 中 , 使 得 内 核 可 以 使 用 该 地 址 。 就 设备 驱动 程序 而 言 ， 
这 意味 着 扩展 总 线 的 地 址 空间 映射 到 CPU 的 地 址 空间 中 ， 使 得 能 够 用 普通 内 存 访 问 函 数 操作 总 线 / 
设备 。 
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表 6-3 ”用 于 访问 /OQ 内存 区 域 的 函数 


























函 数 语 义 

readb (addr) 
readw (addr) 
readl (adqr) 从 指定 的 MO 地 址 aaar， 读 取 一 个 字 节 、 字 或 长 整数 
writeb(val, addr) 
writew(val, addr) 
writel (val, addr) 向 IO 地 址 aaar， 写 入 一 个 字 节 、 字 或 长 整数 ， 值 由 val 指 定 
memcpy_fromio(dest, src, num) 从 LO 地 址 src， 将 num 个 字 节 移 到 普通 地 址 空间 中 的 dest 
memcpy_toio(dst, src, nun) 普通 地 址 空间 中 的 dst， 将 num 个 字 节 复制 到 WO 区 域 中 的 src 
memset_io(laddr, value, count) 用 value 填 充 起 始 于 地 址 addr 的 count 个 字 节 

6.6.3 ”1/O 端 口 





IO 端口 是 一 种 与 设备 和 总 线 通信 的 流行 方法 ， 特 别 是 在 IA-32 了 
区 域 之 前 ， 相 应 的 区 域 必 须 已 经 注册 


册 


例 编写 的 驱动 程序 在 访问 所 需 的 
是 否 


已 经 完成 。 

















[a 
op 












































上 。 类 似 于 1/O 内 存 ， 按 良好 范 


。 糟 糕 的 是 ， 处 理 器 无 法 检查 注 


kernel/resource.c 中 的 ioport_resource 充 当 资 源 树 的 根 结 点 。proc 文 件 系 统 中 的 ioports 
文件 可 以 显示 已 经 分 配 的 端口 地 址 。 


wolfgang@meitner> cat /proc/ioports 








0000-001f 


0020-003f : 
0040=005 王 志 
0060-006f : 
ULE70=0177 ;3 


0378-037a : 
03c0-03df : 


Ocf8=0cff ; 


1800-180f 





: dmal 
biel 
timer 

keyboard 





idel 


parport0 
vgat 


了 PC 工 Confl1 
: Intel Corp. 82820 820 (Camino 2 


1800-1807 : ide0 
1808-180f : idel 


L810=181£ ; 
1820=183 玉 3 


3000=3£f£ 二 


Intel Corp. 82820 820 (Camino 2 
Intel Corp. 82820 820 (Camino 2 


PCI Bus #01 


) Chipset IDE U 





) Chipset SMBus 
) Chipset USB ( 


100 (-M) 


Hub A) 


3000-303f : Intel Corp. 82820 (ICH2) Chipset Ethernet Controller 


3000- 














303f : eepro100 





























上 文 的 输出 中 ， 内 核 仍然 利用 了 缩 进来 反映 父子 结 点 和 兄弟 结 点 关系 。 所 输出 的 列表 ， 与 」 
出 的 MO 内 存 区 域 ， 都 取 自 同一 系统 。 非 常 有 趣 的 是 ， 该 列表 不 仅 包括 标准 的 系统 组 件 〈 如 键盘 和 定时 



































上 文 输 


器 )， 还 包括 MO 映射 中 一 些 熟 悉 的 设备 《如 以 太 网 控制 器 )。 归 根 结 底 ， 没 什么 理由 能 阻止 同时 通过 端 














口 和 IO 内 存 访 问 一 个 设备 。 
在 汇编 程序 层次 上 ， 端 口 通常 必须 通过 特殊 的 处 理 




















个 


























向 驱动 程序 开发 者 提供 一 个 系统 无 关 的 接口 








器 


。 这 些 在 表 6-45 


DJ 








因 出 














上 内核 提 供 了 对 应 的 宏 ， 





以 便 
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函 数 


表 6-4 用 于 访问 MO 端口 的 函数 


语 义 





insb(port, addr, num) 


insl (port, addr, num) 


insw (port, addr, num) 


outsb(port, addr, num) 


outsb(port, addr, num) 


outsb(port, addr, num) 





从 端口 port 读 取 num 个 字 节 、 字 或 长 整数 ， 复 制 到 普通 地 址 空间 中 的 地 址 adar 














从 虚拟 地 址 aqdqr， 向 端口 port 写 入 num 个 字 节 、 字 或 长 整数 
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6.7 


总 线 系统 




















尽管 扩展 设备 通过 设备 驱动 程序 处 理 ， 而 驱动 程序 与 内 核 其 余 的 代码 通过 一 组 固定 的 接口 通信 ， 



























































了 分。 
Es 4 





























因而 扩展 设备 /驱动 程序 对 核心 的 内 核 源 代码 没什么 影响 , 但 内 核 需要 解决 一 个 更 基本 的 问题 : 设备 吕 
0 通过 总 线 附 接 到 系统 的 其 余 则 

与 具体 设备 的 驱动 程序 相 上 
程序 向 相关 的 设备 驱动 程序 提供 
统 之 间 ， 使 用 





总 线 驱动 程序 与 核心 内 核 代 码 的 工作 要 密切 得 多 。 另 外 ， 总 线 驱动 
t 功 能 和 选项 的 方式 ， 也 不 存在 标准 的 接口 。 这 是 因为 ， 不 同 的 总 线 系 
的 硬件 技术 可 能 差异 很 大 。 但 这 并 不 意味 着 ， 负 责 管理 不 同 总 线 的 代码 没有 共同 点 。 相 








































































































似 的 总 线 采 用 相似 的 概念 ， 还 引入 了 通用 DODDO,， 在 一 个 主要 数据 结构 的 集合 中 管理 所 有 系统 


总 线 ， 


内 核 支 持 大 量 总 线 ， 


采用 最 小 公分 母 的 方式 ， 尽 可 能 降低 不 同 总 线 驱 动 程 序 之 间 的 差异 。 
可 能 涉及 多 种 硬件 平台 ， 也 有 可 能 只 涉及 一 种 平台 。 所 以 我 不 可 能 详细 地 讨 

























































































论 所 有 版 本 ， 这 里 我 们 只 会 仔细 讨论 PCI 总 线 。 因 为 其 设计 相对 现代 ， 而 且 具 备 一 种 强大 的 系统 总 线 





所 应 有 的 所 有 



































同和 关键 要 素 。 此 外 ， 在 Linux 支 持 的 大 多 数 体系 结构 上 都 使 用 了 PCI 总 线 。 我 还 会 讨 

















论 广泛 使 用 、 系 统 无 关 的 的 USB 总 线 ， 该 总 线 用 于 外 设 。” 


6.7.1 


现代 总 线 系统 在 布局 和 结 





通用 驱动 程序 模型 














的 细节 上 可 能 有 所 不 同 , 但 也 有 许多 共同 之 处 ， 内 核 的 数据 结构 即 反 
映 了 这 个 事实 。 结 构 中 的 许多 成 员 















































于 所 有 的 总 线 〈 以 及 相关 设备 的 数据 结构 中 )。 在 内 核 版 本 2.6 开 








发 期 间 ， 一 个 通用 驱动 程序 模型 ( 呈 口 口 口 ，device model) 并 入 内 核 ， 以 防止 不 必要 的 复制 。 所 有 总 


线 共有 














的 属性 封装 到 特殊 的 、 可 





以 用 通用 方法 处 理 的 数据 结构 中 ， 再 关联 到 总 线 相关 的 成 员 。 






























































大 














切 的 关联 。 


1 


可 


. 设备 的 表示 





























用 驱动 程序 模型 主要 基于 第 


























1 章 讨论 的 通用 对 象 模型 ， 与 10.3 节 将 讨论 的 sysfs 文 件 系统 也 有 密 























区 动 程序 模型 采用 一 种 特殊 数据 结构 来 表示 几乎 所 有 总 线 类 型 通用 的 设备 属性 。” 该 结构 直接 嵌 





























G USB 是 和 否 算得 上 通常 的 总 线 ， 是 一 个 争论 的 议题 。 因 为 USB 并 不 提供 系统 总 线 的 功能 ， 而 依赖 于 “计算 机 内 部 ” 


额外 的 分 配 机 制 。 我 采取 一 种 务实 的 方法 ， 几 乎 不 涉及 这 个 有 争论 的 问题 。 


























@ 所 有 相对 现代 的 总 线 上 的 设备 都 包括 了 这 些 属性 , 新 的 总 线 设计 也 不 会 改变 这 些 。 比 较 旧 、 不 遵守 该 模型 的 总 线 ， 


我 们 认为 是 例外 情况 。 
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入 到 特定 于 总 线 的 数据 结构 中 , 而 不 是 通过 指针 引用 , 这 与 前 文 介绍 的 kobject 相 似 。 其 定义 如 下 (已 
简化 ): 











<device.h> 
struct device { 
struct klist klist_ children; 
struct klist node knode_ parent; /* 兄弟 结 点 链表 中 的 结 点 */ 
struct klist node knode_ driver; 
struct klist_ node knode_bus; 


struct device * parent; 


struct kobject kobj; 





char bus_id[BUS_ID SIZE]; /* 在 父 总 线 上 的 位 置 */ 

struct bus_type * bus; /* 所 在 总 线 设备 的 类 型 */ 

struct device driver *driver; /* 分 配 当前 aevice 实 例 的 驱动 程序 */ 

void *driver_data; /* 驱动 程序 的 私有 数据 */ 
void *platform data; /* 特定 于 平台 的 数据 ， 设 备 模 型 代码 不 会 访问 */ 





void (*release) (struct device * dev); 
}3 
klist 和 klist_node 数 据 结构 是 我 们 熟悉 的 1ist_head 数 据 结 构 的 增强 版 ， 其 中 增加 了 与 锁 和 引 
用 计数 相关 的 成 员 。k1list 是 一 个 表 头 ， 而 klist_node 是 一 个 链表 元 素 。 通 过 该 机 制 实现 的 各 种 链表 
操作 位 于 <klist.h>。 相 关 的 代码 技术 性 相当 强 ， 也 无 助 于 我 们 深刻 理解 内 核 ， 因 此 我 在 这 里 不 会 讨 
论 它 。 特 别 地 ， 这 种 类 型 的 链表 只 用 于 通用 设备 模型 ， 内 核 的 其 余部 分 不 会 使 用 。 
我 们 更 感 兴趣 的 是 struct device 的 成 员 ， 其 语义 如 下 。 
口 仍 入 的 kobject 控 制 通用 对 象 属性 ， 正 如 前 文 的 讨论 。 
口 有 一 些 成 员 用 于 建立 设备 之 间 的 层次 关系 。klist_chilqren 是 一 个 链表 的 表 头 ， 该 链表 包含 
了 指定 设备 的 所 有 子 设备 。 如 果 设 备 包 含 于 父 设备 的 klist_children 链 表 中 ， 则 将 knode_ 
parent 用 作 链 表 元 素 。parent 指 问 父 结 点 的 device 实 例 。 
口 因为 一 个 设备 驱动 程序 能 够 服务 多 个 设备 〈 例 如， 系统 中 安装 了 两 个 相同 的 扩展 卡 )， 
knode_qdriver 用 作 链 表 元 素 ， 用 于 将 所 有 被 同一 驱动 程序 管理 的 设备 连接 到 一 个 链表 中 。 
drivez 指 向 控制 该 设备 的 设备 驱动 程序 的 数据 结构 〈 下 面 的 成 员 包括 更 多 相关 信息 )。 
口 bus_igd 了 唯一 指定 了 该 设备 在 宿主 总 线 上 的 位 置 (不 同 总 线 类 型 使 用 的 格式 也 会 有 所 不 同 )。 例 
如 ， 设 备 在 PCI 总 线 上 的 位 个 具有 以 下 格式 的 字符 串 唯 一 地 定义 : <D 0 DD >: <D0D 
0U0U><U00D0>。 
口 bus 是 一 个 指针 ， 指 向 该 设备 所 在 总 线 〈 更 多 信息 见 下 文 ) 的 数据 结构 的 实例 。 
D driver_gdata 是 驱动 程序 的 私有 成 员 ， 不 能 由 通用 代码 修改 。 它 可 用 于 指向 与 设备 协作 必需 、 
日 又 无 法 融入 到 通用 方案 的 特定 数据 。 platform_data 和 firmware_data 也 是 私有 成 员 , 可 用 
于 将 特定 于 体系 结构 的 数据 和 固件 信息 关联 到 设备 。 通 用 驱动 程序 模型 也 不 会 访问 这 些 数据 。 
口 release 是 一 个 析 构 函数 ， 用 于 在 设备 (或 device 实 例 ) 不 再 使 用 时 ， 将 分 配 的 资源 释放 回 
内 核 。 
内 核 提 供 了 标准 函数 aevice_register， 用 于 将 一 个 新 设备 添加 到 内 核 的 数据 结构 。 该 函数 在 下 
文 讨论 。device_get 和 device_put 一 对 函数 用 于 引用 计数 。 
通用 驱动 程序 模型 也 为 设备 驱动 程序 单独 设计 了 一 种 数据 结构 。 
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<driver.h> 
struct device driver { 


const char 
struct bus_type 


struct kobject 
struct klist 


struct klist_ node 











* name; 
* Tus; 


kobj; 
klist_devices; 
knode_bus; 























J (*probe) (struct device * dev); 
int (*remove) (struct device * dev); 
void (*shutdown) (struct device * dev); 
J (*suspend) (struct device * dev, pm message t state); 
1 (*resume) (struct device * dev); 
二 
各 个 成 员 的 语义 如 下 。 
口 name 指 向 一 个 正文 串 ， 用 于 唯一 标识 该 驱动 程序 。 
es 见 下 文 )。 


例 。 




















口 klist_devices 是 





一 个 标 


Fk 准 链 表 的 表 头 ， 其 中 
链表 中 的 各 个 设备 通过 aevice->knode 二 dvei 彼 此 和 车 接 。 





























































































































包括 了 该 驱动 程序 控制 的 所 有 设备 的 device 实 






























































口 knode_bus 用 于 连接 一 条 公共 总 线 上 的 所 有 设备 。 
D prope 是 一 个 函数 ， 用 于 检测 系统 中 是 否 存在 能 够 用 该 设备 驱动 程序 处 理 的 设备 。 
口 删除 系统 中 的 设备 时 会 调用 remove。 
口 shutdowrn、suspend 和 resume 用 于 电源 管理 。 
驱动 程序 使 用 内 核 的 标准 函数 driver_register 注 册 到 系统 中 ， 该 函数 在 下 文 讨论 。 
2. 总 线 的 表示 
通用 驱动 程序 模型 不 仅 表 示 了 设备 ， 还 用 男 一 个 数据 结构 表示 了 总 线 ， 定 义 如 下 : 
<device.h> 
struct bus_type { 
const char * name; 
struct kset subsys; 
struct kset drivers; 
struct kset devices; 
struct klist klist devices; 
struct klist klist_ drivers; 
int (*match) (struct device * dev, struct device driver * drv); 
人 (*uevent) (struct device *dev, struct kobj uevent env *env); 
了 光臣 (*probe) (struct device * dev); 
int (*remove) (struct device * dev); 
void (*shutdown) (struct device * dev); 
nt (*suspend) (struct device * dev, pm message t state); 
工科 七 (*resume) (struct device * dev); 





还 会 创建 两 











能 够 快速 扫 





与 总 线 关 联 的 所 有 设备 和 驱动 程序 ， 使 
个 链表 (klist_devices 和 


口 ee 特别 地 ， 它 用 于 在 sysfs 文 件 














系统 中 标识 该 总 线 。 








A 























和 driv 








rs 和 和 devices 成 员 ， 作 为 集 里。 内 核 





合 进行 管 








klist_drivers) 来 保存 相同 的 数据 。 这 些 链表 使 内 核 
描 所 有 资源 (设备 和 驱动 程序 ), kset 保 证 了 与 sysfs 文 件 系统 的 自动 集成 。subsys 
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提供 与 总 线 子 系统 的 关联 。 对 应 的 总 线 出 现在 /sys/bus/busname。 
口 match 指 向 一 个 函数 ， 试 图 查找 与 给 定 设备 匹配 的 驱动 程序 。 
Dadd 用 于 通知 总 线 新 设备 已 经 添加 到 系统 。 
口 在 有 必要 将 驱动 程序 关联 到 设备 时 ， 会 调用 probe。 该 函数 检测 设备 在 系统 中 是 否 真正 存在 。 
口 xfemove 删 除 驱 动 程 序 和 设备 之 间 的 关联 。 例 如 ， 在 将 可 热 插 拔 的 设备 从 系统 中 移 除 时 ， 会 调 
用 该 函数 。 
口 shutdowrn、suspend 和 resume 函 数 用 于 电源 管理 。 
3. 注册 过 程 
为 阐明 表示 总 线 、 设 备 和 设备 驱动 程序 的 各 个 数据 结构 之 间 彼 此 的 关联 ， 了 解 各 种 类 型 数据 结 
的 注册 过 程 是 很 有 用 处 的 。 为 强调 要 点 ， 下 文中 忽略 了 一 些 技术 细 节 ， 如 错误 处 理 之 类 。 当 然 ， 所 述 
的 函数 广泛 使 用 了 通用 设备 模型 提供 的 方法 。 
eUU00 
在 可 以 注册 设备 及 其 驱动 程序 之 前 ， 需 要 有 总 线 。 因 此 我 们 从 bus_register 开 始 ， 该 函数 问 系 
统 添加 一 个 新 总 线 。 首 先 ， 通 过 幅 入 的 kset 类 型 成 员 subsys， 将 新 总 线 添加 到 总 线 子 系 统 : 


drivers/base/bus.c 
int bus_register(struct bus_type * bus) 


{ 
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int retval; 


retval = kobject_ set name(&bus->subsys.kobj, "%s", bus->name); 
bus->subsys.kobj.kset = &bus_subsys; 
retval = subsystem register(&bus->subsys); 


总 线 需 要 了 解 相关 设备 及 其 驱动 程序 的 所 有 有 关 信 息 ， 因此 总 线 对 二 者 注册 了 kset。 两 个 kset 6 

















分 别 是 drivers 和 devices， 痢 将 总 线 作为 父 结 点 : 


drivers/base/bus.c 
kobject_set name (&bus->devices.kobj, "devices"); 
bus->devices.kobj.parent = &bus->subsys .kobj; 
retval = kset_ register(&bus->devices); 





kobject_set name (&bus->drivers.kobj, "drivers"); 
bus->drivers.kobj.parent = &bus->subsys .kobj; 
bus->drivers.ktype = &driver_ ktype; 

retval = kset_ register(&bus->drivers); 





A 
e0U00 
注册 设备 包括 两 个 独立 的 步 又， 如 图 6-22 所 示 。 具 体 是 : 初始 化 设备 的 数据 结构 ， 并 将 其 加 入 到 
数据 结构 的 网 络 中 。 


















































device_initialize 


图 6-22 ”device_register 的 代码 流程 图 
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device initialize 主 要 通过 kobj set_kset_s (dev，devices_subsys) 将 新 设备 添加 到 设备 














了 了 2 统 。 
device_adg 还 需要 一 些 其 他 工作 。 首 先 ， 将 通过 device->parent 指 定 的 父子 关系 转变 为 一 般 的 
内 核对 象 层次 结构 : 


drivers/base/core.c 
int device addl(struct device *dev) 
{ 
struct device *parent = NULL; 


parent = get_ device(dev->parent); 
kobj_parent = get_device parent (dev, parent); 
dev->kobj .parent = kobj_parent; 
































在 设备 子 系统 中 注册 该 设备 只 需要 调用 一 次 kobject_add, 因为 在 device_initialize 中 已 经 将 
该 设备 设置 为 子 系统 的 成 员 了 。 


drivers/base/core.c 
kobject_set name (&dev->kobj, "%s", dev->bus_id); 
error = kobject add(&dev->kobj); 


















































然后 调用 bus_adg_gdevice 在 sysfs 中 添加 两 个 链接 : 一 个 在 总 线 目 录 下 指向 设备 ， 另 一 个 在 设备 
的 目录 下 指向 总 线 子 系统 。 bus_attach_gdevice 试 图 自动 探测 设备 。 如 果 能 够 找到 适当 的 驱动 程序 ， 
则 将 设备 添加 到 lpus->klist_qevices。 设 备 还 需要 添加 到 父 结 点 的 子 结 点 链表 中 (此 前 ， 设 备 知 道 
其 父 结 点 ， 但 父 结 点 不 知道 该 子 结 点 的 存在 )。 


drivers/base/core.c 
error = bus_adqd device (dev); 
bus_attach device (dev); 
if (parent) 
klist_ add tail(&dev->knode parent, &parent->klist children); 




















Ml 
























































} 
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在 进行 一 些 检 查 和 初始 化 工作 之 后 ，driver_register 调 用 bus_aqdg_driver 将 一 个 新 驱动 程序 
添加 到 一 个 总 线 。 同 样 ， 驱 动 程序 首先 要 有 名 字 ， 然 后 注册 到 通用 数据 结构 的 框架 中 : 

drivers/base/bus.c 


int bus_adqd driver(struct device driver *drv) 


{ 






































struct bus_type * bus = bus_ get (drv->bus); 
int. Srror = 03 


error = kobject_ set name (&drv->kobj, "%s", drv->name); 
drv->kobj .kset = &bus->drivers; 
error = kobject_ register (&drv->kobj); 


























如 果 总 线 支 持 自 动 探测 ， 则 调用 driver_attach。 该 函数 迭代 总 线 上 的 所 有 设备 ， 使 用 驱动 程序 
的 match 函 数 进 行 检 测 ， 确 定 是 否 有 茶 些 设备 可 使 用 该 驱动 程序 管理 。 最 后 ， 将 该 驱动 程序 添加 到 总 
线 上 注册 的 所 有 驱动 程序 的 链表 中 。 


drivers/base/bus. 
if (drv->bus->drivers_autoprobe) 
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error = driver attach(drv); 
klist adqd tail(&drv->knode bus, &bus->klist drivers); 


攻 
6.7.2 PCI 总 线 


PCI 是 peripheral component interconnect 的 缩写 ， 是 英特尔 公司 开发 的 一 种 标准 总 线 ， 它 迅速 在 系 
统 组 件 和 体系 结构 厂商 中 间 确 立 了 自身 的 地 位 ， 成 为 一 种 非常 流行 的 总 线 。 其 原因 不 在 于 市 场 策略 方 
面 的 技巧 ， 而 是 因为 其 技术 水 平 。 它 成 功 替 代 了 ISA 总 线 (ISA 是 影响 过 这 个 程序 设计 里 、 最 令 人 苦恼 
的 灾难 这 一 )。? 为 一 劳 永 逸 地 解决 IJSA 总 线 设 计 上 固有 的 缺陷 ，PCI 总 线 规 定 了 以 下 设计 目标 。 

口 支持 高 传输 带宽 ， 以 适应 具有 大 数据 流 的 多 媒体 应 用 。 

口 简单 且 易 于 自动 化 配置 附 接 的 外 设 。 

口 平台 独立 性 ， 即 不 绑 定 到 特定 的 处 理 器 类 型 或 系统 平台 。 

PCI 规 范 存在 几 个 版 本 , 因为 在 PCI 的 发 展 过 程 中 添加 了 各 种 增强 特性 , 以 涵盖 更 多 新 近 技 术 进 展 。 
例如 ， 最 近 一 个 主要 的 更 新 涉及 热 插 拔 在 系统 运行 时 ， 添 加 和 移 除 设备 )。 

于 PCI 规 范 与 处 理 器 无 关 的 性 质 ， 该 总 线 不 仅 用 于 IA-32 系 统 《〈 及 其 或 多 或 少 的 直接 后 继 IA-64 
和 AMD64)， 还 用 于 其 他 的 体系 结构 〈 如 PowerPC、Alpha、SPARC 等 )。 看 看 为 该 总 线 生 产 的 大 量 廉 
价 的 扩展 卡 ， 就 知道 为 什么 了 。 

1. PCI 系 统 的 布局 
在 讨论 内 核 中 PCI 的 实现 之 前 , 我 们 先 来 了 解 该 总 线 的 主要 原理 。 如 果 读 者 需要 更 多 详细 的 讲解 ， 
可 以 参考 人 硬件 技术 方面 的 教科 书 〈( 例 如 [BH01])。 
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系统 的 某 个 PCI 总 线 上 的 每 个 设备 ， 都 由 一 组 3 个 编号 标识 。 

DUO000 (bus number) 是 该 设备 所 在 总 线 的 编号 ， 编 号 照例 从 0 开始 。PCI 规 范 准 许 每 个 系统 
最 多 255 个 总 线 。 

DUO000 (slot number) 是 总 线 内 部 的 一 个 唯一 标识 编写。 一 个 总 线 最 多 能 够 附 接 32 个 设备 。 
不 同 总 线 上 的 设备 插 槽 编号 可 能 相同 。 

DO0O000 (functionnumber) 用 于 在 一 个 扩展 卡 上 ， 实 现 包 括 多 个 (经 典 意义 上 ) 扩展 设备 的 



































设备 。 例 如 ， 为 节省 空间 ， 可 以 将 两 个 网 卡 放置 在 一 块 扩 展 卡 上 ， 在 这 种 情况 下 通过 不 同 的 
功能 编号 来 指定 不 同 的 接口 。 笔 记 本 电脑 中 多 功能 芯片 组 使 用 很 多 ， 这 些 芯片 组 附 接 到 PCI 总 

线 ， 以 最 小 的 空间 集成 了 一 整套 扩展 设备 (IDE 控 制 器 、USB 控 制 器 、 调 制 解 调 器 、 网 络 等 )。 

这 些 扩 展 设备 必须 通过 功能 编号 进行 区 分 。PCI 标 准将 一 个 设备 上 功能 部 件 的 最 大 数目 定义 

为 8。 

每 个 设备 都 通过 一 个 16 位 编号 唯一 地 标识 ， 其 中 8 个 比特 位 用 于 总 线 编号 ，5 个 比特 位 用 于 插 槽 编 

号 ，3 个 比特 位 用 于 功能 编号 。 驱 动 程序 无 需 费力 处 理 这 种 极其 紧凑 的 记 法 ， 因 为 内 核 建立 了 一 个 数 



















































































































































































GD ISA 代 表 industrial standard architecture。 在 IBM 公 司 试图 引入 有 专利 的 私有 微 通道 总 线 ， 以 压制 扩展 设备 的 制造 时 ， 
为 应 对 此 事 ， 很 多 硬件 厂商 联合 起 来 开发 了 ISA 总 线 。ISA 总 线 系统 的 设计 非常 简单 ， 以 简化 扩展 卡 的 使 用 。 实 际 
上 ， 它 非常 简单 ， 以 至 于 业余 的 电子 学 爱好 者 也 能 够 为 之 开发 适当 的 扩展 硬件 ， 对 当今 的 现代 总 线 设计 来 说 ， 几 
乎 不 可 想象 。 但 从 总 线 编程 和 设备 驱动 程序 寻 址 方面 ， 它 确实 有 严重 的 缺陷 。 一 部 分 是 因为 当时 与 现在 完全 不 同 
的 计算 机 技术 格局 ， 另 一 部 分 是 由 于 总 线 的 设计 所 致 ， 其 设计 从 任何 角度 来 看 都 不 具备 前 瞻 性 。 
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据 结构 的 网 络 ， 其 中 也 包含 了 同样 的 信息 ， 从 C 语 言 的 角度 来 看 更 容易 处 理 。 

e0000 

有 3 个 地 址 空间 支持 与 PCI 设 备 的 通信 。 

口 VO 空间 通过 32 个 比特 位 描述 ， 因 而 ,对 用 于 与 设备 通信 的 端口 地 址 , 提供 了 最 大 4 GB 的 空间 。 

口 取决 于 处 理 器 类 型 ， 数 据 空间 由 32 或 64 个 比特 位 描述 。 当 然 ， 只 有 CPU 字 长 为 64 位 时 ， 才 文 
持 后 者 。 系 统 中 的 设备 分 配 到 上 述 两 个 地 址 空间 中 ， 因 而 有 唯一 的 地 址 。 

口 配置 空间 包含 了 各 个 设备 的 类 型 和 特征 的 详细 信息 ， 以 省 去 危险 的 自动 探测 工作 。? 

这 些 地 址 空间 会 根据 处 理 器 类 型 映射 到 系统 虚拟 内 存 中 的 不 同位 置 , 使 得 内 核 和 设备 驱动 程序 能 












































































































































































































































El 
够 访问 对 应 的 资源 。 
e0000 
与 许多 先前 的 总 线 相 比 ，PCI 总 线 是 一 种 无 跳 线 系统 。 换 言 之 ， 扩 展 设备 能 够 完全 通过 软件 手段 






































配置 ， 而 无 需 用 户 干涉 ,为 支持 这 种 配置 ， 每 个 PCI 设 备 都 有 一 个 256 字 节 长 的 配置 空间 ， 其 中 
该 设备 的 特点 和 要 求 的 有 关 信息 。 尽 管 按 当前 计算 机 的 内 存 配 置 水 平 来 看 ，256 字 节 初 看 起 来 数目 很 
小 ， 但 其 中 可 以 存储 大 量 信 息 ， 图 6-23 给 出 了 PCI 规 范 规定 的 配置 空间 的 布局 。 


0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 
Vendor | Device | Cmd | Status |# 呈 2|s| 各 g 
Base address 0 Base address 1 Base address 2 Base address 3 16-32 
Base address 4 Base address 5 Cr 32-45 
Expansion ROM IRQ Min |Max 


图 6-23 PCI 配置 空间 的 布局 
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VendorID 和 Device ID 唯一 地 标识 了 广 商 和 设备 类 型 。 前 者 由 PCI Special Interest Group 一 个 工业 
界 的 联盟 ) 分 配 ， 用 于 标识 各 个 公司 。" 后 者 可 以 由 厂商 自由 选择 ， 只 用 于 确保 在 地 址 空间 中 不 会 出 
现 重 复 。 这 两 个 ID 合 起 来 通常 称 之 为 设备 的 0 口 。 两 个 具有 相似 名 称 的 附加 字段 : Subsystem Vendor ID 
和 Subsystem Device ID， 也 可 以 同时 使 用 ， 以 更 精确 地 描述 设备 的 通用 接口 。Rev ID 用 于 区 分 不 同 的 
设备 修订 级 别 。 这 有 助 于 用 户 选 择 设备 驱动 程序 的 版 本 ,新 版 本 的 设备 可 能 消除 了 已 知 的 硬件 故障 或 
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@ 自动 探测 即 设备 的 “自动 检测 ”通过 向 各 种 地 址 发 送 数 据 并 等 待 系统 的 响应 ， 以 识别 系统 中 存在 的 扩 

ISA 总 线 的 诸多 邪恶 之 一 。 
@ 一 些 读者 很 可 能 还 记得 所 谓 的 ISA“ 游 戏 ” 其 中 的 扩展 卡 文档 很 少 ， 需 要 通过 跳 线 手工 地 调整 资源 。 
图 英特尔 公司 的 ID 是 0x8086:……… 








展 卡 。 这 是 
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添加 了 新 特性 。 

Class Code 字 段 用 于 将 设备 分 配 到 各 种 不 同 的 功能 组 ， 该 字段 分 为 两 部 分 。 前 8 个 比特 位 表示 基 
(base class)， 而 剩余 的 16 个 比特 位 表示 基 类 的 一 个 子 类 。 基 类 及 其 子 类 的 例子 如 下 给 出 〈 我 使 用 
<pci_ids.h> 中 对 应 常数 的 名 称 )。 

口 大 容量 存储 器 (PCI_BASE_CLASS_STORAGE) 

加 SCSI 控 制 器 (PCI_CLASS_STORAGE_SCSI) 

四 IDE 探 制 鼎 (PCI_CLASS_STORAGE_IDE) 

和 RAID 控 制 器 〈PCcI_CLASS_STORRAGE RATD) 〈 用 于 组 合 多 个 磁盘 驱动 器 ) 
口 网 络 (PCI_BASE_CLASS_NETWORK) 

加 以 太 网 (PCI_BASE_NETWORK_ETHERNET) 

m FDDI (PCI_BASE NETWORK FDDI) 

口 系统 组 件 (PCI_BASE_CLASS_SYSTEM) 

四 DMA 控 制 器 (PCI_CLASS_SYSTEM_DMA) 
实时 时 钟 (PCI_CLASS_SYSTEM_RTC) 

6 个 基地 址 字段 每 个 包含 32 个 比特 位 ， 用 于 定义 PCI 设 备 和 系统 其 余部 分 通信 所 用 的 地 址 。 在 涉及 
64 位 设备 时 (Alpha 和 Sparc64 系 统 上 是 有 可 能 的 ), 需要 将 基地 址 字段 两 两 合并 , 以 描述 内 存 中 的 位 置 。 
这 样 可 用 的 基地 址 数目 就 上 只 有 3 个 了 。 就 内 核 而 言 ， 剩 余 字 段 中 相关 的 只 有 IRQ 编 号 ， 可 以 接受 0 和 255 
之 间 的 任意 值 ， 用 于 指定 设备 使 用 的 中 断 。 值 为 0 表示 该 设备 并 不 使 用 中 断 。 


OOOOOOOUOOOUOOOOOVUUOUOILUUOOO 
加 加 
OT 


剩余 的 字段 由 硬件 使 用 ， 与 软件 无 关 ， 因 此 我 不 会 详细 解释 其 语义 。 
2. 内 核 中 的 实现 
内 核 为 PCI 驱 动 程序 提供 了 一 个 广泛 的 框架 ， 可 以 粗略 地 划分 为 两 个 类 别 。 
口 PCI 系 统 的 初始 化 〈 和 资源 的 分 配 ， 这 取决 于 系统 )， 以 及 预备 对 应 的 数据 结构 以 反映 各 个 总 
线 和 设备 的 容量 和 能 力 ， 使 得 能 够 较为 容易 地 操作 总 线 / 设 备 。 

口 支持 访问 所 有 PCI 选 项 的 标准 化 函数 接口 
在 各 个 不 同类 型 的 系统 上 ，PCI 系 统 初始 化 有 时 差异 非常 大 。 例 如 ，IA-32 系 统 会 在 启动 时 间 借 助 
于 BIOS 自行 分 配 所 有 相关 的 PCI 资 源 ， 内 核 需 要 做 的 事情 很 少 。Alpha 系 统 没 有 BIOS 或 适当 的 等 价 物 ， 
相关 工作 必须 由 内 核 完 成 。 因 此 ， 在 讲解 内 核 内 存 中 相关 的 数据 结构 时 ， 我 会 假定 所 有 PCI 设 备 和 总 
线 都 已 经 完全 初始 化 。 

e0U000 

内 核 提 供 了 几 个 数据 结构 来 管理 系统 的 PCI 结 构 。 这 些 结构 声明 在 <pci.h> 中 ， 通 过 一 个 由 指针 
构成 的 网 络 互相 连接 。 在 仔细 讲解 结构 成 员 的 定义 之 前 ， 我 首先 给 出 一 个 概述 。 

口 系统 中 的 各 个 总 线 由 pci_bus 的 实例 表示 。 

口 pci_gdev 结 构 表 示 各 个 设备 、 扩 展 卡 和 功能 部 件 。 

口 每 个 驱动 程序 都 通过 pci_griver 的 一 个 实例 描述 。 

内 核定 义 了 两 个 全 局 的 1ist_headq 变 量 〈 都 定义 在 <pci.h> 中 )， 用 作 PCI 数 据 结构 形成 的 网 络 的 
入 口 。 
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口 pci_root_buses 列 出 了 系统 中 所 有 的 PCI 总 线 。 在 “向 下 ”扫描 数据 结构 以 查找 附 接 到 各 个 
总 线 的 所 有 设备 时 ， 该 链表 是 一 个 起 点 。 
D pci_gevices 将 系统 中 的 所 有 PCI 设 备 都 连接 起 来 ， 不 考虑 总 线 结构 的 影响 。 在 驱动 程序 想 要 
搜索 它 支 持 的 所 有 设备 时 ， 该 链表 很 有 用 ， 因 为 此 时 无 需 关注 总 线 拓扑 结构 当然， 通过 PCI 
数据 结构 之 间 的 许多 关联 ， 是 可 以 找到 与 一 个 设备 关联 的 总 线 的 ， 读 者 在 后 面 会 看 到 )。 

































































euU0000 
在 内 存 中 ， 每 个 PCI 总 线 都 通过 pci_bus 数 据 结构 的 一 个 实例 表示 ， 该 结构 定义 如 下 : 
<pci.h> 


#define PCI_BUS_ NUM RESOURCES 8 











struct pci bus { 



























































struct list_head node; /* 总 线 链表 中 的 结 点 */ 

struct pci_bus *parent; /* 此 桥接 器 ( 即 此 总 线 ) 所 在 的 父 总 线 */ 
struct list_head children;  /* 子 总 线 链表 */ 

struct list head devices; /* 总 线 上 设备 的 链表 */ 

struct pci_dev *self; /* 父 总 线 所 看 到 的 桥接 器 设备 */ 
struct resource *resource[PCI_BUS_NUM RESOURCES]; /* 导向 到 该 总 线 的 地 址 空间 */ 
struct pci_ops *ops; /* 访问 配置 信息 的 各 函数 */ 

void *sysdata; /* 挂钩 ， 用 于 特定 于 硬件 的 扩展 */ 
struct proc dir entry *procdir; /* /ptroc/bus/pci 中 的 目录 项 */ 
unsigned char number; /* 总 线 号 */ 

unsigned char primary; /* 主 桥接 器 编号 */ 

unsigned char secondary; /* 次 桥接 器 编号 */ 

















unsigned char subordinate;  /* 下 级 总 线 的 最 大 数目 */ 





char name[48]; 

}; 

源 代码 的 编排 格式 ， 将 该 结构 分 为 不 同 的 功能 部 分 。 

第 一 部 分 包括 与 其 他 PCI 数 据 结构 建立 关联 所 需 的 所 有 成 员 。noge 是 一 个 链表 元 素 ， 用 于 将 所 有 
总 线 连接 到 上 文 提 到 的 全 局 链表 中 。parent 是 一 个 指针 ， 指 向 更 高 层次 总 线 的 数据 结构 。 每 个 总 线 只 
可 能 有 一 个 父 总 线 。 某 个 总 线 的 下 级 总 线 或 子 总 线 都 必须 通过 以 childqren 作 为 表 头 的 链表 管理 。 
同样 地 ， 总 线 上 所 有 附 接 的 设备 都 通过 以 aevices 为 表 头 的 链表 管理 。 
你 总 线 0 以 外 ， 所 有 系统 总 线 都 可 以 只 通过 一 个 PCI 桥 接 器 寻 址 ， 桥 接 器 类 似 于 一 个 普通 的 PCI 设 
备 。 每 个 总 线 的 self 成 员 是 一 个 指针 ， 指 向 描述 桥接 器 的 pci_gev 实 例 。 

resource 数 组 只 是 用 于 保存 该 总 线 在 虚拟 内 存 中 占用 的 地 址 区 域 。 每 个 数组 元 素 包 含 一 个 
resource 结 构 的 实例 。 因 为 该 数组 包含 4 项 ， 总 线 也 刚好 可 以 分 配 这 么 多 个 不 同 的 地 址 空间 与 系统 其 
余 的 部 分 通信 (数组 大 小 当然 是 符合 PCI 标 准 的 )。 第 一 个 数组 项 包含 用 于 VO 端口 的 地 址 区 域 。 第 二 
项 总 是 保存 VO 内 存 区 域 的 地 址 范围 。 

pci_bus 结 构 的 第 二 部 分 首先 是 ops 成 员 ， 其 中 包含 大 量 函 数 指针 。 这 些 是 一 组 用 于 访问 配置 空 
间 的 函数 ， 下 文 将 更 仔细 地 讲解 。sysdata 成 员 使 得 总 线 结构 可 以 关联 到 特定 于 人 硬件 (因而 也 是 特定 
于 驱动 程序 ) 的 函数 ， 尽 管内 核 很 少 使 用 该 选项 。 最 后 ，procdir 提 供 了 一 个 到 proc 文 件 系统 的 接口 ， 
以 便 使 用 /proc/bus/pci 问 用 户 空间 导出 有 关 各 个 总 线 的 信息 。 

pci_bus 结 构 的 下 一 部 分 包含 数值 信息 。 numbez 是 一 个 连续 号 码 ， 在 系统 中 唯一 地 标识 了 该 总 
线 。subordinate 是 该 特定 总 线 可 以 拥有 的 下 级 总 线 的 最 大 数目 。name 字 段 包含 该 总 线 的 一 个 文本 名 
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称 〈 例 如 ，PCI Bus #01)， 当 然 也 可 以 是 空白 。 
在 PCI 子 系统 初始 化 时 ， 会 建立 所 有 系统 总 线 的 列表 。 这 些 总 线 以 两 种 不 同 的 方式 彼此 连接 。 第 
一 种 方法 使 用 一 个 线性 链表 ， 表 头 是 上 文 所 述 的 pci_root_buses 全 局 变量 ， 包 括 系统 中 所 有 的 总 线 。 
noaqe 成 员 充当 链表 元 素 。 

parent 和 children 结 构成 员 ， 方 便 了 以 树 的 形式 表示 PCI 总 线 的 二 维 拓扑 结构 。 

eUU00 

struct pci_dev 是 一 个 关键 的 数据 结构 ， 用 于 表示 系统 中 的 各 个 PCI 设 备 。 
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<pci.h> 
struct pci dev { 
struct list head global list; /* 在 所 有 PCI 设 备 的 链表 中 的 结 点 */ 
struct list head bus_list; /* 在 各 总 线 设备 链表 中 的 结 点 */ 
struct pci_ bus *bus; /* 设备 所 在 的 总 线 */ 
struct pci bus *subordinate; /* 该 桥接 器 设备 接 通 的 总 线 */ 
void *sysdata; /* 挂钩 ， 用 于 特定 于 硬件 的 扩展 */ 
struct proc_dir entry *procent; /* /proc/bus/pci 中 的 设备 目录 项 */ 
unsigned int devfn; /* 编码 过 的 设备 和 功能 索引 */ 
unsigned short vendor; 
unsigned short device; 
unsigned short subsystem vendor; 
unsigned short subsystem device; 
unsigned int class; /* 3 个 字 节 (base、sub、prog-if) */ 
u8 revision; /* PCI 修 订 版 本 号 ，class 的 最 低 字 节 */ 
u8 hdr_type; /* PCI 首 部 类 型 (屏蔽 了 多 个 标志 ) */ 
u8 pcie_type; /* PCI-E 设 备 /端口 类 型 */ 
u8 rom base_reg; /* 使 用 哪个 配置 寄存 器 来 控制 ROM */ 
u8 pin; /* 设备 使 用 的 中 断 针 脚 */ 
struct pci_driver *driver; /* 分 配 当前 aevice 实 例 的 驱动 程序 */ 
struct device dev; /* 到 通用 设备 模型 的 接口 */ 
/* 设备 与 下 列 ID 兼 容 */ 
unsigned short vendor_ compatible[DEVICE COUNT COMPATIBLE]; 
unsigned short device compatible[DEVICE COUNT COMPATIBLE]; 
int cfg_size; /* 配置 空间 的 长 度 */ 
/* 
* 不 要 直接 访问 中 断 线 和 基本 地 址 寄存 器 ， 应 该 使 用 这 里 存储 的 值 。 
* 两 种 做 法 得 到 的 值 可 能 是 不 同 的 ! 
unsigned int iraqa; 
struct resource resource[DEVICE COUNT_RESOURCE]; /* I/O 内 存 区 + 扩展 ROM */ 
}3 
该 结构 的 第 一 部 分 成 员 用 于 通过 链表 或 树 实现 关联 。global_1list 和 lbus_1list 是 两 个 链表 元 素 ， 
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用 于 将 设备 放置 到 全 局 设备 链表 ( 表 头 为 pci_devices ) 或 特定 于 总 线 的 设备 链表 ( 表 头 为 pci_ pus-> 


devices) 上 。 
bus 成 员 用 于 建立 设备 和 总 线 之 间 的 逆向 关联 。 它 是 一 个 指针 ， 指 向 设备 所 在 总 线 的 pci_bus 实 
例 。 另 一 个 到 总 线 的 关联 保存 在 supordinate 成 员 中 , 仅 当 设备 表示 连接 两 个 PCI 总 线 的 PCI 桥 接 器 时 ， 
该 成 员 才 包含 有 效 值 〈 和 否则 为 NULL 指 针 )。 如 果 确 实 如 此 《桥接 器 )， 则 suboraqinate 指 向 “下 级 ”PCI 
总 线 的 数据 结构 。 
我 们 对 接 下 来 的 两 个 成 员 没 太 多 兴趣 ，sysdata 用 于 存储 特定 于 驱动 程序 的 数据 ， 而 procentry 
用 于 管理 设备 在 broc 文 件 系 统 中 的 目录 项 。 结 构 的 下 一 部 分 也 没有 包含 我 们 感 兴趣 的 内 容 。gdevfn 和 
rom_base_reg 之 间 的 所 有 成 员 只 是 用 于 存储 上 文 提 到 的 配置 空间 数据 。 其 中 填充 的 是 系统 初始 化 时 
从 硬件 读 取 的 数据 。 后 续 的 操作 就 没有 必要 继续 从 配置 空间 取得 这 些 数据 了 ， 从 上 述 数 据 结构 可 以 简 
便 快 速 地 获得 配置 数据 。 
driver 指 向 用 于 控制 该 设备 的 驱动 程序 , 稍 后 我 会 讨论 用 于 表示 驱动 程序 的 struct pci_driver 
数据 结构 。 每 个 PCI 驱 动 程 序 都 通过 该 结构 的 一 个 实例 唯一 地 标识 。 此 外 PCI 设 备 还 必须 关联 到 通用 品 
D 模型 ，aev 成 员 即 用 于 此 目的 。 
irq 指 定 了 该 设备 使 用 的 中 断 数 目 ，resource 是 一 个 数组 ， 保 存 了 驱动 程序 为 WO 内 存 分 配 的 资 
实例 。 
e000U0 
PCI 层 中 最 后 一 个 基本 的 数据 结构 是 pci_griver。 它 用 于 实现 PCI 驱 动 程序 ， 表 示 了 通用 内 核 代 
码 和 设备 的 底层 硬件 驱动 程序 之 间 的 接口 。 每 个 PCI 驱 动 程序 都 必须 将 其 函数 填 到 该 接口 中 ， 使 得 内 
0 致 地 控制 可 用 的 驱动 程序 。 
结构 定义 如 下 (为 简明 起 见 ， 我 省 去 了 用 于 实现 电源 管理 的 项 ): 


<pci.h> 
struct pci_ driver { 














































































































































































































































































































































































































char *name; 
const struct pci device id *id_table; /* 必须 为 非 空 指针 ， 以 便 调用 probe */ 
int (*probe) (struct pci dev *dev, const struct pci device iqd *id); 
/* 新 设备 插入 时 调用 */ 
void (*remove) (struct pci_dev *dev); /* 设备 移 除 时 调用 (如 果 是 不 支持 热 插 拔 的 驱动 
* 程序 ， 则 为 NULL) */ 





















































struct device driver driver; 
}; 
前 两 个 成 员 的 语义 很 明显 。 name 是 设备 的 文本 标识 符 ( 通 常 ， 是 实现 驱动 程序 的 模块 名 称 )， 而 
driver 用 于 建立 与 通用 设备 模型 的 关联 。 
PCI 驱 动 程 请 结构 最 重要 的 方面 是 对 检测 、 安装 、 移 除 设 备 的 支持 。 为 此 提供 了 两 个 函数 指针 : 
probe 检 测 该 驱动 程序 是 否 支 持 某 个 PCI 设 备 〈( 该 过 程 称 之 为 0 ， 也 是 该 函数 指针 得 名 的 原因 )。 
remove 用 于 移 除 设备 。 只 有 系统 支持 热 捅 氢 (通常 不 支持 ) 时 ， 移 除 PCI 设 备 才 有 意义 。 
驱动 程序 必须 知道 它 负 责 管理 的 设备 。 上 文 讨论 的 ( 子 ) 设备 和 《〈 子 ) 广 商 ID 用 于 在 一 个 列表 中 
地 标识 所 支持 的 设备 ， 内 核 使 用 该 列表 来 确定 驱动 程序 所 支持 的 设备 。 另 一 个 数据 结构 名 为 
ci_device_id， 即 用 于 实现 该 列表 。 该 结构 在 PCI 子 系统 中 极为 重要 ， 将 在 下 文 讨 论 。 由 于 一 个 驱 
程序 可 能 支持 多 个 不 同 ( 大 体 上 兼容 的 ) 的 设备 ， 内 核 支 持 设 备 ID 的 一 个 完整 的 搜索 列表 。 
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eUU0000 

PCI 驱 动 程序 可 以 通过 pci_register_driver 注 册 。 该 函数 十 分 简单 。 其 主要 任务 是 ， 对 相关 函 
数 已 经 分 配 的 一 个 pci_qevice 实 例 ， 填 充 一 些 剩余 的 字段 。 该 实例 使 用 ariver_register 传 递 到 通 
用 设备 层 ， 该 函数 的 运作 方式 在 上 文 讨 论 过 。 

比 注 de 吉 构 的 填充 操作 ， 这 不 仅 涉 及 定义 上 述 函 数 ， 
来 表示 驱动 程序 和 通用 内 核 代码 之 间 的 接口 ， 还 需要 创建 该 驱动 程序 能 够 管理 的 所 有 设备 的 列表 ， 这 
是 根据 ( 子 ) 设备 和 (〈 子 ) 厂商 ID 判断 的 。 

上 文 提 到 ， 在 这 个 过 程 中 pci_dqevice_iq 数 据 结构 具有 决定 作用 ， 其 定义 如 下 : 


<mod_devicetable.h> 
struct pci device iaq { 




















































































































_u32 vendor, device; /* 厂商 和 设备 ID， 或 PCI_ANY_ID*/ 

_u32 subvendor, subdevice; /* 子 系统 ID， 或 PCI_ANY_ID */ 

__Uu32 class, class_ mask; /* (class,subclass,prog-if) 三 元 组 */ 
unsigned long driver_data; /* 驱动 程序 的 私有 数据 */ 


] 
读者 在 前 文 已 经 看 到 过 PCI 配 置 空 间 的 描述 ， 因 此 对 该 结构 的 成 员 可 能 比较 熟悉 。 通 过 定义 特定 
的 常数 ， 驱 动 程序 能 够 指定 某 个 特定 的 蕊 片 组 /设备 。class_mask 还 允许 根据 位 掩 码 过 滤 可 能 的 类 别 。 
在 很 多 情况 下 ， 上 只 描述 一 个 设备 既 不 必要 也 不 可 取 。 如 果 驱 动 程序 支持 大 量 兼容 设备 ， 这 将 很 快 
导致 源 代 码 中 出 现 无 穷 的 声明 列表 。 这 不 仅 难于 阅读 ， 而 且 也 存在 一 个 现实 的 缺点 。 我 们 可 能 只 是 因 
为 驱动 程序 没有 将 某 个 兼容 设备 加 入 到 支持 设备 的 列表 中 ， 所 以 在 运行 时 就 无 法 找到 该 设备 。 因 此 内 





















































































































































核 提供 了 通配符 常数 PcT_ANY_ID， 可 以 与 任何 PCI 设 备 症 匹配 。 我 们 来 考察 一 下 ， 该 机 制 如 何 用 于 下 
述 的 eepro100 驱 动 程序 中 (这 是 一 个 广泛 使 用 的 蕊 片 组 ， 由 英特尔 公司 生产 ): 
drivers/net/e100/e100_main.c 
#define INTEL 8255X_ ETHERNET DEVICE (device_ id, ich) {\ 
PCI_VENDOR_ID_ INTEL, device id, PCI_ANY_ID, PCI_ANY_ID, \ 
PCI_CLASS_NETWORK_ETHERNET << 8, OxFFFFO00, ich } 
static struct pci_ device id e100_ iqd table[] = { 
INTEL_ 8255X_ETHERNET_DEVICE (0x1029 ， 0) ， 
INTEL 8255X_ETHERNET_DEVICE (0x1030，0)， 
INTEL_ 8255X_ETHERNET_DEVICE (0x1031，3)， 
INTEL_ 8255X_ETHERNET_DEVICE (0x1032，3)， 
INTEL 8255X_ETHERNET_DEVICE (0x1033，3)， 
INTEL_ 8255X_ETHERNET_DEVICE (0x245D，2)， 
INTEL_8255X_ETHERNET_DEVICE (0x27DC，7) ， 


























(0 
INTEIL，8255X_ETHERNET_DEVICE 宏 的 每 次 展开 都 在 表 中 产生 一 项 。 该 项 的 各 个 成 员 与 其 在 pci_ 
device_id 中 声明 的 顺序 相同 。 
0x8086 是 英特尔 公司 的 厂商 ID， 英 特 尔 公司 是 该 芯片 组 的 生产 商 ( 驱 动 程序 也 可 以 使 用 预 处 理 
常数 PCI_VENDOR_ID_INTEL 定 义 相 同 的 值 )。 每 个 项 包含 一 个 特定 的 设备 DD， 标识 了 当前 市 场 上 出 
的 该 设备 的 所 有 版 本 。 子 厂商 和 子 设备 ID 在 这 里 是 无 关 的 ， 因 此 由 PcI_ANY_ID 表 示 。 这 意味 着 任 
何 子 厂商 或 子 设备 都 被 认为 是 有 效 的 。 
内 核 提 供 了 pci_match_igd 函 数 ， 将 PCI 设 备 数 据 与 人 D 表 中 的 数据 进行 比较 。 它 将 给 定 的 pci_gev 
实例 与 ID 表 进 行 比较 ， 来 确定 该 设备 是 否 包含 在 ID 表 中 。 
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drivers/pci/pci-driver.c 


const struct pci_ device iqd *pci match id(const struct pci device id *ids, 





如 果 一 个 ID 表 项 的 所 有 成 员 与 设备 配置 中 的 所 有 成 员 都 相同 ,那么 就 找到 了 


struct pci_dev *dev); 























一 个 字段 为 特殊 值 PcIT_ANY_ITD， 忆 


6.7.3 USB 


USB (Universal Serial Bus， 通 用 是 行 总 线 ) 












































满足 不 断 发 展 的 PC 的 需求 ， 





种 通用 的 外 部 总 线 ， 在 用 于 连接 中 
但 带宽 要 求 更 高 的 设备 如 外 部 人 硬盘、 光驱 、CD 刻 录 机 
的 2.0 版 本 最 高 速率 提升 到 480 
性 ， 以 方便 不 熟练 的 计算 机 
期 的 PCI 热 插 拔 卡 《 很 难 弄 到 
汰 插 拔 能 力 提 供给 大 量 月 























有 优势 。 





最 大 传输 速率 限于 12 兆 比特 / 秒 ， 该 标准 

在 设计 该 总 线 时 ， 尤 其 要 注意 易 用 
序 的 透明 安装 是 USB 设 计 的 核心 。 与 早 
几乎 没有 使 用 ) 相 比 ，USB 是 将 内 核 的 3 











1. 特性 和 运作 模式 


USB 标 准 有 3 个 版 本 。 最 重要 的 是 第 一 个 版 本 (1.0〉 及 其 下 一 个 版 本 (1.1)， 大 多 数 硬件 都 采 
除了 USB 在 传输 速率 方面 (与 其 他 外 部 总 线 相 比 ， 主 








了 该 版 本 的 标准 。 
要 是 FireWire， 即 IEEE1 





























更 新 的 版 本 〈2.0) 在 设计 上 消 
394) 的 缺点 ， 现 如 





A 











有 版 本 来 说 , 内 核 中 用 了 
我 不 会 过 多 讨论 该 标准 不 
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Me! 


相 比 其 他 总 线 ，USB 有 




































































了 么 无 论 pci_aqev 实 例 中 对 应 字 


2 
用 于 建立 针对 新 类 型 计算 机 的 解 
儿 数 据 传输 速率 的 设备 时 〈 如 鼠标 、 网 络 摄像 头 、 键 盘 )，USB 和 
了 可 








匹配 项 。 如 果 ID 表 中 
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的 信 























上 世纪 90 年 代 末 。 它 是 一 种 外 部 总 线 ， 
方案 ， 如 手持 设备 、PDA 等 。 作 为 一 


























] 户 。 基 














以 通过 USB 总 线 运行 
兆 比 特 / 秒 。 

















E 获 得 了 广泛 应 用 。 这 








个 协议 ， 


如 何 ， 都 是 匹配 的 。 











用 于 








民 
本 。USB 1.1 的 








EET 


此 ， 热 插 拔 和 相关 驱动 程 








|) 和 PCMCIA/PC 卡 (价格 较 高 ， 
日 户 的 第 一 种 总 线 。 











用 














内 核 都 支持 。 对 USB 的 所 

















里 设备 的 数据 结构 都 是 相同 的 ， 
同 版 本 之 间 的 技术 性 差别 。 

















1 于 下 文 将 主要 i 





解数 据 结构 方面 的 内 容 ， 














那些 特别 特性 ? 除了 对 最 终 











附 接 设备 的 拓扑 结 





树 形 结构 中 ， 如 图 6-24 所 示 。 用 这 样 的 方式 ， 





设备 从 来 不 会 直接 连接 到 宿主 机 探 人 
一 个 小 的 仿真 层 蔡 换 了 根 控制 器 ， 使 得 系统 的 其 余部 分 将 该 控制 器 视 为 一 个 虚拟 集 




















动 程序 的 开发 。 











构 ， 这 很 容易 使 人 想起 网 络 结构 。 从 单 








户 的 易 





性 之 外 ， 




















的 根 ] 














空 制 器 








个 系统 














最 多 可 附 了 





图 6-24 USB 系 统 的 拓扑 结构 


站 器 ， 总 是 通过 集线器 。 为 硬 























前 保 驱 动 程序 的 视 














必须 提 及 该 总 线 用 于 排 布 


始 ， 设 备 通过 集线器 连接 到 
接 127 个 终端 设备 。 





图 一 致 ， 内 核 用 
线 器 。 这 简化 了 驱 
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USB 并 不 绑 定 到 某 种 特定 的 处 理 器 或 体系 结构 ， 在 原则 上 它 可 以 用 于 所 有 平台 ， 当 然 这 种 总 线 主 
要 在 PC 平台 上 流行 。 由 于 还 可 以 通过 PCI 扩 展 卡 的 形式 提供 USB 接 口 ， 所 有 文 持 PCI 扩 展 卡 的 体系 结 
构 〈 大 体 上 包括 Sparc64、Alpha， 等 等 ) 都 自然 能 够 支持 USB。 
在 讨论 USB 相 关 问 题 时 ， 设 备 这 个 术语 应 该 谨慎 使 用 ， 因 为 它 被 分 为 3 个 层次 。 
口 口 口 (device〉 是 用 户 可 以 连接 到 USB 总 线 的 任何 东西 ， 例 如 集成 了 麦克 风 的 摄像 机 ， 等 等 。 
上 例 表 明 ， 一 个 设备 可 能 由 几 种 功能 部 件 组 成 ， 分 别 通过 不 同 的 驱动 程序 控制 。 
口 每 个 设备 
设备 可 能 带 有 
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个 接口 。 如 果 总 线 提 供电 源 ， 则 使 用 其 中 一 个 接口 ， 如果 使 用 外 部 电源 ， 则 


















































口 同样 ， 每 个 配置 由 一 个 或 多 个 0 Dinterface) 组 成 ， 每 个 接口 提供 不 同 的 设置 选项 。 对 摄像 
机 可 以 想象 到 3 个 接口 : 只 启用 麦克 风 、 只 启用 摄像 机 或 同时 局 用 两 者 。 根 据 所 选 的 接口 ， 设 
备 的 带宽 需求 可 能 不 同 。 

口 最 后 ， 每 个 接口 可 能 有 一 个 或 多 个 0 《end point)， 由 驱动 程序 控制 。 可 能 有 这 样 的 情形 : 
一 个 驱动 程序 控制 设备 的 所 有 端点 ， 但 每 个 端点 都 可 能 需要 一 个 不 同 的 驱动 程序 。 在 上 述 的 
例子 中 ， 两 个 端点 分 别 是 图 像 视频 单元 和 麦克 风 。 男 一 个 带 有 两 个 不 同 端点 的 设备 的 例子 是 ， 

集成 了 一 个 USB 集 线 器 的 USB 键 盘 ， 可 以 将 其 他 USB 设 备 连 接 到 集线器 上 (从 根本 上 讲 ， 集 线 

器 是 一 种 特殊 的 USB 设 备 )。 

所 有 USB 设 备 都 划分 到 不 同 的 类 别 中 。 在 内 核 源 代码 中 ， 我 们 可 以 看 到 这 样 的 划分 : 各 个 驱动 程 

序 的 源 代 人 码 按照 所 属 类 别 ， 归 入 不 同 的 目录 。drivers/usb/ 包 含 若 干 子 目 录 ， 其 内 容 如 下 。 

口 image 目 录 下 是 图 形 和 视频 设备 的 驱动 程序 ， 如 数字 照相 机 、 扫 描 仪 ， 等 等 。 

口 input 目 录 下 是 输入 输出 装置 的 驱动 程序 ， 用 于 与 计算 机 用 户 的 交互 。 此 类 别 中 典型 的 设备 不 
仅 包 括 键盘 和 鼠标 ， 还 有 和 触摸屏、 数据 手套 ， 等 等 。 

口 media 目 录 下 是 很 多 多 媒体 设备 的 驱动 程序 ， 近 几 年 涌现 了 很 多 此 类 设备 。 

口 net 目 录 下 是 通过 USB 附 接 到 计算 机 的 网 卡 的 驱动 ， 因 而 此 类 设备 通常 称 之 为 0 口 口 ， 负 责 桥 
接 以 太 网 和 USB。 

口 storage 目 录 下 是 大 容量 储存 设备 的 驱动 程序 ， 如 硬盘 等 。 

口 在 class 目 录 下 ， 包 括 了 支持 USB 定 义 的 某 个 标准 类 别 设备 的 所 有 驱动 程序 。 

口 core 包 含 了 宿主 机 适配器 的 驱动 程序 ， 这 种 设备 上 通常 会 附 接 一 个 USB 链 。 

粗略 地 说 ， 驱 动 程序 的 源 代码 源 自 以 下 3 个 领域 : 0 DODD 《如 键盘 、 鼠 标 等 )， 这 些 设备 总 是 可 

以 通过 相同 的 驱动 程序 支持 ， 无 需 考虑 设备 厂商 ; 口 口 口 口 ， 如 MP3 播 放 器 和 其 他 需要 特殊 驱动 程序 

的 小 器 具 ; 0D DODDDOD 的 驱动 程序 ， 这 种 设备 通过 一 种 不 同 的 总 线 系统 (通常 是 PCI〉 附 接 到 系统 

的 其 他 部 分 ， 它 负责 建立 与 USB 设 备 链 的 (物理 ) 连接 。 

USB 标 准 定义 了 4 种 不 同 的 传输 模式 ， 内 核 必 须 考 虑 到 所 有 这 4 种 模式 。 

口 口 吕 DD (controltransfer) 涉及 传输 所 需 的 控制 信息 ，( 主 要 ) 用 于 设备 的 初始 配置 。 此 类 通 
信 必 须 安全 可 靠 ， 但 只 需要 较 罕 的 带宽 。 其 中 通过 预定 义 的 令 牌 传输 各 种 控制 命令 ，USB 标 准 
定义 了 令 牌 的 符号 名 称 和 语义 ， 如 GET_STATUS、SET_INTERFACE 等 。 在 内 核 源 代码 这 些 令 牌 
都 在 <usb.h> 中 声明 为 预 处 理 器 常数 ， 其 前 绥 为 USQ_REQ_， 以 防止 名 称 冲 突 。 标 准 强制 要 求 
了 一 个 命令 的 最 小 集合 ， 所 有 设备 都 必须 文 持 这 些 命令 。 但 厂商 可 以 随意 添加 其 他 特定 于 设 
备 的 命令 ， 厂 商 提 供 的 驱动 程序 必须 能 够 理解 /使 用 这 些 命 令 。 

DO0O0D0 (bulk transfer) 按 数 据 包 发 送 数据 ， 可 以 占据 总 线 的 全 部 带宽 。 在 这 种 模式 下 ， 数 据 
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传输 的 安全 性 由 总 线 保证 。 换 句 话说， 发 送 的 数据 总 是 原样 到 达 其 目的 地 。 "扫描 仪 或 大 容 

















存储 器 之 类 的 设备 会 使 用 这 种 模式 。 























口 口 口 口 口 (interrupt transfer) 类似 于 块 传输 ， 但 按 一 定 的 周期 
义 周 期 长 度 〈 在 一 定 的 限度 内 )。 网 卡 和 类 似 设备 会 优先 选择 使 
口 口 口 口 口 (isochronous transfer) 具有 特殊 作用 ， 它 是 能 够 使 用 
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2. 驱动 程序 的 管理 
内 核 中 按 两 个 层次 实现 USB 总 线 系统 。 
























































E 复 。 驱动 程序 可 以 自由 地 定 
这 种 传输 模式 。 
固定 的 预定 义 带宽 的 唯一 方法 














《尽管 不 可 靠 )。 在 某 些 方面 ， 这 种 模式 可 以 与 网 卡 的 数据 报 技术 类 比 ， 后 者 将 在 第 12 章 
在 需要 确保 连续 数据 流 ， 而 能 够 容忍 侦 尔 数据 丢失 的 情况 下 ， 该 传输 模式 是 最 适用 的 。 
这 种 模式 的 一 个 主要 的 例子 就 是 网 络 摄 像 关 ， 该 设备 通过 USB 总 线 发 送 视频 数据 。 























讨论 。 


使 用 





口 宿主 机 适配器 的 驱动 程序 必须 是 可 用 的 。 该 适配器 必须 为 USB 链 提供 连接 选项 ， 并 承担 与 终 

















端 设 备 的 电子 通信 。 适 配器 自身 必须 连接 到 另 一 个 系统 总 线 〈( 当 前 ， 
类 型 ， 分 别称 之 为 OHCI、EHCI 和 UHCI， 这 些 涵盖 了 市 售 的 所 有 控制 器 类 型 )。 



































有 3 种 不 同 宿主 机 适配器 




















口 设备 驱动 程序 与 各 个 USB 设 备 通信 ， 并 将 设备 的 功能 导出 到 内 核 的 其 他 部 分 ， 进 而 到 
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间 。 这 些 驱动 程序 与 宿主 机 控制 器 通过 一 种 标准 化 接口 交互 ， 因 而 控制 器 类 型 与 USB 驱 动 程序 
是 不 相关 的 。 任 何其 他 方法 显然 都 是 不 切实 际 的 ,因为 需要 为 每 个 USB 设 备 开 发 与 宿主 
































器 相关 的 驱动 程序 。 
接 下 来 我 会 讲解 USB 驱 动 程序 的 结 本 
接口 ， 而 不 会 讨论 其 实现 细节 。 






































控制 











为 和 运作 模式 。 这 样 做 时 ， 我 会 将 宿主 机 控制 器 视 为 一 个 透明 











尽管 从 数据 结构 的 内 容 和 常数 的 名 称 来 看 ，USB 子 系统 的 结构 和 布局 都 是 严格 地 基于 USB 

















但 必须 考虑 到 实际 开发 USB 驱 动 程序 时 涉及 的 一 些微 妙 细节 。 为 使 接 下 来 前 述 的 信息 尽 可 能 简明 ， 
限制 到 USB 子 系统 的 核心 方面 。 因 此 ， 除 了 我 讲解 的 数据 成 员 之 外 ， 其 人 


成 员 大 多 略 去 了 。 如 果 读 者 已 经 清楚 了 该 子 系统 的 结构 ， 那 么 在 内 核 源 代码 中 查找 对 应 的 细节 是 非常 




















我 会 将 讨论 的 范 目 
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简单 的 。 
USB 子 系统 有 4 项 主要 的 任务 。 

口 注册 和 管理 现存 的 设备 驱动 程序 。 

口 为 USB 设 备查 找 适 当 的 驱动 程序 ， 以 及 初始 化 和 配置 。 

口 在 内 核 内 存 中 表示 设备 树 。 

口 与 设备 通信 (交换 数据 )。 

与 上 述 列 表 中 各 个 任务 关联 的 数据 结构 如 下 。 


































































































usb_qdriver 是 USB 设 备 驱 动 程序 和 内 核 其 余部 分 (特别 是 USB 层 ) 之 间 协 作 的 起 始点 。 








<usb.h> 
struct usb driver { 
const char *name; 


int (*probe) (struct usb interface *intf, 
const struct usb_device id *id); 
void (*disconnect) (struct usb interface *intf); 


int (*ioctl) (struct usb interface *intf, unsigned int code, 


es *buf})s 























© 
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当然 ， 这 得 假定 没有 硬件 故障 或 其 他 不 可 抗力 的 作用 。 














也 无 关 的 


标准 
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const struct usb_ device_id *id table; 





struct usbdrv_wrap drvwrap; 
}; 
name 字 有 段 用 于 日 常 管理 。name 是 驱动 程序 的 名 称 ， 在 内 核 中 必须 是 唯一 的 (通常 使 用 模块 的 文 
件 名 )。 在 这 里 ， 通 常 和 谋 入 的 ariver 对 象 隐藏 在 另 一 个 结构 中 。 


<usb.h> 

struct usbdrv wrap { 
struct device driver driver; 
int for_ devices; 































































































} 
这 个 额外 的 数据 结构 使 得 可 以 区 分 接口 驱动 程序 (for_devices 为 0; 和 设备 驱动 程序 。 
我 们 特别 感 兴趣 的 是 函数 指针 prope 和 disconnect。 二 者 与 id_table 共 同 构 成 了 USB 子 系统 热 
插 拔 能 力 的 支柱 。 在 宿主 机 适配器 检测 到 新 设备 插入 时 ， 即 发 起 一 个 0 口 过 程 ， 以 查找 适当 的 设备 驱 
动 程序 。 
内 核 接 下 来 裔 历 设备 树 的 所 有 结 点 ,确定 是 否 有 了 驱动 程序 与 该 设备 相关 。 当 然 ， 这 里 预先 假定 了 
该 设备 尚未 分 配 驱 动 程 序 。 如 果 已 经 分 配 了 驱动 程序 ， 则 跳 过 该 设备 。 
内 核 首先 扫描 驱动 程序 支持 的 所 有 设备 列表 ， 即 i9_table 中 。 我 们 对 该 方法 已 经 比较 熟悉 ， 因 
为 USB 设 备 《〈 类 似 PCI 设 备 ) 可 以 通过 一 个 编号 唯一 地 标识 。 在 找到 设备 和 表 项 的 匹配 之 后 ， 则 调用 
特定 于 驱动 程序 的 probe 函 数 ， 执 行进 一 步 的 检查 和 初始 化 工作 。 
如 果 设 备 ID 和 驱动 程序 提供 的 列表 之 间 无 法 匹配 ， 则 内 核 不 会 调用 probe， 而 是 跳 到 下 一 个 驱动 
程序 。 
ID 表 由 以 下 结构 的 几 个 实例 组 成 ， 该 结构 通过 儿 个 ID 描述 了 USB 设 备 : 
<mod_devicetable.h> 
struct usb_device_ id { 


/* 针对 哪些 字段 进行 匹配 ?*/ 
ul6 match_flags; 









































































































































































































































/* 用 于 特定 于 产品 的 匹配 ， 范 围 包 含 边界 在 内 */ 
ul6 idVendor; 

ul6 idProduct; 

ul6 bcdDevice_ lo; 

ul6 bcdDevice_ hi; 





/* 用 于 设备 类 别 的 匹配 */ 





























-二 人 8 bDeviceClass; 

_u8 bDevicesubClass; 
_u8 bDeviceProtocol; 

/* 用 于 接口 类 别 的 匹配 */ 
_u8 bIinterfaceClass; 
_u8 bInterfaceSubClass; 
_u8 bInterfaceProtocol : 


] 

match_flags 用 于 指定 将 该 结构 的 哪些 字段 与 设备 数据 比较 ， 为 此 定义 了 各 种 预 处 理 器 常数 。 例 
如 ，USB_DEVICE_ID MATCH_VENDOR 表 示 检 查 igvendor 字 上 段 ， 而 USB_DEVICE_ID _MATCH_DEV 
PROTOCOL 指 示 内 核 检 查 bpeviceProtocol 字 段 。usb_dqevice_iq 其 他 字段 的 语义 很 显然 。 
























































374 06U 000000 











不 仅 在 新 设备 添加 到 系统 时 ， 会 建立 驱动 程序 和 设备 之 间 的 关联 。 在 加 载 新 驱动 程序 时 ， 也 会 如 
此 。 采 用 的 方法 同上 文 所 述 。 起 始点 是 usb_registezr 例 程 ， 在 注册 新 USB 驱 动 程序 时 必须 调用 它 。 
probe 利 remove 函 数 处 理 的 是 USB 接 口 ， 由 一 个 独立 的 数据 结构 (usb_interface) 描述 。 除 了 
接口 特征 之 外 ， 其 中 还 包括 指向 相关 的 设备 、 驱 动 程序 和 该 接口 所 属 USB 类 的 指针 。 没 有 必要 深入 讨 
论 该 数据 结构 的 细节 。 
3. 设备 树 的 表示 
下 面 的 数据 结构 描述 了 USB 设 备 树 以 及 内 核 中 各 种 设备 的 特征 。 













































































































































































































































































<usb.h> 
struct usb_device { 
int devnum; /* 在 USB 总 线 上 的 地 址 */ 
char devpath [16]; /* 用 于 消息 中 : /port/port/... */ 
enum usb_device_ state state; /* 已 配置 、 未 连接 ， 等 等 */ 
enum Usb_dqevice_speed speed; /* high/full/low (or error) */ 
unsigned int toggle[2]; /* 每 个 比特 位 表示 一 个 终点 (0 表示 接 入 , 1 表示 断 开 ) */ 
struct usb_ device *parent; /* 所 在 集线器 ， 如 果 为 根 结 点 ， 则 为 NULL */ 
struct Usb_bus *bus; 六 时 A 
struct device dev; /* 到 通用 设备 模型 的 接口 */ 
struct usb_device descriptor descriptor; /* 描述 符 */ 
struct usb host_ config *config; /* 所 有 配置 */ 
struct usb host_ config *actconfig; /* 当前 活动 配置 */ 
u8 portnum; /* 父 结 点 端口 号 〈 从 1 开始 ) */ 
/* 静态 字符 串 ， 来 自 设备 */ 
char *product; /* Product 字 符 串 ， 如 果 有 的 话 */ 
char *manufacturer; /* iManufacturer 字 符 串 ， 如 果 有 的 话 */ 
char *serial; /* iSerialNumbez 字 符 串 ， 如 果 有 的 话 */ 
int maxchild; /* 端口 数目 ， 只 适用 于 集线器 */ 
struct usb device *children{[USB MAXCHILDREN]; 
} 








口 devnum 保 存 了 该 设备 的 唯一 编号 (在 整个 USB 树 中 全 局 唯一 )。state 和 speed 表 示 设 备 的 状 
态 (已 连接 、 忆 配置， 等 等 ) 和 速度 。USB 标 准 对 速度 定义 了 3 个 可 能 值 ， UsB_SPEED_LOW 和 | 
USB_SPEED_FULL 用 于 USB 1.1， 而 UsSB_SPEED_HICGH 用 于 USB 2.0。 

口 devpath 指 定 了 该 设备 在 USB 树 的 拓扑 结构 中 的 位 置 。 从 根 结 点 移动 到 保存 在 各 个 数组 项 中 的 
设备 ， 必 须 遍 历 所 有 集线器 的 端口 号 。 

口 parent 指 问 该 设备 附 接 的 集线器 的 数据 结构 ， 而 bus 指 问 总 线 对 应 的 数据 结构 。 两 个 字段 提供 

了 有 关 USB 链 拓扑 结构 的 信息 。 

D dev 建 立 了 与 通用 设备 模型 的 关联 。 

口 descriptor 将 描述 USB 设 备 的 特征 数据 群集 到 一 个 数据 结构 中 (包括 厂商 DD、 产品 DD、 设 备 

类 别 等 信息 )。 

口 actconfig 指 向 设备 的 当前 配置 ， 而 config 列 出 了 所 有 可 能 的 配置 。 

口 usbfs_entrvy 用 于 连接 到 USB 文 件 系统 , 通常 装载 在 /proc/bus/usb 中 ,提供 从 用 户 空 间 访 问 
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设备 的 入 口 。 
口 product、manufacturer 和 serial 指 向 一 组 ASCII 字 符 串 ， 分 别 是 产品 名 称 、 生 产 商 和 设备 
序列 号 ， 这 些 都 由 人 硬件 自身 提供 。 
口 如 果 当 前 设备 是 集线器 ， 还 有 两 个 相关 的 成 员 : maxchild 指 定 了 集线器 的 端口 数目 〈 即 ， 可 
以 附 接 的 设备 数目 )，chilgren 是 一 个 指针 数组 ， 包 含 了 指向 对 应 usb_qevice 实 例 的 指针 。 
这 两 个 成 员 定 义 了 USB 树 的 拓扑 结构 。 


SS 
SSE 
sm 
drivers/usb/core/hcd.c[| 0 


总 线 链表 中 的 各 个 元 素 ， 由 以 下 数据 结构 表示 : 


<usb.h> 
struct usb_bus { 
struct device *controller; 
































































































































int busnum; /* 总 线 编号 〈 按 注册 顺序 ) */ 

char *bus_name; /* 稳定 的 ia (PCI slot_name 等 ) */ 
struct usb devmap devmap; /* 设备 地 址 分 配 位 图 */ 

struct usb device *root_hub; /* 根 集线器 */ 

struct list head bus_list; /* 月 作 总 绑 链 专 的 链表 元 素 */ 
struct dentry *usbfs_dentry; /* 总 线 在 usbfs 中 的 dentry 项 */ 


}3 
该 数据 结构 有 两 个 成 员 可 以 唯一 地 标识 该 总 线 。busnum 是 一 个 整数 ， 在 总 线 注 册 时 按 顺 序 分 配 ， 
bus_name 是 一 个 指 癌 短 字符 串 的 指针 ， 其 中 保存 了 一 个 唯一 的 名 称 。controller 是 一 个 指向 device 
实例 的 指针 ， 对 应 于 实现 了 该 总 线 的 硬件 设备 。 
不 仅 设 备 会 出 现在 上 文 提 到 的 USB 文 件 系统 中 ， 总 线 也 一 样 。 因 而 usb_bus 还 必须 包含 一 个 指向 
dentry 实 例 的 指针 ， 用 于 建立 与 该 虚拟 文件 系统 的 必要 的 关联 。 
数据 结构 中 间 的 几 个 成 员 是 我 们 最 感 兴趣 的 ， 这 些 成 员 将 各 个 可 用 的 总 线 彼此 连接 起 来 ， 也 连接 
了 其 上 附 接 的 设备 。 它 们 还 提供 了 一 个 到 底层 宿主 机 控制 器 的 标准 化 连接 ， 向 USB 层 剩余 的 部 分 提供 
了 控制 器 的 抽象 。 
口 bus_1ist 是 一 个 链表 元 素 ， 用 于 将 所 有 usb_bus 实 例 连接 到 一 个 链表 中 管理 。 
口 root_hub 是 一 个 指针 ， 指 向 (虚拟 ) 根 集线器 的 数据 结构 ， 表 示 总 线 设备 树 的 根 结 点 。 
口 devmap 是 一 个 位 图 ， 长度 ( 最 少 ) 为 128 个 比特 位 。 它 用 于 跟踪 哪些 USB 编 号 已 经 分 配 ， 哪 些 
仍然 是 空闲 的 。 
DUOUUOUUSeuUU0O0O0O0O0000000000U00000000000000 
DDU1280000 
这 里 使 用 的 usb_devnum 结 构 是 一 个 unsigneqd long 类 型 数组 ， 只 用 于 保证 至 少 有 128 个 连续 比 
特 位 可 用 。 
为 与 底层 的 控制 器 硬件 通信 ， 使 用 了 USBD 0 D (USB request block， URB)。 在 与 USB 设 备 的 
所 有 可 能 形式 的 传输 中 ， 都 使 用 URB 交 换 数 据 。 
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drivers/usb/core/hcd.h 
int usb_ hcd submit urb (struct urb *urb, gfp_t mem flags) ;，; 


在 与 USB 设 备 的 通信 和 数据 交换 中 ， 并 非 一 直 使 用 URB。 在 USB 系 统 的 早期 版 本 中 ， 有 不 同 的 接 

口 用 于 每 种 类 型 的 传输 ， 这 肯定 不 会 简化 设备 驱动 程序 的 编程 。 在 老式 方法 中 ， 同 步 传输 的 实现 充斥 
着 错误 。 一 组 内 核 开发 者 因而 决定 ， 不 仅 要 完全 重 写 当时 所 用 的 宿主 机 适配器 的 驱动 程序 ， 而 且 要 完 
全 重新 设计 整个 USB 层 。" 在 Linux 内 核 中 URB 有 一 点 奇异 , 因为 其 设计 借用 了 MS Windows 的 USB 实 现 ， 
后 者 在 Linux 圈 子 中 可 不 怎么 受 欢 迎 。 两 个 操作 系统 在 细节 上 有 差异 ， 但 基本 概念 相同 。 当 然 ，Linux 
版 本 的 bug 少 得 多 ， 这 是 不 言 而 喻 的 …… 
我 们 对 URB 的 准确 布局 不 特别 感 兴趣 ， 因 此 就 不 必 和 仔细 讨论 相关 的 struct urb 了 。 该 结构 中 许 
也 方 涉及 各 种 传输 类 型 的 细节 差异 ， 这 意味 着 ， 如 果 没 有 对 USB 数 据 传输 的 广泛 了 解 ， 该 结构 是 难 
里 解 的 ， 所 以 本 书 没 有 详细 讲解 。 
但 事实 上 ，USB 设 备 驱动 程序 很 少 接触 到 urb 实 例 ， 而 是 使 用 一 整套 宏和 辅助 函数 ， 来 简化 发 出 
请 求 时 对 URB 的 填充 ， 以 及 返回 数据 的 读 取 。 这 些 宏和 函数 涉及 USB 设 备 操 作 的 深入 知识 ， 在 这 里 就 
不 讨论 了 。 


6.8 小 结 


设备 驱动 程序 是 Linux 内 核 源 代码 中 最 大 的 一 部 分 。 但 我 在 本 章 中 不 会 考虑 各 个 驱动 程序 的 实现 ， 
而 是 主要 讲解 内 核 为 驱动 程序 开发 所 提供 的 0 口 。 这 样 做 是 合理 的 , 因为 设备 驱动 程序 可 以 看 作 是 “内 
核 应 用 程序 ” 它们 基于 内 核 提 供 的 框架 构建 。 
读者 已 经 了 解 到 ， 设 备 驱动 程序 实质 上 可 以 分 为 两 个 类 别 : 字符 设备 与 内 核 之 间 传 输 字 节 流 ， 
块 设 备 需要 更 复杂 的 请 求 管理 。 但 两 者 都 通过 设备 特殊 文件 与 用 户 层 应 用 程序 交互 ， 使 应 用 程序 能 够 
用 普通 文件 的 IO 操作 访问 驱动 程序 提供 的 服务 。 
最 后 ， 我 还 讨论 了 内 核 处 理 VO 内 存 和 端口 资源 的 方式 ， 并 讨论 了 总 线 系统 如 何 将 设备 连接 到 计 
算 机 和 其 他 设备 。 这 其 中 也 介绍 了 通用 设备 和 了 驱动 程序 模型 ， 该 模型 向 内 核 和 用 户 空间 应 用 程序 提供 
了 可 用 资源 的 统一 视图 。 
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G 针对 补丁 的 日 期 ， 新 的 USB 层 开发 者 将 这 次 重 写 称 之 为 “USB 十 月 革 合 ”…… 





模 块 


























人 、 文 件 系 统 及 其 他 组 件 的 有 效 方法 ， 而 无 需 连 编 节 
内 核 或 重启 系统 。 模 块 消除 了 宏 内 核 的 许多 限制 ,这 些 限 制 总 是 被 (特别 是 微 内 核 支 持 者 ) 
当做 反对 宏 内 核 的 论据 。 这 些 论据 主要 涉及 缺乏 动态 可 扩展 性 的 问题 。 在 本 章 中 ， 我 们 将 讨论 内 核 与 
模块 交互 的 方式 。 换 句 话说， 模块 如 何 装载 和 仓 载 ， 以 及 内 核 如 何 检测 不 同 模块 之 间 的 相互 依赖 。 医 
而 必须 掌握 模块 二 进 制 文件 (及 其 ELF 格 式 ) 的 结构 。 


7.1 概述 


模块 有 许多 优点 ，" 以 下 一 些 特别 值得 提 及 。 
口 通过 使 用 模块 ， 内 核发 布 者 能 够 预先 编译 大 量 驱 动 程序 ， 而 不 会 致使 内 核 映 像 的 尺寸 发 生 脱 
胀 。 在 自动 检测 硬件 或 用 户 提示 之 后 ， 安 装 例 程 选择 适当 的 模块 并 将 其 添加 到 内 核 中 。 
这 使 得 即使 不 熟练 的 用 户 也 能 够 为 系统 设备 安装 驱动 程序 ， 而 无 需 连 编 新 内 核 。 这 在 Linux 系 
统 获得 广泛 接受 的 过 程 中 ， 是 一 个 重大 进展 〈 甚 至 可 以 称 之 为 先决 条 件 )。 
口 内 核 开 发 者 可 以 将 试验 性 的 代码 打包 到 模块 中 ， 模 块 可 以 卸载 ， 修 改 代 码 或 重新 打包 后 可 以 
EE 新 装载 。 这 使 得 可 以 快速 测试 新 特性 ， 无 需 每 次 都 重启 系统 。” 
许可 证 问题 也 可 以 借助 于 模块 来 解决 。 众 所 周知 ，Linux 内 核 源 代码 的 许可 证 为 GNU GPL v2 
(General Public License，Version 2)， 是 第 一 批 和 最 广泛 使 用 的 开源 许可 证 之 一 。 一 个 主要 问题 是 下 
述 事实 : 这 可 能 是 合理 合法 的 ， 也 可 能 不 是 ， 许 多 硬件 生产 商 对 控制 其 附加 设备 所 需 的 文档 保密 ， 或 
要 求 开 发 者 签署 保密 协议 ， 开 发 者 得 遵守 协议 内 容 ， 对 使 用 相关 文档 信息 开发 的 源 代 码 保守 秘密 ， 
向 公众 公开 。 这 意味 着 驱动 程序 无 法 包含 到 正式 的 内 核 源 代码 中 ， 后 者 的 源 代 码 总 是 开放 的 。 
通过 使 用 只 提供 编译 后 形式 、 不 提供 源 代 码 的 二 进 制 模块 ， 可 以 解决 这 个 问题 ， 至 少 从 技术 
来 看 是 这 样 。 使 用 这 种 方法 控制 专 有 硬件 是 可 能 的 ， 但 大 多 数 内 核 开 发 者 对 此 并 不 高 兴 ， 因 为 使 用 
放 代 码 有 许多 优点 。Linux 内 核 的 风 麻 一时， 无 颖 是 一 个 首要 的 例子 。 
模块 可 以 几乎 无 颖 地 插入 到 内 核 ， 如 图 7-1 所 示 。 模 块 代 码 导 出 一 些 函数 ， 可 以 由 其 他 核心 模块 
〈 以 及 持久 编译 到 内 核 中 的 代码 ) 使 用 。 在 模块 代码 需要 卸载 时 ， 模 块 和 内 核 剩余 部 分 之 间 的 关联 ， 
当然 可 以 终止 。 我 将 在 下 面 的 几 节 讨论 相关 技术 细节 。 
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Q 也 有 一 些 缺 点 。 但 缺点 都 相对 次 要 ， 它 们 几乎 没有 不 恨 影 响 。 

@@ 当然 ， 除 非 系统 在 此 期 间 崩溃 在 开发 驱动 程序 时 ， 这 是 可 能 发 生 的 )。 

@ 为 对 抗 许可 证 纯化 论 者 提出 的 批评 :GPL 当然 并 不 代表 开源 软件 ， 而 是 代表 自由 软件 。 但 由 于 相关 细节 是 法 律 问 
题 ， 而 不 涉及 技术 ， 我 在 这 里 不 会 讲解 这 些 。 
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I 核 空间 


























insmod rmmod j 户 空间 


图 7-1 内核 中 的 模块 











7.2 ”使 用 模块 


Pe eh RA, 这 些 通常 由 modqutils 工 具 包 调 用 ， 后 者 在 几乎 每 个 系统 上 
都 会 安装 。 


7.2.1 添加 和 移 除 


从 用 户 的 角度 来 看 ， 模 块 可 以 通过 两 个 不 同 的 系统 程序 添加 到 运行 的 内 核 中 。 它 们 分 别 是 
modprobe 和 jinsmod。 前 者 考虑 了 各 个 模块 之 间 可 能 出 现 的 依赖 性 〈 在 一 个 模块 依赖 于 一 个 或 多 个 合 
作者 模块 的 功能 时 )。 相 比 之 下 ，insmod 只 加 载 一 个 单一 的 模块 到 内 核 中 ， 而 该 模块 可 能 只 信赖 内 核 
中 己 存 在 的 代码 ， 并 不 关注 所 依赖 的 代码 是 通过 模块 动态 加 载 ， 还 是 持久 编译 到 内 核 中 。 

modprobe 在 识别 出 目标 模块 所 依赖 的 模块 之 后 ， 在 内 核 也 会 使 用 insmod。 在 讨论 其 实现 方式 之 
前 ， 我 首先 讲述 insmoaq 的 运作 模式 ， 在 用 户 空 间 对 模块 的 处 理 即 基于 insmod。 

在 加 载 模块 时 所 需 的 操作 ， 与 通过 1d 和 1d.so 借 助 于 动态 库 链 接应 用 程序 的 操作 ， 二 者 表现 出 了 
很 强 的 相似 性 。 从 外 部 看 来 ， 模 块 只 是 普通 的 可 重 定位 目标 文件 ，file 调 用 可 以 很 快 证 实 这 一 点 : 


wolfgang@meitner> file vfat.ko 
vfat.ko: ELF 64-bit LSB relocatable, x86-64, version 1 (SYSV), not stripped 


当然 ， 模 块 既 不 是 可 执行 文件 ， 也 不 是 系统 程序 设计 中 常见 的 程序 库 。 但 二 进 制 模块 文件 的 基本 
结构 ， 是 基于 可 执行 文件 和 程序 库 所 采用 的 同样 方案 。 

file 命 令 的 输出 表明 模块 文件 是 0D 0 DOD 的, 这 是 用 户 空 间 程序 设计 中 一 个 熟悉 的 术语 .DODD 
D 文件 的 函数 都 不 会 引用 绝对 地 址 ， 而 只 是 指向 代码 中 的 0 口 口 口 ， 因 此 可 以 在 内 存 的 任意 偏 移 地 址 
加 载 ， 当 然 ， 在 映像 加 载 到 内 存 中 时 ， 了 映像 中 的 地 址 要 由 动态 链接 器 1dq. so 进行 适当 的 修改 。 内核 模 
块 同样 如 此 。 其 中 的 地 址 也 是 相对 的 ， 而 不 是 绝对 的 。 但 重 定位 的 工作 由 内 核 自 身 执 行 ， 而 不 是 动态 
装载 器 。 

而 在 较 早 的 内 核 版 本 《直至 内 核 版 本 2.4) 中 ， 模 块 的 装载 是 一 个 多 步 过 程 〈 在 内 核 中 分 配 内 存 ， 
接 下 来 在 用 户 空 间 中 对 数据 重 定位 ， 最 后 将 二 进 制 代码 复制 到 内 核 中 )， 现 在 只 需要 一 个 系统 调用 
init_module， 即 可 在 内 核 中 完成 所 有 的 操作 。 
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Q 请 注意 ， 在 内 核 版 本 2.5 开 发 期 间 ， 开 发 者 对 模块 的 实现 进行 了 完全 地 修订 。 用 户 空间 接口 与 旧版 本 完全 不 同 ， 这 
还 迫使 他 们 完全 重 写 了 modutils。 
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在 处 理 该 系统 调用 时 ， 模 块 代码 首先 复制 到 内 核 内 存 中 。 接 下 来 是 重 定位 工作 和 解决 模块 中 未 定 
义 的 引用 。 因 为 模块 使 用 了 持久 编译 到 内 核 中 的 函数 ， 在 模块 本 身 编译 时 无 法 确定 这 些 函数 的 地 址 ， 
所 以 需要 在 这 里 处 理 未 定义 的 引用 。 

处 理 未 解决 的 引用 

为 与 内 核 的 剩余 部 分 协作 ， 模 块 必须 使 用 内 核 提供 的 函数 。 这 些 可 能 是 通用 的 辅助 函数 ， 比 如 几 
乎 内 核 每 一 部 分 都 会 使 用 的 printk 或 malloc。 还 必须 使 用 与 模块 功 角 ramfs 
模块 允许 在 内 存 中 建立 一 个 文件 系统 〈 通 常 称 之 为 RAM 和 磁盘 ), (类 似 于 任何 其 他 实现 文件 系统 的 代 
码 ) 因而 必须 调用 register_filesystem 函 数 将 自身 添加 到 内 核 中 可 用 文件 系统 的 列表 。 该 模块 还 使 
用 了 内 核 代 码 中 的 generic_file_read 和 generic _file_write 标 准 函 数 (还 有 其 他 的 函数 )， 大 多 数 
内 核 文 件 系 统 都 会 使 用 这 些 。 
在 用 户 空间 中 使 用 库 时 ,会 发 生 相 似 的 情况 。 程 序 使 用 定义 在 外 部 库 中 的 函数 时 ,会 在 二 进 制 代 
码 中 存储 指向 相关 函数 的 指针 ， 而 不 是 函数 自身 的 实现 。 当 然 ， 其 他 符号 类 型 〈 如 全 局 变量 ) 是 可 以 
存储 的 ， 但 函数 不 行 。 在 程序 链接 〈 使 用 1a) 时 会 解决 对 静态 库 的 引用 ， 而 二 进 制 文件 装载 时 《使 用 
1d.so) 会 解决 对 动态 库 的 引用 。 

nm 工具 可 用 于 产生 模块 (或 任意 目标 文件 ) 中 所 有 外 部 函数 的 列表 。 以 下 伪 
模块 使 用 的 若干 被 列 为 外 部 引用 的 函数 : 


wolfgang@meitner> nm romfs.ko 
U generic read dir 
U generic ro_fops 






























































































































































































































































































































































da 


子 中 ， 给 出 了 romfs 



































U printk 


U register_filesystem 























输出 中 的 vo 代表 0 0 0 的 引用 。 要 注意 ， 如 果 内 核 连 编 时 没有 启用 KALLSYMS_ALL， 则 输出 中 不 会 
有 generic_ro_fops。 这 种 情况 下 ， 只 会 看 到 表示 函数 的 符号 ， 而 其 他 符号 如 generic_ro_fops 这 样 
的 常数 结构 不 会 看 到 。 

很 明显 这 些 函 数 定义 在 内 核 的 基础 代码 中 ， 因 而 已 经 加 载 到 内 存 。 但 如 何 找 到 与 相关 函数 名 称 匹 
配 的 地 址 ， 以 便 解 决 这 些 引 用 呢 ? 为 此 ， 内 核 提供 了 一 个 所 有 导出 函数 的 列表 。 该 列表 给 出 了 所 有 导 
出 函数 的 内 存 地 址 和 对 应 函数 名 ， 可 以 通过 proc 文 件 系 统 访问 ， 即 文件 /proc/kallsyms": 


wolfgang@meitner> cat /proc/kallsyms /| grep printk 
ffffffff80232a7f T printk 


上 述 例 子 中 的 函数 引用 可 以 使 用 以 下 信息 完全 解决 ， 这 些 都 保存 在 内 核 的 符号 表 中 : 


fffffc0000324aa0 T printk 
fffffc00003407e0 T generic file write 
ffffffff8043c710 R generic ro_fops 
fffffc0000376d20 T register_ filesystem 


T 表 示 符 号 位 于 代码 段 ， 而 D 表 示 符 号 位 于 数据 段 。 有 关 目 标 文件 的 布局 ， 更 多 信息 请 参考 附录 E。 
逻辑 上 , 不 同 的 内 核 配 置 或 处 理 器 ,都 会 影响 到 符号 表 中 的 信息 。 上 述 例 子 中 ,使 用 的 是 AMD64 
系统 。 如 果 在 使 用 IA-32 CPU 的 系统 上 搜索 符号 表 ， 产 生 的 输出 如 下 : 
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Q 请 注意 ， 因 为 引用 的 解决 是 在 内 核 中 完成 ， 而 不 是 在 用 户 空间 ， 该 文件 只 用 于 提供 相关 的 信息 ，moqdutils 不 会 使 
该 文件 。 
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c0119290 T printk 

c012b7b0 T generic read dir 
c0129fc0 D generic ro_fops 
c0139340 T register_ filesystem 


输出 的 地 址 不 仅 短 〔 毕 竞 ，IA-32 使 用 的 字 长 为 32 位 )， 而 且 在 逻辑 上 指向 不 同 的 位 置 。 
7.2.2 ”依赖 关系 

一 个 模块 还 可 以 依赖 一 个 或 多 个 其 他 模块 。 我 们 来 看 vfat 模 块 ， 它 依赖 Eat 模块， 后 者 包含 了 几 
个 函数 ， 其 实现 在 该 文件 系统 的 两 种 变 体 之 间 没 有 区 别 。? 从 目标 文件 vfEat .o 来 看 ， 这 意味 着 有 些 代 
码 引用 了 fat.o 中 定义 的 函数 。 这 种 方法 的 优点 很 显然 。 因为 处 理 VFAT 文 件 系统 的 代码 只 有 少量 例 程 
与 FAT 文 件 系统 的 代码 不 同 ， 因 此 两 个 模块 可 以 共享 很 大 一 部 分 代码 。 这 不 仅 降 低 了 对 系统 内 存 的 空 
间 需 求 ， 还 使 得 源 代码 更 短 、 可 读 性 更 好 、 更 容易 维护 。 

nm 很 清楚 地 说 明了 这 种 情况 : 


wolfgang@meitner> nm vfat.ko 











































































































































































































U fat_alloc new_dir 
U fat_attach 
wolfgang@meitner> nm fat.ko 


0000000000001bad T fat_alloc new dir 
0000000000004a67 T fat_attach 





我 选择 了 两 个 例子 : fat_alloc_new_dir 和 fat_attach (fat 还 提供 了 许多 其 他 函数 供 vfat 使 
用 )。nm 的 输出 表明 ， 在 vfat 模 块 中 这 两 个 函数 列 为 未 解决 的 引用 ， 而 在 fat.o 中 ， 输 出 给 出 了 函数 
在 目标 文件 中 的 地 址 (尚未 重 定位 )。 
当然 ， 将 这 些 地 址 直接 填 到 vfat .ko 的 目标 代码 中 是 没有 意义 的 ， 因 为 在 fat .ko 加 载 到 内 存 时 会 
进行 重 定 位 ， 这 些 函 数 在 内 存 中 的 地 址 与 目标 文件 中 是 完全 不 同 的 。 我 们 更 感 兴趣 的 是 ， 在 问 内 核 添 
加 了 fat 模 块 0 口 这 些 函 数 的 地 址 。 该 信息 通过 /proc/kallsyms 导 出 到 用 户 空间 ， 内 核 中 仍然 直接 保 
存 了 一 份 。 对 于 内 核 中 持久 编译 的 代码 和 随后 添加 的 模块 导入 的 代码 ， 有 一 个 数组 ， 其 数组 项 用 于 将 
符号 分 配 到 虚拟 地 址 空间 中 对 应 的 地 址 。 

在 向 内 核 添加 模块 时 ， 需 要 考虑 下 列 相关 问题 。 

口 内 核 提 供 的 函数 符号 表 ， 可 以 在 模块 加 载 时 动态 扩展 其 长 度 。 读 者 在 下 文 会 看 到 ， 模 块 可 以 

虽 定 其 代码 中 哪些 函数 可 以 导出 ， 哪 些 函 数 仅 供 内 部 使 用 。 

口 如 果 模 块 之 间 有 相互 依赖 ， 那 么 向 内 核 添 加 模块 的 顺序 很 重要 。 例 如 ， 如 果 试 图 在 fat 之 前 向 
内 核 装 载 vfat 模 块 将 会 失败 ， 因 为 若干 函数 引用 的 地 址 无 法 解决 〈 相 应 的 代码 无 法 运行 )。 

如 果 用 户 没 有 意识 到 模块 间 依赖 关系 的 具体 结构 ， 那 么 在 动态 扩展 内 核 期 间 ， 模 块 依赖 关系 可 能 
使 情况 变 得 极其 复杂 。 尽 管 在 我 们 的 例子 中 并 不 存在 这 样 的 问题 ， 或 者 至 少 对 于 感 兴趣 且 精 通 技术 的 
用 户 是 这 样 。 但 如 果 模 块 之 间 有 复杂 的 依赖 关系 ， 找 到 正确 的 模块 装载 顺序 可 能 比较 费力 。 因 而 需要 
一 种 自动 分 析 模 块 之 间 依 赖 关 系 的 手段 。 

modutils 标 准 工 具 集 中 的 depmogd 工 具 可 用 于 计算 系统 的 各 个 模块 之 间 的 依赖 关系 。 每 次 系统 启 


















































































































































































































































































































































GD FAT (文件 分 配 表 ，file allocation table) 是 一 种 非常 简单 的 文件 系统 ， 由 MS-DOS 使 用 ， 现 在 仍然 用 于 软磁盘 。vfat 
是 对 FAT 的 《最 低 限 度 ) 增强 ， 其 基本 结构 相同 ， 但 支持 长 达 255 字 节 的 文件 名 ， 文 件 名 不 再 有 旧 的 8 + 3 限制 。 



























































72 0U000 381 








动 时 或 新 模块 安装 后 ， 通 常 都 会 运行 该 程序 。 找 到 的 依赖 关系 保存 在 一 个 列表 中 。 默 认 情 况 下 ， 写 入 
文件 /1ib/modules/version/modules .dep。 其 格式 也 不 复杂 。 首 先是 目标 模块 的 二 进 制 文 件 名 称 ， 
接 下 来 是 为 正确 执行 目标 模块 ， 包 含 了 所 需 代 码 的 所 有 模块 的 文件 名 。vfat 模 块 的 列表 项 如 下 所 示 : 


wolfgang@meitner> cat modules.dep | grep vfat 
/lib/modules/2.6.24/kernel/fs/vfat/vfat.ko: /lib/modules/2.6.24/kernel/fs/fat/fat.ko 


该 信息 由 modprobe 处 理 ， 该 工具 在 现存 的 依赖 关系 能 够 自动 解决 的 情况 下 向 内 核 插 入 模块 。 其 
方法 很 简单 : modprobe 读 入 依赖 文件 的 内 容 ， 搜 索 描 述 目 标 模块 的 行 ， 搜集 并 建立 所 有 依赖 模块 的 列 
表 。 因 为 这 些 模 块 可 能 还 依赖 其 他 模块 ， 所 以 需要 在 依赖 文件 中 搜索 对 应 的 项 ， 然 后 检查 各 个 对 应 项 
的 内 容 。 该 过 程 会 一 直 持 续 下 去 ， 直 至 确认 所 有 直接 或 间接 ) 依赖 模块 的 名 称 。 将 所 有 涉及 的 模块 
插入 到 内 核 的 实际 任务 ， 则 委托 给 insmogd 工 具 。" 

我 们 最 感 兴趣 的 问题 仍然 没有 得 到 解答 。 如 何 识别 模块 之 间 的 依赖 关系 呢 ? 在 解决 该 问题 时 ， 
depmogd 没 有 采用 内 核 模 块 的 特性 ， 只 是 使 用 了 上 文 给 出 的 信息 。 使 用 nm 工具 ,不 仪 可 以 从 模块 读 取 该 
信息 ， 还 可 以 从 普通 的 可 执行 文件 或 库 中 读 取 。 
depmod 分 析 所 有 可 用 的 模块 的 二 进 制 代 码 ， 对 每 个 模块 建立 一 个 列表 ， 包 含 所 有 已 定义 符号 和 
未 解决 的 引用 ， 最 后 将 各 个 模块 的 列表 彼此 进行 比较 。 如 果 模 块 A 包含 的 一 个 符号 在 模块 B 中 是 未 解 
决 的 引用 ， 则 意味 着 模块 B 依 赖 模块 A， 接 下 来 在 依赖 文件 中 以 B : A 的 形式 增加 一 项 ， 即 确认 了 上 述 
事实 。 模 块 引用 的 大 多 数 符号 都 定义 在 内 核 中 ， 而 不 是 定义 在 其 他 模块 中 。 因 此 ， 在 模块 安装 时 产生 
本 文件 /1ib/modules/version/System.map〔( 同 样 使 用 depmod)。 该 文件 列 出 了 内 核 导 出 的 所 有 
符号 。 如 果 其 中 包含 了 某 个 模块 中 未 解决 的 引用 ， 那 么 该 引用 就 不 成 问题 了 ， 在 模块 装载 时 引用 将 自 
动 解决 。 如 果 未 解决 的 引用 无 法 在 该 文件 或 其 他 模块 中 找到 ， 则 模块 不 能 添加 到 内 核 中 ， 因 为 其 中 引 
了 外 部 函数 ， 而 又 找 不 到 实现 。 

7.2.3 查询 模块 信息 

还 有 一 些 额外 的 信息 来 源 ， 是 直接 存储 在 模块 二 进 制 文 件 中 ， 并 且 指 定 了 模块 用 途 的 文本 描述 。 
这 些 可 以 使 用 moqutils 中 的 modinfo 工 具 查 询 。 它 们 可 以 存储 以 下 各 种 数据 项 。 

口 该 驱动 程序 的 开发 者 ， 通 常 带 有 电子 邮件 地 址 。 该 信息 很 有 用 ， 特 别 是 对 于 错误 报告 (还 能 
给 开发 者 带 来 一 些 个 人 的 满足 感 )。 

口 驱动 程序 功能 的 简短 描述 。 

口 可 以 传递 给 模块 的 配置 参数 ， 可 能 有 对 参数 语义 的 确切 描述 。 

口 指定 支持 的 设备 (例如 ，f£fa 模 块 支 持 的 是 软盘 )。 

口 该 模块 按 何 种 许可 证 分 发 。 

模块 信息 还 可 以 提供 一 个 独立 的 列表 ， 给 出 该 驱动 程序 文 持 的 不 同 设备 类 型 。 

使 用 mogdinfo 工 具 查 询 模 块 信息 并 不 困难 ， 如 下 所 示 : 


wolfgang@meitner> /sbin/modinfo 8139too 















































































































































































































































































































































































































































































































































































































































filename: /lib/modules/2.6.24/kernel/drivers/net/8139too.ko 
version: 0,9.28 

license: GPL 

description: RealTek RTL-8139 Fast Ethernet driver 

author: Jeff Garzik <jgarzik@pobox.com> 

srcversion: 1DO3CC1F1622811EB8ACD9E 

alias: pci:v*d00008139sv000013D1sd0000AB06bc*sc*i* 

















GO 当然 ， 还 必须 检查 模块 是 否 已 经 添加 到 内 核 ， 这 样 就 不 必 再 添加 了 。 




























































































382 [0U5ZU DO [0 
alias: pci:v000010ECd00008139sv*sd*bc*sc*i* 
dependgds: 
vermagic: 2.6.24 SMP mod_ unload 
parm: debug:8139too bitmapped message enable number (int) 
parm: multicast_ filter limit:8139too maximum number of filtered multicast addresses 
(int) 
parm: media:8139too: Bits 4+9: force full duplex, bit 5: 100Mbps (array of int) 
parm: full_duplex:8139too: Force full duplex for board(s) (1) (array of int) 
内 核 并 不 要 求 开发 者 为 每 个 模块 都 提供 该 信息 ,不 过 这 是 良好 的 程序 设计 惯例 ， 新 的 驱动 程序 应 
该 遵守 该 惯例 。 许 多 旧 的 模块 不 能 提供 上 述 全 部 字段 发 者 通常 也 乐于 省 去 参数 的 详细 描述 。 但 大 
多 数 情况 下 ， 都 会 有 简短 的 描述 、( 主 要 ) 开发 者 的 名 字 、 分 发 该 驱动 程序 的 软件 许可 证 。 








这 些 额 外 的 信息 如 何 合 























并 到 二 人 下 呢 ? 在 所 有 使 











(和 



































jELF 格 式 〈 参 见 附录 E) 的 二 进 制 











文件 中 ， 有 各 种 单元 将 二 进 制 数据 组 织 到 不 同类 别 中 ， 这 些 在 技术 上 称 之 为 0 。 为 允许 在 模块 中 添加 





言 息 


月 已? 


透明 的 





内 核 引 入 了 一 个 名 为 .modinfo 的 段 
一 组 简单 的 宏 ， 





， 因 为 内 核 提 供 





改变 代码 的 行为 ， 因 为 


为 什么 模块 许可 证 的 有 关 
因为 内 核 源 代码 使 月 
在 这 方面 ，GPL 许 可 


人 





问题 。 


律 上 的 。 























这 最 好 留 给 大 型 软件 厂 


数 ( 与 











了 
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有 处 理 模块 但 对 























此 相反 ， 还 有 











些 内 核 函 数 ， 





限定 的 


是 它 需 要 检查 许可 证 并 拒 纪 


人 


标准 内 核 函数 集合 是 完全 够 用 
上 ， 采 用 某 些 许可 证 的 模块 是 禁止 这 样 做 的 。modprobe 在 使 用 新 模块 时 ， 必 须 考虑 到 这 种 情形 。 这 也 


























大 多 数 开发 者 (以 


于 调试 内 核 代码 ， 
新 功能 。 这 里 ， 
通路 上 已 经 发 生 、 





因特网 















































岂 对 进行 中 的 驱动 程序 
我 无 意 浪 费 读者 的 时 间 来 讨论 许多 (异化 的 ) 








参见 附录 F)。 


7.2.4 


自动 加 载 

















通常 ， 模 块 的 装载 发 起 于 用 


户 空间 ， 























证 多 少 有 些 难 了 
商 的 法 律 部 门 。 
































役 。 读者 在 下 文 会 看 到 ， 这 个 过 程 对 模块 的 程序 员 来 说 是 相对 
j 于 向 二 进 制 文件 插入 数据 。 当 然 ， 附 加 信息 的 存在 并 不 会 
该 信息 不 感 兴趣 的 程序 都 会 
言 息 保存 在 二 进 制 文 件 中 ? 其 原因 不 是 技术 上 的 〈 令 人 遗憾 )， 而 是 法 
的 是 GNU GPL 许可 证 ， 对 于 使 用 上 只 发 布 二 进 制 代 码 的 模块 ， 有 几 个 法 律 

















忽略 .modqinfo 段 。 
































F 解 释 。9 因 此 ， 在 这 里 我 不 打算 讨论 法 律 上 的 微 言 大 义 ， 














只 要 知道 这 些 就 够 了 : 这 样 的 模块 只 能 使 用 明确 限定 的 内 核 函 


























明确 限定 只 能 用 于 GPL 兼容 的 模块 )。 在 编写 标准 的 驱动 程序 时 ， 






































的 ， 但 如 果 模块 想 要 深入 到 内 核 中 ， 则 必须 使 用 其 他 函数 。 法 律 








6 非法 链接 操作 的 原因 。 
及 用 户 ) 对 一 些 厂 商 以 二 进 制 模块 发 布 驱动 程序 都 不 怎么 高 兴 。 这 不 仅 使 得 难 

























































































发 工作 有 不 民 影 响 ， 基 





























| 商行 为 。 我 只 是 提请 读者 注意 到 各 种 
正在 发 生 、 未 来 无 疑 也 会 发 生 的 不 计 其 数 的 讨论 (不仅 是 在 内 核 邮件 列表 上 ， 


为 必须 依赖 厂商 来 消除 bug 或 实现 






































活性 并 提高 透明 度 ， 内 

















那么 哪里 会 成 为 乌 肘 





核 自 身 也 能 够 请 求 力 
之 处 呢 ? 





[0 载 模块 。 








只 要 内 核能 够 访问 二 进 制 代码 ， 
































难 。 但 如 果 没 有 用 户 空间 的 帮助 ， 内 核 也 无 法 完 E 成 该 工作 。 必 须 在 文件 系统 中 定位 该 二 进 制 文件 ， 并 
间 容 易 得 多 ， 内 核 将 该 工作 委托 给 一 个 





且 必 须 解决 依赖 关系 。 


进程 kmod。 要 注意 ，Jkamodj 
我 们 考察 一 个 场景 ， 


核 中 ， 











只 以 模块 的 形式 




















于 7 








提供 。 


E 用 户 空 











如 果 用 


间 完 成 这 些 比 内 核 空 








户 发 


用 户 或 自动 化 脚本 启动 。 











在 处 理 模 块 时 ， 为 达到 更 大 的 灵 











那么 将 其 加 载 到 内 核 空间 并 不 困 
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个 加 














并 不 是 一 个 永久 性 的 守护 进程 ， 内 核 会 按 需 启动 它 。 


来 说 明 从 内 核发 起 模块 装载 的 优点 。 假 和 


上 以 下 命令 装载 一 个 软盘 


wolfgang@meitner> mount -t vfat /dev/fd0 /mnt/floppy 





中 


一 些 程序 员 表 示 ，GPL 的 解释 ， 比 按 该 许可 证 发 布 的 程序 还 多 。 











定 VFAT 文 件 系统 没有 持久 集成 到 内 
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在 vfat 模 块 载 入 内 核 ] 0 ， 通 常会 返回 一 个 错误 信息 ,表明 不 支持 对 应 的 文件 系统 ， 因 为 内 核 中 
没有 注册 ,但 实际 上 情况 不 是 这 样 。 即使 该 模块 没有 装载 , 软盘 仍然 可 以 装载 , 没有 任何 问题 ,在 mount 
调用 结束 时 ， 所 需 的 模块 已 经 调 入 内 核 了 。 
这 是 如 何 完 成 的 ? 在 内 核 处 理 mount 系 统 调用 时 ， 它 发 现在 其 数据 结构 中 没有 所 需 文件 系统 vfat 
的 信息 。 因 而 它 试 图 使 用 request_module 函 数 加 载 对 应 的 模块 ， 该 函数 将 在 7.4.1 节 讨论 。 该 函数 使 













































































































































































jkmod 机 制 启动 modprobe 工 具 ，modprobe 接 下 来 按照 惯例 插入 vfat 模 块 。 换 句 话 说 ， 内 核 依赖 于 用 
户 空 间 中 的 一 个 应 用 程序 使 用 内 核 函 数 来 添加 模块 ， 如 图 7-2 所 示 。 
多 


modprobe 一 天 ” 查找 模块 一 一 > request_module 
图 7-2 ”自动 装载 模块 


完成 这 之 后 ， 内 核 再 次 试图 获取 所 需 文件 系统 的 信息 。 由 于 modprobe 调 用 ， 该 信息 现在 已 经 保 
存在 内 核 的 数据 结构 中 , 当然 前 提 是 该 模块 实际 存在 。 否则 , modprobe 系 统 调用 会 返回 对 应 的 错误 码 。 

内 核 源 代码 中 ， 很 多 不 同 地 方 调用 了 request_module。 借 助 该 函数 ， 内 核 试图 通过 在 没有 用 户 
介入 的 情况 下 自动 加 载 代码 ， 使 得 尽 可 能 透明 地 访问 那些 委托 给 模块 的 功能 。 

可 能 出 现 这 样 的 情况 : 无 法 唯一 确定 哪个 模块 能 够 提供 所 需 的 功能 。 考 虑 将 一 个 USB 存 储 棒 添 加 
到 系统 时 的 情形 。 窒 主机 控制 器 驱动 程序 识别 出 新 设备 。 所 需 装载 的 模块 是 usb-storage， 但 内 核 如 
何 知道 这 一 点 ?问题 的 答案 是 ， 附 加 到 每 个 模块 的 一 个 小 “数据 库 ” 数据 库 的 内 容 描 述 了 该 模块 所 
支持 的 设备 。 对 于 USB 设 备 ， 数 据 库 的 信息 包括 所 支持 接口 类 型 的 列表 、 厂 商 了 D 或 能 够 标识 该 设备 的 
任意 类 似 信息 。 男 一 个 例子 是 为 PCI 设 备 提供 驱动 程序 的 模块 ， 也 使 用 了 与 设备 关联 的 唯一 JD。 这 种 
模块 提供 了 所 有 支持 设备 的 列表 。 

数据 库 信 息 通 过 0 DDD (module aliase) 提供。 这 些 是 模块 的 通用 标识 符 ， 其 中 编码 了 所 描述 
的 信息 。 宏 MoDULE_ALIAS 用 于 产生 模块 别名 。 


<modules.h> 
/* 一 般 性 信息 ， 形 式 为 tag = " info " */ 
#define MODULE _ INFO(tag, info) _ MODULE_ INFO(tag, tag, info) 



























































































































































































































































/* 用 户 空间 也 可 以 使 用 */ 
#define MODULE_ALIRAS(_alias) MODULE_INFO(alias, _alias) 











<moduleparam.h> 
#define _ MODULE_ INFO(tag, name, info) \ 














static const char _ module cat(name,_ LINE )I[] \ 
__attribute used _\ 
_ attribute ((section(".modinfo"),unused)) = _ stringify(tag) "=" info 














MODULE_ALIRAS 提 供 的 别名 保存 在 模块 二 进 制 文件 的 .modinfo 段 中 。 如 果 一 个 模块 提供 了 几 个 不 
同 的 服务 ， 则 直接 插入 适当 的 别名 。 例 如 ， 同 一 模块 包含 JRAID 4、RAID 5、RAID 6 的 代码 情况 。 


drivers/md/raid5.c 

MODULE_ALIRAS ( "mdq-Personality-4"); /* RAIDS */ 
MODULE LIAS ("md-raid5"); 

MODULE_ALIAS ("md-raid4"); 

MODULE_ALIAS ("md-level-5"); 

MODULE_ALIAS ("md-level-4"); 

MODULE_ALIAS ("md-personality-8"); /* RAID6 */ 







































































































































































384 DD 70 DO 

MODULE ALIRAS ("md-raid6"); 

MODULE _ALIRAS ("md-level-6"); 

比 直 接 别 名 更 重要 的 是 设备 数据 库 。 内 核 提 供 了 宏 MODULE_DEVICE_TABLE 来 实现 这 样 的 数据 库 。 

上 文 给 出 的 8139too 模 块 的 设备 表 是 由 以 下 代码 创建 的 : 

drivers/net/8139too.c 

static struct pci_dqevice_idq rt18139 pci tbl[] = { 
{0xl0ec, 0x8139, PCI_ANY_ID, PCI_ANY_ID, 0, 0, RTL8139 }, 
{0xl0ec, 0x8138, PCI_ANY_ID, PCI_ANY_ID, 0, 0, RTL8139 }, 
{Ox1113, Ox1211, PCI_ANY ID; PCI_ANY TD, 0, 0, RTLS8139 }; 
{PCI_ANY_1D; OQ0x8139; 0xl3d1; 0xab067 07 0; RTL8139 }; 
E03 

}; 

MODULE_DEVICE TABLE (pci, rt18139 pci tbl); 

该 宏 在 模块 二 进 制 文件 中 提供 了 一 个 标准 化 的 名 称 ， 可 根据 该 名 称 访问 设备 表 : 








<module.h> 


#define MODULE_ GEN 














ERIC_TAB 





'E (gtype,name) 





extern const struct gtype# 


_ attribute_ _ 


<module.h> 


#define MODU 
MODULE_GENERIC 





LI 








E_DEVICE_TABL] 





_id _ mod ##gtype##_ table 
(unused, alias(_ stringify (name)))) 


E(type,name) 

















就 PCI 来 说 ， 这 会 产生 ELF 符 号 _ mod_pci_device_table， 这 是 r 
换 脚 本 (scripts/mod/file2alias.c) 会 针对 不 同 总 线 系统 (PCI、USB、 
不 同 ) 解析 设备 表 ， 并 产生 用 作 数 据 库 项 的 MoDUTI 


在 联 编 模块 时 ， 转 ] 
IEEE1394 等 ， 这 些 设 备 表格 式 者 
设备 数据 库 项 ， 而 无 需 复 制 

















得 可 以 像 处 理 模 








析 ELF 文 件 并 完成 一 些 























块 别 名 一 样 处 理 





drivers/net/8139too.mod.c 



































TABLE (type##_device,name) 


\ 




















EE _ ALIAS 项 。 
1 于 转化 过 程 基 本 上 就 是 解 























ET 





字符 串 重 写 ， 我 在 这 里 不 会 非常 











十 绚 








MODULE_ALIAS("pci:v000010ECd00008139sv*sd*bc*sc*i*"),; 
MODULE_ALIAS("pci:v000010ECd00008138sv*sd*bc*sc*i*"),; 
MODULE_ALIAS("pci:v00001113d00001211lsv*sd*bc*sc*i*"),; 
MODULE_ALIAS("pci:v00001743d00008139sv*sd*bc*sc*i*"); 
MODULE_ALIAS("pci:v0000021Bd00008139sv*sd*bc*sc*i*")，; 
MODULE_ALIAS("pci:v*d00008139sv000010ECsd00008139bc*sc*i*")， 
MODULE_ALIAS("pci:v*d00008139sv00001186sd00001300bc*sc*i*")， 
MODULE_ALIAS("pci:v*d00008139sv000013D1sd0000AB06bc*sc*i*"); 








模块 别名 是 解决 自动 装载 模块 问题 的 基础 , 但 该 











持 。 在 内 核 注意 
传递 适当 的 请 求 








到 它 需 要 对 具 























。 该 守护 进 


7.3 插入 和 删除 模块 



































作 〔 特 别 是 























块 也 不 





户 空间 工具 和 内 核 的 模块 实现 之 间 的 接口 ， 
口 init_module: 将 一 个 新 模块 插入 到 内 核 中 。 
外 定位 和 解决 引 
口 delete_module: 从 内 核 移 





使 用 该 模块 丑 





的 


程 接 下 来 寻找 恰当 的 模块 放 




















问题 尚未 完 
有 特定 性 质 的 某 个 设备 加 载 模块 之 后 ， 
和 入 到 内 核 中 。7.4 节 将 讲解 该 机 人 





下 


地 讨论 它 。8139too 模 块 的 














t18139_pci_tbl 的 别名 。 


这 使 








输出 如 下 : 





解决 。 内 核 需 要 











二 
已 需要 








包括 两 个 系统 调用 。 



































用 ) 由 内 核 自 身 印 
除 一 个 模块 。 当 

















党 
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AAA 
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前 提 是 该 模块 的 代码 不 8 








月 











使 


日 ， 


j 户 空间 的 一 些 文 
向 一 个 用 户 空间 守护 进程 
判 的 实现 方式 。 





剖 数 据 。 所 有 其 他 工 

















并 且 其 他 模 
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还 有 一 个 request_module 函 数 (0 0 系统 调用 ), 用 于 从 内 核 端 加 载 模块 。 它 不 仅 用 于 加 载 模块 ， 
还 用 于 实现 热 插 拔 功能 。 
7.3.1 模块 的 表示 

在 详细 讲解 模块 相关 函数 的 实现 之 前 ， 有 必要 解释 如 何在 内 核 中 表示 模块 〈 及 其 属性 )。 照 例 ， 
首先 需要 定义 一 组 数据 结构 。 
其 中 ，module 是 最 重要 的 数据 结构 。 内 核 中 驻 留 的 每 个 模块 ， 都 分 配 了 该 结构 的 一 个 实例 。 其 
定义 如 下 : 




































































<module.h> 
struct module 
{ 


enum module_state state; 

















/* 用 作 模 块 链表 的 链表 元 素 */ 
struct list head list; 


/* 该 模块 的 唯一 句柄 */ 
char name [MODULE_NAME_ LEN]; 


/* 导出 的 符号 */ 

const struct kernel_ symbol *syms; 
unsigned int num syms; 

const unsigned long *crcs; 


/* 只 适用 于 GPL 的 导出 符号 */ 

const struct kernel_symbol *gpl_syms; 
unsigned int num gpl_syms; 

const unsigned long *gpl crcs; 




















/* 在 不 久 的 将 来 会 只 用 于 GPL 的 符号 */ 

Const struct kernel_symbol *gpl_future_syms; 
unsigned int num gpl_ future syms; 

const unsigned long *gpl_ future crcs; 


/* 异常 表 */ 
unsigned int num exentries; 
const struct exception table entry *extable; 


/* 初始 化 函数 。 */ 


int (*init) (void); 
































/* 如 果 不 是 NULL， 则 在 init () 返回 后 调用 vfree 释 放 */ 


void *module_ init; 


/* 这 里 是 实际 的 代码 和 数据 ， 在 务 载 时 调用 vfree 释 放 。 */ 


void *module_core; 


























/* module_init 和 module_core 两 个 内 存 区 的 长 度 */ 
unsigned long init size, core size; 


/* 上 述 两 个 内 存 区 中 可 执行 代码 的 长 度 。 */ 


unsigned long init text_ size, core text_ size; 


/* 模块 特定 于 体系 结构 的 值 */ 


struct mod arch specific arch; 
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上 


unsigned int tain 


#ifdef CONFIG MOD 











/* 引用 计数 */ 
struct module_re 





ts; /* 各 比特 位 的 语义 与 内 核 的 Lainted 相 同 */ 
ULE_UNLOAD 
f ref[INR_CPUS]; 


/* 依赖 当前 模块 的 模块 


struct list head modules which use me; 


/* 等 待 当前 模块 外 载 的 进程 */ 


struct task_struct 


/* 析 构 函数 */ 

















void (*exit) (void); 


#endif 


*waiter; 


#ifdef CONFIG KALLSYMS 
/* kallsyms 的 符号 表 和 字符 串 表 。 */ 


Elf_Sym *symtab; 


unsigned long num symtab; 


char *strtab; 





/* 模块 中 各 段 的 属性 */ 


struct module_sect _ attrs *sect_attrs; 


/* notes 属 性 */ 





struct module notes_attrs *notes_attrs; 


#endif 


/* pet-CPU 数 据 */ 
void *percpu; 


/* 命令 行 参数 (可 能 已 


char *args; 





经 改编 过 ) 。 人 们 喜欢 保留 指向 该 数据 的 指针 */ 


上 述 摘 录 的 源 代码 显示 ， 该 结构 定义 依赖 内 核 配 置 选 项 。 


口 KALLSYMS 是 


输 晶 


出 的 函数 )。 如 果 oops 消 






























































日 与 2 


置 选项 ， 








个 配置 选项 《但 只 用 于 嵌入 式 系统 ,在 普通 计算 机 上 总 是 启用 的 )， 局 用 该 选项 
后 ， 将 在 内 存 中 建立 一 个 列表 ， 保 存 内 核 自 身 和 加 载 模块 中 定义 的 D 口 符号 《和 否则 只 存储 导 
恩 《 如 果 内 核 检测 到 与 背离 常规 的 行为 ， 例 如 反 引 用 NULL 指 针 〉 不仅 
tH 十 六 进 制 数 字 (地址 >， 还 要 输出 涉及 函数 的 名 称 ， 那 么 该 选项 就 很 有 用 。 







































































.5 之 前 的 内 核 版 本 相 比 ， 外 载 模块 的 功能 现在 必须 显 式 配置 。 除 非 启 用 MopULE_UNLORAD 配 





其 他 可 能 与 模块 发 生 交 互 ， 但 





核 。 
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块 1 
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口 KMOD 选 项 使 

















期 间 用 到 。 

















struc 





否则 module 数 据 结构 不 会 包括 所 需 的 附加 信息 。 



































昌 玫 











7.5 节 会 更 详细 地 讨论 该 选项 。 
口 MODULE_FORCE_UNLOAD 人 允许 模块 从 内 核 强 制 移 除 ， 即 使 仍然 有 


并 不 影响 struct module 定 义 的 下 述 配 置 选项 。 
口 MODVERSIONS 启 用 版 本 控制 。 


























该 选项 防止 将 接口 定义 与 当前 版 本 不 再 匹配 的 废弃 模块 载 入 内 


























该 模块 的 地 方 ， 或 其 他 模 









































E 在 使 用 其 代码 ， 也 是 如 此 。 在 系统 正常 运转 时 ， 绝 不 需要 这 种 蛮 干 法 ， 但 它 可 能 在 开发 











内 核 在 需要 模块 时 自动 加 载 。 这 需要 与 用 户 空 间 的 一 些 交 互 ， 在 本 章 下 文 讲 述 。 
t module 成 员 的 语义 如 下 所 示 。 

















口 state 表 示 该 模块 的 当前 状态 ， 可 以 从 枚 举 类 型 modqule_state 取 值 : 
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<module.h> 

enum module_state 

{ 
MODULE_STATE_LIVE, 
MODULE_STATE_COMING, 
MODULE_STATE_GOING, 








3 
在 装载 期 间 ， 状 态 是 MODULE_STATE_COMING。 在 正常 运行 (完成 所 有 初始 化 任务 之 后 时 ， 
状态 是 MODULE_STATE_LIVE。 当 模块 正在 移 除 时 ， 状 态 为 MODULE_STATE_GOING。 

list 是 一 个 标准 的 链表 元 素 ， 由 内 核 使 用 ， 将 所 有 加 载 模 块 保存 到 一 个 双 链 表 中 。 链 表 的 表 
头 是 定义 在 kernel/module.c 的 全 局 变量 modules。 

name 指 定 了 模块 的 名 称 。 该 名 称 必须 是 唯一 的 ， 内 核 中 会 使 用 该 名 称 来 引用 模块 ， 例 如 选择 
将 卸载 的 模块 时 。 一 般 将 模块 二 进 制 文件 的 名 称 去 掉 后 缀 .ko 后 ， 用 于 该 成 员 ， 例 如 VFAI 文 
件 系统 对 应 的 模块 ， 名 称 为 vfat。 

syms、mnum_syms 和 crc 用 于 管理 模块 导出 的 符号 。syms 是 一 个 数组 ， 有 num_syms 个 数组 项 ， 
数组 项 类 型 为 kernel_symbol， 负 责 将 标识 符 (name) 分 配 到 内 存 地 址 (value): 


<module.h> 
struct kernel_symbol 
{ 
























































































































































unsigned long value; 

const char *name; 

crcs 也 是 一 个 num_syms 个 数组 项 的 数组 ， 存 储 了 导出 符号 的 校 验 和 ， 用 于 实现 版 本 控制 ( 参 
见 7.5 节 )。 
在 导出 符号 时 ， 内 核 不 仅 考虑 了 可 以 由 所 有 模块 (不 考虑 许可 证 类 型 ) 使 用 的 符号 ， 还 考虑 
了 只 能 由 GPL 兼容 模块 使 用 的 符号 。 第 三 类 的 符号 当前 仍然 可 以 由 任意 许可 证 的 模块 使 用 , 但 
在 不 和 久 的 将 来 也 会 转变 为 只 适用 于 GPL 模块 。gp1_syms 、num_gp1_syms 和 gp1_crcs 成 员 用 于 
只 提供 给 GPL 模块 的 符号 , 而 gb1_future_syms 、num_gpb1_future_syms 和 gpb1_future_crcs 
用 于 将 来 只 提 供给 GPL 模 块 的 符号 。 它们 的 语义 与 上 文 讨论 的 儿 个 成 员 相 同 , 但 负责 管理 现在 
或 将 来 上 只 提 供给 GPL 兼容 模块 的 符号 。 
还 有 两 组 符号 〈 为 简明 起 见 ， 从 上 文 的 结构 定义 中 略 去 ) 由 结构 成 员 unused_gpl_syms 和 
unused_syms 以 及 对 应 的 计数 器 和 校 验 成 员 描 述 。 这 两 个 数组 用 于 存储 (只 适用 于 GPL) 已 
经 导出 、 但 in-tree 模 块 未 使 用 的 符号 。 在 out-of-tree 模 块 使 用 此 类 符号 时 ， 内 核 将 输出 一 个 警告 
消息 。 
如 果 模 块 定义 了 新 的 异常 (参见 第 4 章 )， 异 常 的 描述 保存 在 extable 数 组 中 。num_exentries 
指定 了 数组 的 长 度 。 
init 是 一 个 指针 ， 指 问 一 个 在 模块 初始 化 时 调用 的 函数 。 

模块 的 二 进 制 数据 分 为 两 个 部 分 : 初始 化 部 分 和 核心 部 分 。 前 者 包含 的 东西 在 装载 结束 后 都 
可 以 丢弃 〈 例 如 ， 初 始 化 函数 )。 后 者 包含 了 正常 运行 期 间 需 要 的 所 有 数据 。 初 始 化 部 分 的 起 
始 地 址 保存 在 module_init， 长 度 为 init_size 字 节 ， 而 核心 部 分 由 module_core 和 
core_size 描 述 。 
arch 是 一 个 特定 于 处 理 器 的 挂钩， 取决 于 特定 的 系统 ， 其 中 可 能 包含 了 运行 模块 所 需 的 各 种 
其 他 数据 。 大 多 数 体系 结构 都 不 需要 任何 附加 信息 ， 因 此 将 struct mod_arch_specific 定 义 
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4 构 ， 编 译 器 在 优化 期 间 会 移 除 掉 。 




















口 waiter 是 一 个 指针 , 指向 导致 模块 外 载 并 且 正 在 等 待 论 
口 exit 与 init 是 对 称 的 。 它 一 个 指针 ， 指 向 的 函数 用 
































块 会 污染 内 核 ， 则 设置 taints。 污 染 意 味 着 内 核 怀疑 该 模块 做 了 一 些 有 害 的 事情 ， 可 
内 核 的 正确 运作 。 人 那么 错误 诊断 也 会 包含 为 什么 内 核 被 污染 的 有 
。 这 有 助 于 开发 者 区 分 来 自 正 常 运行 系统 的 错误 报告 和 包含 某 些 可 疑 因素 的 系统 错误 。 
Eee module 函 数 用 于 设置 struct module 的 给 定 实例 的 taints 成 员 。 模 块 可 能 因 两 个 
原因 污染 内 核 。 
和 如 果 横 块 的 许可 证 是 专 有 的 ， 或 不 兼容 GPL ， 那 么 在 模块 载 入 内 核 时 ， 会 使 用 TRAINT_ 
PROPRIETARY_MODULE。 由 于 专 有 模块 的 源 代码 很 可 能 弄 不 到 ， 内 核 开发 者 不 会 乐于 修改 发 
生 在 可 能 完全 无 关 的 内 核 领域 中 的 pug。 模 块 在 内 核 中 做 的 任何 事情 都 是 无 法 跟踪 的 ， 因 此 
bug 很 可 能 是 模块 3 入 的 。 
要 注意 , 内 核 提供 了 函数 1icense_is_gp1_compatible 来 判断 给 定 许可 证 是 否 与 GPL 兼容 。 


加 


昌 TAINT_FORCED MODULE 表示 该 模块 是 强制 装载 的 。 如 果 模 块 中 没有 提供 版 本 信息 ， 也 称 
作 0DDODDO (version magic), 或 模块 和 内 核 某 些 符 号 的 版 本 不 一 臻 ， 那 么 可 以 请 求 强 第 
装载 。 

license_gplok 是 一 个 布尔 变量 ,指定 了 模块 许可 证 是 否 是 GPL 兼 容 的 。 换 句 话说 ,是否 可 以 

使 用 导出 函数 中 专用 于 GPL 的 那 部 分 。 该 标志 在 模块 插入 内 核 时 设置 。 后 面 将 讨论 册 放 站 何 判 

断 许可 证 是 否 兼容 GPL。 

moqdule_ref 用 于 引用 计数 。 系 统 中 的 每 个 CPU， 都 对 应 到 该 数组 中 的 一 个 数组 项 。 该 项 指定 

了 系统 中 有 多 少 地 方 使 用 了 该 模块 。 用 作 数 组 元 素 类 型 的 nodule_ref 只 包含 一 个 成 员 ， 该 数 

据 类 型 会 对 齐 到 L1 高 速 缓存 : 


<mm.h> 
struct module_ ref 


{ 





























如 并 蓝光 


为 空 拨 
果 
妨 
言 息 
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local_t count; 
} cacheline aligned; 


内 核 提 供 了 try_module_get 和 module_put 函 数 ， 来 对 引用 计数 器 加 1 或 减 1。 如 果 调 用 者 确信 
相关 模块 当前 没有 被 扼 载 , 也 可 以 使 用 _module_get 对 引用 计数 加 1。 相 反 , try_module_get 
会 确认 模块 确实 已 经 加 载 。 


























口 modules_which_use_me 用 作 一 个 链表 元 素 , 将 模块 连接 到 内 核 用 于 描述 模块 间 依 赖 关 系 的 数 








据 结构 中 。7.3.2 节 将 更 详细 地 讲述 相关 内 容 。 


























# 束 的 进程 的 task_struct 实 例 。 
于 在 模块 移 除 时 负责 特定 于 模块 的 清理 工 


























上 好人 
NY 
F 淳 
二 
I 



































作 《 例 如 ， 释 放 分 配 的 内 存 区 域 )。 











口 symtabp、num_symtab 和 strtab 用 于 记录 该 模块 0 0 符号 的 信息 (不 仅 是 显 式 导出 的 符号 )。 
口 percpu 指 向 属 于 模块 的 各 CPU 数 据 。 它 在 模块 装载 时 初始 化 。 
口 args 是 一 个 指针 ， 指 向 装载 期 间 传递 给 模块 的 命令 行 参 数 。 





























中 在 发 生 致命 的 内 部 错误 ， 无 法 恢复 正常 运作 时 ， 则 触发 内 核 恐 慌 。 
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7.3.2 ”依赖 关系 和 引用 


如 果 模 块 B 使 用 了 模块 A 提 供 的 函数 ， 那 么 模块 A 和 模块 B 之 间 就 存在 0 口 。 可 以 用 两 种 不 同 的 方 
式 来 看 这 种 关系 。 

(1) 模块 B 依 赖 模 块 A。 除 非 模块 A 已 经 驻 留 在 内 核 内 存 ， 和 否则 模块 B 无 法 装载 。 

(2) 模块 B 引 用 模块 A。 换 句 话说 ， 除 非 模 块 B 已 经 移 除 ， 否 则 模块 A 无 法 从 内 核 移 除 。 事实 上 ， 条 
件 应 该 是 所 有 引用 模块 A 的 模块 都 已 经 从 内 核 移 除 。 在 内 核 中 ， 这 种 关系 称 之 为 模块 B 使 用 模块 A。 

为 正确 管理 这 些 依 赖 关 系 ， 内 核 需 要 引入 为 一 个 数据 结构 : 


kernel/modules.c 
struct modqule_use 





















































< 

































































{ 
struct list head list; 
struct module *module which uses; 
}3 
依赖 关系 的 网 络 通过 module_use 和 module 数 据 结 构 的 modules_which_use_me 成 员 共同 建立 起 




















来 。 对 每 个 使 用 了 模块 A 中 函数 的 模块 B， 都 会 创建 一 个 nodule_use 的 新 实例 。 该 实例 将 添加 到 模块 
A 的 module 实 例 中 的 modules_which_use_me 链 表 。module_which_uses 指 向 模块 B 的 module 实 例 。 
根据 这 些 信 息 ， 内 核 很 容易 计算 出 使 用 特定 模块 的 其 他 内 核 模 块 。 

上 述 用 语言 描述 的 关系 ， 读 者 可 能 还 不 是 很 清楚 ， 图 7-3 提 供 了 一 个 图 形 化 的 示例 来 说 明 。 


ip nat_ftpl gs._.... iptable nat i ip_conntrack_ftp Ee ip_tables 


| 




































































— module use->list 
modules_which use_ me 








图 7-3 ”管理 模块 之 间 依 赖 关 系 的 数据 结构 


在 本 例 中 ， 我 从 Netfilter 软 件 包 中 选择 了 若干 模块 。 依 吏 关 系 文件 modules .dep 包 含 了 如 下 的 依 
赖 关 系 ， 这 些 是 在 模块 编译 时 发 现 的 ”: 


ip_tables.ko: 



































iptable nat.ko: ip_conntrack.ko ip_tables.ko 

ip_nat_ftp.ko: iptable _ nat.ko ip_tables.ko ip_conntrack.ko 
ip_conntrack.ko: 

ip_conntrack_ftp.ko: ip_conntrack.ko 

















尽管 ijp_nat_ftp 和 ip_conntrack_ftp 依 赖 其 他 几 个 模块 ,但 没有 其 他 模块 依赖 这 两 个 模块 ， 
此 其 module 实 例 的 modules_which_use_me 成 员 是 NULL 指 针 。 











GD 为 提高 可 读 性 ， 我 没有 指定 文件 的 全 路 径 名 ，modules .dep 中 是 按 全 路 径 名 指定 模块 的 。 此 外 ， 例 子 已 经 做 了 一 
些 轻 微 的 简化 。 
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ip_tables 不 依赖 其 他 任何 模块 ， 因 
ip_tables， 分 别 是 ijptable_nat 和 ip_nat_ftp。 分 别 为 这 两 个 模 甘 





这 两 个 实例 放置 到 ip_tables 的 modules_which_use_me 成 员 为 表 头 的 链表 中 
































指针 指向 ip_nat_ftp 和 iptable_nat， 如 图 7-3 所 示 。 


3 个 模块 依赖 ijp_conntrack，ip_conntrack 的 modules_which_use_me 链 甫 


此 可 以 (不 考虑 依赖 ) 直接 载 入 内 核 。 但 有 











页 个 模块 依赖 
创建 了 一 个 module_use 的 实例 。 


Pp。 其 mogdule which_use 


PP 包 含 3 个 module_ 


use 实 例 ， 其 module_which_use 指 针 分 别 指向 ijptable_nat、ip_nat_ftp 和 ip_conntrack_ftp。 








加 
Oe 


ODOOO 
本 


DUOUOUOOOO0O0U0O00D0Umodaules which use melUU0O0O0o0u00o00 
加 








图 装载 一 个 模块 ， 却 








大 














为 依赖 的 模块 不 存在 ， 而 导致 

















| 
如 果 试 
将 返回 错误 码 





放弃 装载 。 但 内 核 却 没有 做 什么 了 








空间 工具 modprobe 的 职责 。 








口 二 本 








yi 


调 





两 次 modprobe， 即 可 将 上 图 显示 的 所 有 模块 插入 内 核 : 





wolfgang@meitner> /sbin/modprobe ip nat_ftp 
wolfgang@meitner> /sbin/modprobe ip conntrack ftp 























在 插入 ip_nat_ftp 时 ， 









































部 分 未 定义 的 符号 
[ 作 ， 来 装载 当前 模块 所 依赖 的 模块 。 这 完全 是 





无 法 解决 ， 


内 核 

















村 户 


于 ip_conntrack、ip_tables 和 iptable_nat 在 modules .dep 中 列 为 
自动 地 添加 到 内 核 。 接 下 来 添加 ip_conntrack_ftp 时 ， 就 


ip_nat_ftp 的 依赖 项 ， 因 而 这 3 个 模块 也 
无 需 再 解决 依赖 关系 的 问题 了 ， 因 为 它 依赖 的 ip_conntrack 模 块 已 经 在 装载 ip_nat_ftp 时 自动 地 插 
入 了 内 核 。 

操作 数据 结构 


内 核 提 供 了 alreaGy_uses 函 数 ， 来 判断 模块 A 是 否 需 要 为 一 个 模块 B: 


kernel/module.c 


/* 模块 a 已 经 使 用 了 模块 b? 


static int already uses(struct module *a, 


{ 


} 


如 果 模 块 A 依赖 模块 B， 模 块 B 的 modules_which_use_me 链 表 中 必定 有 
模块 A 的 mogdule 实 
。 如 果 找 到 一 个 


Use_modqule 








大 








wf 
struct module *Db) 


struct module_use *use; 


list_for _ each entry(use, 


} 


&b->modules_which use_ me, 
(use->module which uses == a) { 
return 1; 


df 


} 


return 0; 








列 


LiSt) 于 















































kernel/module.c 





/* 模块 a 使 


static int use module(struct module *a, 


{ 


S 








模 # 











Cruc 





Rb */ 


struct module *Db) 





t module use *use; 





1; 否则 ， 该 函数 结束 并 返 








口 








0。 











个 链表 元 素 包 含 了 指 
的 指针 。 这 也 是 内 核 逐步 过 历 该 链表 ， 一 一 检查 module_ which_usesj 
匹配 项 ， 即 依赖 关系 确实 存在 ， 则 返回 
于 建立 模块 A 和 模块 B 之 间 的 关系 : 模块 A 需 要 模块 B 才 能 ] 


FP 指 针 的 原 


可 





E 确 运行 。 其 实现 如 下 : 
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if (b == NULL || already uses(a, b)) return 1; 


if (!strong_try_ module_get(b)) 
return 0; 


use = kmalloc(sizeof (*use), GFP_ ATOMIC); 

if (!use) { 
printk("%s: out of memory loading\n", a->name); 
module_put (b); 
return 0; 


} 


use->module which uses = a; 
list_add(&use->list, &b->modules_ which use_ me); 


return 1; 
} 
already_uses 首 先 检 查 该 关系 是 否 已 经 建立 ,倘若 如 此 , 该 函数 可 以 立即 返回 (依赖 模块 为 NULL 
上 针 ， 也 解释 为 该 关系 已 经 存在 )。 否 则 ， 将 模块 B 的 引用 计数 器 加 1， 使 之 不 能 从 内 核 移 除 。 毕 竟 ， 
模块 A 坚决 要 求 模 块 B 驻 留 在 内 存 中 。strong_try_module_get 用 于 完成 该 目的 , 它 是 前 面 讲 到 的 try_ 
module_get 函 数 的 一 个 包装 ， 用 来 处 理 模 块 正 处 于 装载 过 程 中 的 情形 : 


kernel/module.c 
static :inline int Strong_try module get(struct module *mod) 

























































































if (mod && mod->state == MODULE_ STATE COMING) 
return 0; 
return try_module get (mod); 


} 

建立 该 关系 并 不 复杂 。 首 先 ， 创 建 一 个 module_use 的 新 实例 ， 其 module_which_uses 指 针 设置 

为 指向 模块 A 的 module 实 例 。 新 module_use 实 例 添加 到 模块 B 的 modules_which_use_me 链 表 。 

7.3.3 ”模块 的 二 进 制 结构 
模块 使 用 ELF 二 进 制 格式 ， 模 块 中 包含 了 几 个 额外 的 段 ， 普 通 的 程序 或 库 中 不 会 出 现 。 除 了 少量 

编译 器 产生 、 与 我 们 的 讨论 不 相关 的 段 〈 主 要 是 重 定位 段 )， 模 块 由 以 下 ELF 段 组 成 "。 
口 “ksymtab、_ ksymtab gp1 和 ksymtab_gp1l_future 段 包含 一 个 符号 表 ， 包 括 了 模块 导出 
的 所 有 符号 。_ ksymtab 段 中 导出 的 符号 可 以 由 内 核 的 所 有 部 分 所 用 《不 考虑 许可 证 )， 
_ kysmtab_gpl 中 的 符号 只 能 由 GPL 兼容 的 部 分 使 用 ， 而 _ ksymtab_gpl_future 中 的 符号 未 
来 只 能 由 GPL 兼容 的 部 分 使 用 。 

口 _kcrctab、 kcrctab gpl 和 ”kcrctab gpl_future 包 含 模块 所 有 (只 适用 于 GPL、 或 未 
来 只 适用 于 GPL ) 导出 函数 的 校 验 和 。_ versions 包 含 该 模块 使 用 的 、 来 自 于 外 部 源 代码 的 

DD 引用 的 校 验 和 。 


本 
7.5 节 更 详细 地 讨论 了 版 本 信息 的 产生 和 使 月 






















































































ul 
































































































































































































































二 
o 





CQ readelf -S module.ko 可 以 列 出 模块 中 的 所 有 上 段 。 
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口 _param 存 储 了 模块 可 接受 的 参数 有 关 信 息 。 






































该 特定 模块 依赖 的 所 有 模块 名 称 。 











口 _ex_table 用 于 为 内 核 异 常 表 定义 新 项 ， 前 提 是 模块 代码 需要 使 用 该 机 制 。 
口 .modinfo 存 储 了 在 加 载 当 前 模块 之 前 ,内核 中 必须 






































E 行 加 载 的 所 有 其 他 模块 名 称 。 换 名 话 说 ， 


此 外 ， 每 个 模块 都 可 以 保存 一 些 特定 的 信息 ， 可 以 使 用 用 户 空间 工具 modinfo 查 询 ， 特 别 是 开 
发 者 的 名 字 、 模 块 的 描述 、 许 可 证 信息 和 参数 列表 。 





口 .exit.text 包 含 了 在 该 模块 从 内 核 移 除 时 ， 所 需 使 用 的 代码 (和 可 能 的 数据 )。 该 信息 
保存 在 普通 的 代码 段 中 ， 这 样 ， 如 果 内 核 配 置 中 未 启用 移 除 模块 的 选项 ， 就 不 必 将 该 段 载 入 

















内 存 。 


口 初始 化 函数 〈 和 数据 ) 保存 在 .init.text 段 。 之 所 以 使 
























































后 ， 相 关 的 代码 和 数据 就 不 
口 .gnu.linkonce.this_module 提 供 了 struct module 的 一 个 实例 ， 其 中 
(name) 和 指向 二 进 制 文件 














4 需要， 因而 可 以 从 内 存 移 除 。 





bP 的 初始 化 函数 和 清 




















内 核 即 可 判断 特定 的 二 进 制 





文件 是 否 为 模块 。 如 果 没有 该 段 ， 则 j 























在 模块 自身 和 所 依赖 的 所 有 其 



































如 列 出 模块 所 有 依赖 关系 的 段 。 攻 


块 的 未 解决 引用 和 所 有 其 他 模块 导 
生成 模块 需要 执行 下 述 3 个 步骤 。 





























为 


























源 代 码 中 没有 明确 给 出 依赖 关系 信息 











的 符号 ， 来 获取 该 信息 。 





(1) 首先 ， 模 块 源 代 码 中 的 所 有 C 文 件 都 编译 为 普通 的 .o 目 标 文 件 。 





(2) 在 为 所 有 模块 产生 目标 文件 后 ， 内 核 可 以 分 析 它 们 。 找 到 的 附加 信 
保存 在 一 个 独立 的 文件 中 ， 也 编译 为 

















一 个 二 进 制 文件 。 

















(3) 将 前 述 两 个 步骤 产生 的 二 进 制 文件 链接 起 来 ， 生 成 最 终 的 模块 。 
附录 B 详 细 地 讲述 了 内 核 联 编 过 程 ， 并 讨论 了 编译 模块 时 可 能 遇 到 的 问题 。 

















1. 初始 化 和 清理 函数 




















模块 的 初始 化 函数 和 清理 函数 ， 保 存在 .gnu.1inkonce.module 段 中 的 module 实 例 
于 上 述 为 每 个 模块 自动 生成 的 附加 文件 




















module 
module.mod.c 


struct module __ this_module 
attribute _((section(".gnu.linkonce.this module"))) = { 


.name = KBUILD MODNAME, 
.init = init module, 


#ifdef CONFIG MODULE_ UNLOAD 





.exit = cleanup_ module, 
#endif 
.arch = MODULE_ ARCH_INIT, 
上 














TT 








Ph 。 其 定义 如 下 


用 一 个 独立 的 段 ， 是 














E 绝 装载 文件 。 











并 未 


1 


因为 初始 化 完成 


Ph 存储 了 模块 的 名 称 
LE 函数 (init 和 cleanup) 的 指针 。 根 据 本 段 ， 


他 内 核 模块 都 已 经 编译 完成 之 前 ， 上 述 的 一 些 段 是 无 法 生成 的 , 例 





， 内 核 必须 通过 分 析 目 标 模 





























日 
o 


县 〈 例 如， 模块 依 赖 关 系 ) 


本 


该 实例 位 


XH 
将 


KBUILD_MODNAME 包 含 了 模块 的 名 称 ， 只 有 将 代码 编译 为 模块 时 才 定 义 。 如 果 代 码 将 持久 编译 到 





内 核 中 ， 就 不 会 产生 __this_module 对 象 ， 
INIT 是 一 个 预 处 理 器 符号 , 可 以 指向 模块 的 特定 于 体系 结构 的 初始 化 方法 。 该 特性 当前 只 




















CPU 。 
































Q@ GNU C 编 译 器 的 attribute 指 令 ， 








因为 不 需要 对 模块 对 象 进行 后 处 理 。 












































于 将 数据 放置 到 指定 的 段 中 。 该 指令 的 其 他 


























法 ， 在 附录 C 中 





< 








MODULE_ARCH_ 











] 于 m68k 
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<init.h> 中 的 modqule_init 和 moqdule exit 宏 用 于 定义 init 隙 数 和 exit 函 数 。 "每 个 模块 都 包含 
以 下 类 型 的 代码 ， 定 义 了 in 让 函数 和 exit 函 数 2: 


#ifdef MODULE 











statie int.. init xyz init(void). 


/* 初始 化 代码 */ 
} 


static void _ exit xyz_cleanup 


/* 清理 代码 */ 
} 


module_init (xyz_init); 
module_ exit (xyz_exit); 
#endif 


init 和 ”exit 前 级 有 助 于 将 这 两 个 函数 放置 到 












































(void) { 

















进 制 代码 正确 的 段 中 : 


















































<init.h> 

#define _ init attribute ((__section (".init.text"))) _ colgd 

#define _ initdata _ attribute ((__ section (".init.data"))) 

#define _ exitdata _ attribute ((_ section (".exit.data"))) 

#define _ exit call _ attribute used _ attribute _ ((_ section _ (".exitcall.exit"))) 

所 用 gata 后 级 的 变 体 ， 用 于 将 数据 (不 是 函数 ) 放置 到 .init 和 .exit 段 中 。 

2. 导出 符号 

内 核 为 导出 符号 提供 了 两 个 宏 : EXPORT_SYMBOL 和 EXPORT_SYMBOL_GPL。 顾名思义 ， 二 者 分 别 用 
于 一 般 的 导出 符号 和 只 用 于 GPL 兼容 代码 的 导出 符号 。 同 样 ， 其 目的 在 于 将 相应 的 符号 放置 到 模块 二 
进 制 映 象 的 适当 段 中 : 

<module.h> 


/* 对 每 个 导出 的 符号 ， 

#define _ EXPORT_ SYMBOL (sym, 
extern typeof (sym) 
__CRC_SYMBOL (sym, 





在 _ ksymtab 段 中 放置 一 个 struct */ 
sec) \ 

sym; \ 

sec) \ 


static const char _ kstrtab ##sym[] \ 
_ attribute _((section("_ ksymtab_strings"))) \ 
= MODULE_SYMBOL_ PREFIX #sym; \ 


static const struct kernel_symbol 


__attribute used _\ 





























ksymtab_##sym \ 























_ attribute _((section("_ ksymtab" sec), unused)) \ 
define EXPORT_SYMBOL (sym) \ 
__ EXPORT_SYMBOL (sym, "") 
define EXPORT_ SYMBOL_GPL (sym) \ 
__EXPORT_SYMBOL (sym, "_gpl") 
define EXPORT_ SYMBOL_GPL_FUTURE (sym) SN 
__EXPORT_SYMBOL (sym，"_gp1_future") 
初 看 起 来 ， 该 定义 一 点 也 不 清楚 。 因 而 需要 通过 下 列 实例 来 说 明 其 效果 : 





EXPORT_SYMBOL (get_rms) 





| 该 宏 将 init_module 和 exit_module 函 数 定义 为 实际 的 初始 化 函数 和 清理 函数 的 别名 (一 个 GCC 
同样 的 名 称 来 引用 i 
了 么 module_init 和 module_exit 将 这 两 个 函数 转换 为 普通 的 init 调 











技巧 ， 使 得 内 核 总 是 能 够 使 
@ 如 果 代 码 没有 编译 为 模块 ， 导 














兽 强 特性 )。 这 个 
然 ， 程 序 员 总 是 可 以 选择 想 要 的 名 称 。 
或 exit 调 

















这 两 个 函数 。 当 
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是 必要 的 (但 大 多 数 将 空 串 定义 为 前 级 )。 
内 


/类 汪 火炎 火炎 炎炎 火炎 火炎 火灾 火炎 火炎 炎炎 炎炎 火灾 火炎 火炎 灾 炎 次 火炎 炎炎 次 火炎 炎炎 裕 炎 次 淡 火灾 类 交火 炎炎 类 炊 火炎 炎炎 炎炎 类 炎炎 类 类 大/ 


EXPORT_SYMBOL_ GPL (no_free_ beer) 


上 述 代码 通过 预 处 理 器 处 理 后 ， 如 下 所 示 : 
static const char _ kstrtab get_ rms[] 
_ attribute _((section(" ksymtab strings"))) = "get_rms"; 


















































static const struct kernel_symbol ksymtab_get_rms 
_ attribute used _ attribute ((section(" ksymtab" ""), unused)) = 
(unsigned long)g&get_ rms, kstrtab get_rms 








/类 汪 类 火炎 火炎 火炎 火炎 炎炎 火炎 火炎 火灾 火炎 炎炎 炎炎 火炎 火灾 炎炎 炎炎 炎炎 类 类 火炎 火灾 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 类 类 类 炎炎 类 类 大/ 


static const char kstrtab_no_free beer[] 
_ attribute ((section(" ksymtab strings"))) = "no_free beer"; 





static const struct kernel_ symbol ksymtab_no_free beer 











_attribute used  _ attribute ((section("_ ksymtab" "_gpl"), unused)) = 
(unsigned long)&no_free beer, kstrtab_no_free _ beer 
对 每 个 导出 的 符号 生成 了 两 段 代码 。 其 用 途 如 下 。 
口 _kstrtab_function 是 一 个 静态 变量 ， 保 存在 ”ksymtab_strings 段 中 。 它 是 一 个 字符 串 ， 














其 值 对 应 于 (function) ve 

口 在 _ksymtab (或 _kstrtab_gpl) 段 中 存储 了 一 个 kernel_symbol 实 例 。 它 包括 两 个 指针 ， 
一 个 指向 导出 的 函数 ， 另 一 个 指向 在 字符 串 表 中 刚 建 立 的 项 。 
这 使 得 内 核 根 据 函 数 的 字符 串 名 称 ， 即 可 找到 匹配 的 代码 地 址 。 在 解决 引用 时 需要 这 样 做 ， 相 
关内 容 将 在 7.3.4 节 讨论 。 

MODULE_SYMBOL_PREFIX 可 用 于 为 一 个 模块 的 所 有 导出 符号 分 配 一 个 前 级 ， 这 在 某 些 体系 结构 上 




























































































在 对 导出 函数 启用 





J 核 版 本 控制 特性 时 (更 多 细节 请 参考 7.5 节 ), 会 使 用 _cRC_sYMBOL; 否则 该 











宏 定 义 为 空 串 〈 为 简单 起 见 ， 我 在 这 里 作 如 此 假定 )。 





3. 一 般 模块 信息 
模块 的 .modinfo 段 包含 了 一 般 信息 ， 使 用 MODULE_INFO 设 置 : 


<module.h> 















































#define MODULE_ INFO(tag, info) _ MODULE_ INFO(tag, tag, info) 
<moduleparam.h> 

#define _ MODULE INFO(tag, name, info) 并 

static const char _ module cat (name, 'INE _)[] \ 

_ attribute_usedq_ _ \ 

_attribute _((section(".modinfo"),unused)) = _ stringify(tag) "=" info 























除了 使 用 这 个 一 般 的 宏 来 生成 tag = info 的 项 之 外 ， 还 有 许多 宏 可 以 创建 具有 预定 义 语义 的 项 。 








这 些 在 下 文 讨论 。 


型 


模块 许可 证 
模块 许可 证 使 用 MODULE_LICENSE 设 置 ; 


<module.h> 
#define MODULE LICENSE(_license) MODULE_ INFO(license, _license) 


技术 上 的 实现 没什么 令 人 吃惊 的 。 在 这 里 我 们 更 感 兴趣 的 是 内 核 划 分 许可 证 类 型 的 方式 ， 哪些 类 





















































是 GPL 兼容 的 。 
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口 GPL 和 表示 GPL 第 二 版 的 gcprv2。 根 据 cPL 的 定义 ， 该 许可 证 的 任何 后 续 版 本 〈 可 能 尚 不 存在 ) 
也 都 可 以 使 用 。 

口 如 果 有 其 他 条 款 〈 必 须 兼 容 自 由 软件 的 定义 ) 添加 到 GPL,， 那么 必须 使 用 GPL and additional 
rights。 














口 如 果 模 块 的 源 代码 以 双 许 可 证 形式 发 布 ， 则 需要 使 用 BSD/GPL、MIT/GPL 或 MPL/GPL〔《 即 GPL 
与 Berkeley、MIT、Mozilla3 种 许可 证 之 一 同时 使 用 )。 

口 专 有 模块 〈 或 许可 证 不 兼容 GPL 的 模块 ) 必须 使 用 Proprietarvy。 

口 如 果 没 有 指定 明确 的 许可 证 ， 则 使 用 unspecifieqd。 

en000000 

每 个 模块 都 应 该 包含 有 关 开 发 者 的 简短 信息 〈 如 有 可 能 ， 应 包括 电子 邮件 地 址 ) 和 对 模块 用 途 的 


























































































































<module.h> 
#define MODULE AUTHOR(_author) MODULE_ INFO(author, _author) 
#define MODULE DESCRIPTION(_description) MODULE_ INFO(description, _description) 


e000 

MODULE_ALIAS (alias) 用 于 给 模块 指定 备 选 名 称 (alias)， 在 用 户 空间 中 可 据 此 访问 模块 。 该 
机 制 可 用 于 区 分 备 选 驱动 程序 ， 例如， 可 能 有 儿 个 驱动 程序 实现 了 同样 的 功能 ， 但 实际 上 只 能 使 用 其 
中 一 个 。 这 对 于 构建 系统 化 的 名 称 也 是 必要 的 。 例 如 ， 这 使 得 能 够 问 一 个 模块 分 配 一 个 或 多 个 别名 。 
这 些 别名 分 别 指定 该 模块 支持 的 所 有 PCI 设 备 的 ID 号 。 如 果 在 系统 中 找到 这 样 的 设备 ， 内 核 可 以 〈 在 
用 户 空间 帮助 下 〉 自 动 插 入 对 应 的 模块 。 

eUU00000 

.modinfo 段 中 总 是 会 存储 某 些 必 不 可 少 的 版 本 控制 信息 ， 无 论 内 核 的 版 本 控制 特性 是 否 启用 。 
这 使 得 可 以 从 各 种 内 核 配 置 中 区 分 出 特别 影响 整个 内 核 源 代码 的 那些 配置 ， 这 些 可 能 需要 一 个 单独 的 
模块 集合 。 在 模块 编译 的 第 二 阶段 期 间 ， 下 列 代码 会 链接 到 每 个 模块 中 : 

module.mod.c 

MODULE_INFO(vermagic, VERMAGIC STRING); 
VERMAGIC_STRING 是 一 个 字符 串 ， 表 示 内 核 配置 的 关键 特性 : 


<vermagic.h> 

#define VERMAGIC_STRING \ 
UTS_RELEASE " " \ 
MODULE_VERMAGIC_SMP MODULE VERMAGIC_ PREEMPT \ 
MODULE_VERMAGIC_ MODULE_UNLOAD MODULE_ ARCH_ VERMAGIC 


内 核 自 身 和 每 个 模块 中 都 会 存储 VERMAGIC_STRING 的 一 份 副本 。 只 有 内 核 与 模块 存储 的 两 个 字符 
串 匹 配 时 ， 模 块 才能 加 载 。 这 意味 着 模块 和 内 核 在 以 下 配置 方面 必须 是 一 致 的 : 

口 SMP 配 置 (是 否 启 用 ); 

口 抢占 配置 (是否 启 用 ); 

口 使 用 的 编译 器 版 本 ; 

口 特定 于 体系 结构 的 常数 。 
在 IA-32 系 统 上 ， 处 理 嚣 类 型 用 作 特 定 于 体系 结构 的 常数 ， 因 为 不 同 处 理 器 可 用 的 特性 可 能 相去 
甚 远 。 例 如 ， 如 果 模 块 编译 时 特意 对 Pentium 4 处 理 器 进行 优化 ， 那 么 可 能 无 法 插入 为 Athlon 处 理 器 编 
译 的 内 核 中 。 
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内 核 版 本 也 会 存储 ， 但 在 比较 时 会 忽略 。 内 核 版 本 不 同 的 模块 ， 只 要 剩余 的 版 本 字符 串 匹 配 ， 仍 
然 可 以 装载 ， 不 会 有 问题 。 例 如 ，2.6.0 版 本 的 模块 可 以 载 入 2.6.10 版 本 的 内 核 。 


7.3.4 ”插入 模块 
init_module 系 统 调用 是 用 户 空间 和 内 核 之 间 用 于 装载 新 模块 的 接 


kernel/module.c 
asmlinkage long 
sys_init module(void _ user *umod, unsigned long len, const char _ user *uargs) 


该 调用 需要 3 个 参数 : 一 个 指针 指向 用 户 地 址 空间 中 的 区 域 ， 模 块 的 二 进 制 代码 即位 于 其 中 
Cumod)， 该 区 域 的 长 度 (len)， 以 及 一 个 指向 字符 串 的 指针 ， 指 定 了 模块 的 参数 。 从 用 户 衬 间 的 角度 
来 看 ， 插 入 一 个 模块 非常 简单 ， 只 需 读 入 模块 的 二 进 制 代码 ， 并 发 出 一 个 系统 调用 。 

1. 系统 调用 的 实现 

图 7-4 给 出 了 sys_init_module 的 代码 流程 图 。 


load module | 


将 模块 插入 到 内 核 的 链表 


释放 初始 化 数据 /代码 占用 的 区 域 ] 
图 7-4 ”sys_init_module 的 代码 流程 图 


二 进 制 数据 使 用 loadq_module 传 输 到 内 核 地 址 空间 中 。 所 有 需要 的 重 定位 都 会 完成 ， 所 有 的 引用 
都 会 解决 。 参 数 转 换 为 一 种 易于 分 析 的 形式 (kernel_param 实 例 的 表 )， 用 模块 的 所 有 必要 信息 创建 
module 数 据 结构 的 一 个 实例 。 

在 load_moqule 函 数 中 创建 的 modaule 实 例 已 经 添加 到 全 局 的 moqaules 链 表 后 ， 内 核 上 只 需 调 用 模块 
的 初始 化 函数 并 释放 初始 化 数据 占用 的 内 存 。 

2. 加 载 模块 

在 实现 1oad_module 时 会 遇 到 真正 的 困难 ， 内 核 源 代码 中 对 该 函数 的 注释 是 “完成 所 有 艰苦 的 工 
作 ” 这 是 完全 正确 的 说 法 。 这 是 一 个 涉及 内 容 广 泛 的 函数 (超过 350 行 )， 可 以 完成 以 下 任务 。 

口 从 用 户 空间 复制 模块 数据 (和 参数 ) 到 内 核 地 址 空间 中 的 一 个 [内 存 位 置 。 各 ELF 段 的 相对 
地 址 替换 为 该 临时 映像 的 绝对 地 址 。 
口 查找 各 个 〈 可 选 ) 段 的 位 置 。 
口 确保 内 核 和 模块 中 版 本 控制 字符 串 和 struct modqule 的 定义 匹配 。 
口 将 存在 的 各 个 段 分 配 到 其 在 内 存 中 的 最 终 位 置 。 
口 重 定 位 符号 并 解决 引用 。 链 接 到 模块 符号 的 任何 版 本 控制 信息 都 会 被 注意 到 。 
口 处 理 模块 的 参数 。 
loag_module 是 模块 装载 器 的 基础 ， 我 会 更 详细 地 讨论 该 函数 中 最 重要 的 代码 片段 。 

DDO 


加 本本 























加 | 
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kernel/module.c 

static struct module *load module(void __user *umod, 
unsigned long len, 

const char _ user *uargs) 


ElfF Ehdr *hdrey 

Elf_Shdr *sechdrs; 

char *secstrings, *args, *modmagic, *strtab = NULL; 
unsigned int i; 
unsigned int symindex 
unsigned int strindex 
unsigned int setupindex; 
unsigned int exindex; 
unsigned int exportindex; 
unsigned int modindex; 
unsigned int obsparmindex; 
unsigned int infoindex; 
unsigned int gplindex; 
unsigned int crcindex; 
unsigned int gplcrcindex; 





0; 
0; 


struct module *mod; 
long err = 0; 








if (copy_from user(hdr, umod, len) != 0) { 
err = -EFAULT; 
goto free_hdr; 
} 
/* 为 方便 而 定义 的 变量 */ 
sechdrs = (void *)hdr + hdr->e_shoff; 
secstrings = (void *)hdr + sechdrs[hdr->e_shstrndx] .sh offset; 











在 定义 了 大 量变 量 之 后 ， 内 核 使 用 copy_from_user 将 模块 的 二 进 制 数据 载 入 内 核 内 存 〔 我 省 去 
了 ELF 段 的 某 些 索引 变量 以 及 错误 处 理 的 有 关 信息 ， 在 以 后 几 节 里 我 会 采取 同样 的 做 法 ， 免 得 不 必要 
地 增加 篇 幅 )。 
此 时 ngr 指 向 二 进 制 数据 的 起 始 地 址 ， 换 名 话说 ， 即 模块 的 ELF 头 。 
sechqrs 和 secstring 分 别 指向 二 进 制 数据 中 各 个 存在 的 ELF 段 的 相关 信息 和 包含 段 名 称 的 字符 
串 表 在 内 存 中 的 位 置 。 这 里 使 用 了 ELF 头 中 的 0 0 地 址 加 上 模块 在 内 核 地 址 空间 中 的 0 0 地 址 ， 以 确 
定 相关 信息 的 正确 位 置 〈 这 种 做 法 我 们 会 经 常 遇 到 )。 
e00000 
接 下 来 ， 二 进 制 代 码 中 引用 的 所 有 有 段 的 地 址 改写 为 对 应 段 在 临时 映像 中 的 绝对 地 址 ”: 


kernel/module.c 









































| 






















































































































































































for (i = 1; i < hdr->e_shnum; i++) { 
/* 将 所 有 段 的 sh_adqr， 都 设置 为 该 段 在 临时 映像 中 的 绝对 地 址 。 */ 
sechdrs[i].sh addr = (size t)hdr + sechdqrs [II] .sh offset; 
/* 内 部 符号 和 字符 串 。 */ 
if (sechdrs[il].sh type == SHT_SYMTAB) { 


symindex = i; 
strindex = sechdrs[i].sh link; 
































QD e_shnum 表 示 段 的 数目 ，sh_aqdqr 是 某 个 段 的 地 址 ， 而 sh_offset 是 该 段 在 段 表 中 的 ID， 附 录 E 会 详细 讲述 这 些 。 
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strtab = (char *)hdr + sechdrs[strindex] .sh offset; 
} 
} 


过 历 所 有 段 用 来 找到 符号 表 〈 类 型 为 SHT_SYMTAB 的 唯一 段 } 和 相关 的 符号 字符 串 表 的 位 置 ， 前 
者 的 sh_link 即 为 后 者 的 段 索引 。 

eUU000 

在 .gnu.linkonce.this_module 段 中 ， 有 一 个 struct module 的 实例 (fing_sec 是 一 个 辅助 函 
数 ， 根 据 ELF 段 的 名 称 找到 其 索引 ): 


module/kernel.c 
modindex = fingd sec(hdr, sechdrs, secstrings, 
".gnu.linkonce.this_ module"); 



















































































mod = (void *)sechdrs[modindex] .sh_addr; 


mod 现 在 指向 struct module 的 实例 ， 该 实例 中 提供 了 模块 的 名 称 和 指向 初始 化 以 及 清理 函数 的 
指针 ， 但 其 他 成 员 仍 然 初始 化 为 NULL 或 0。 
fing_sec 还 用 于 找到 模块 中 剩余 各 段 的 索引 位 置 ( 保 存在 上 文 定 义 的 各 个 *ingex 变 量 中 ): 


kernel/module.c 
/* 可 选段 */ 

































































exportindex = find sec(hdr, sechdrs, secstrings, "_ ksymtab"); 

gplindex = find sec(hdr, sechdrs, secstrings, "_ ksymtab gpl"); 
gplfutureindex = fingd sec(hdr, sechdrs, secstrings, "__ ksymtab_ gpl_ future"); 
versindex = find sec(hdr, sechdrs, secstrings, "_ versions"); 

infoindex = fingd sec(hdr, sechdrs, secstrings, ".modinfo"); 

pcpuindex = find pcpusec(hdr, sechdrs, secstrings); 














模块 装载 器 接 下 来 调用 特定 于 体系 结构 的 函数 moq_frob_arch_sections， 某 些 体系 结构 使 用 该 
函数 操作 各 个 段 的 内 容 。 由 于 通常 不 需要 该 函数 〈 因 而 通常 定义 为 空 操 作 )， 在 这 里 不 讨论 它 了 。 
euUU000000 
layout_sections 用 于 判断 模块 的 哪些 段 装载 到 内 存 的 哪些 位 置 , 或 哪些 段 必 须 从 其 临时 地 址 复 
制 到 其 他 位 置 。 各 段 分 为 两 类 : DOD 和 0 DD 。 前 一 部 分 包括 了 在 模块 的 整个 运行 期 间 都 需要 的 所 有 
代码 段 ， 内 核 将 所 有 初始 化 数据 和 函数 放置 到 一 个 单独 的 部 分 ， 在 装载 完成 时 移 除 。 
除非 段 的 头 部 设置 了 sHF_ALLOC 标 志 ， 否 则 段 不 会 转移 到 其 最 终 内 存 位 置 。 ”例如 ， 对 调试 信息 
段 (使 用 gcc 选 项 -g 生 成 ) 不 会 设置 该 标志 ， 因 为 这 些 数据 不 必 一 直 处 于 内 存 中 ， 需 要 时 从 二 进 制 文 
件 读 取 即 可 。 
layout_sections 会 检查 段 的 名 称 是 否 包 含 .init 字 符 串 。 这 使 得 内 核能 够 区 分 初始 化 代码 和 普 
通 代 码 。 相 应 地 ， 从 段 的 起 始 位 置 就 能 判断 出 是 核心 段 还 是 初始 化 段 。 
layout_sections 的 结果 使 用 以 下 数据 元 素 表 示 。 
口 每 个 段 对 应 于 一 个 ELF 段 数据 结构 实例 ， 该 实例 中 的 sh_entsize 表 示 该 段 在 核心 或 初始 化 区 
域 中 的 相对 位 置 。 如 果 某 个 段 不 会 装载 ， 则 该 值 设置 为 ~0UL。 
那么 为 区 分 初始 化 段 和 核心 段 ， 前 者 在 sh_entsize 中 置 位 了 INIT_OFFSET_MASK 标 志 位 (定义 
为 (1UL << (BITS_PER_LONG - 1)))。 所 有 初始 化 段 的 相对 位 置 都 存储 在 各 自 的 sh_entsize 
成 员 中 。 











































































































































































































































































































GD 这 实际 上 不 大 准确 ， 因 为 内 核 还 根据 段 的 标志 ， 定 义 了 一 个 具体 的 顺序 。 但 在 这 里 不 必 讨 论 了 
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口 core_size 用 于 表示 在 内 核 中 持久 驻 留 的 代码 的 总 长 度 〈 至 少 在 模块 外 载 前 )。init_size 则 
是 模块 初始 化 所 需 的 所 有 段 的 总 长 度 。 

euUUU0 

既然 段 在 内 存 中 的 分 布 已 经 确定 ， 那 么 就 分 配 所 需 的 内 存 空间 并 用 字 节 0 初始 化 : 

kernel/module.c 


/* 进行 内 存 分 配 。 */ 
ptr = module alloc (mod->core_ size); 





























memset (ptr, 0, mod->core size); 
mod->module_core = ptr; 


ptr = module alloc (mod->init_size); 

emse tte 0, mod->init_size); 

mod->module_init = ptr; 

module_alloc 是 一 个 特定 于 体系 结构 的 函数 ， 用 于 分 配 模块 内 存 。 大 多 数 情况 下 ， 它 通过 直接 
调用 vmalloc 或 其 变 体 之 一 实现 《参见 第 3 章 )。 换 句 话 说， 模块 在 内 核 中 驻 留 的 内 存 区 域 是 通过 页 表 
映射 的 ， 并 非 直 接 映射 。 
所 有 SHF_ALLOC 类 型 的 段 的 数据 ， 都 将 根据 layout_sections 获 得 的 信息 ， 复 制 到 其 最 终 内 存 区 
域 中 。 每 个 段 的 sh_aggr 成 员 也 设置 为 段 的 最 终 位 置 ( 此 前 该 成 员 指 向 段 在 模块 的 临时 内 存 区 中 的 位 
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eUU00000 

现在 可 以 从 .modinfo 段 读 取 模 块 许可 证 并 放置 到 moqule 数 据 结构 中 ， 这 在 技术 上 无 关 紧 要 但 在 
法 律 上 很 重要 : 

kernel/module.c 

set_license(mod, get modinfo(sechdrs, infoindex, "license")); 


set_license 检 查 使 用 的 许可 证 是 否 是 GPL 兼容 〈 与 7.3.3 节 中 的 字符 串 比 较 其 名 称 ): 


kernel/module.c 
static void set_ license(struct module *mod, const char *license) 


{ 










































































if (!license) 
license = "unspecified"; 





If (!license_is gpl compatible(license)) { 
if (!(tainted & TAINT PROPRIETARY MODULE)) 
printk (KERN_ WARNING "%s: module license '%s' taints " 
"kernel.\n", mod->name, license); 
adqd taint module (mod, TAINT PROPRIETARY MODULE); 














} 

如 果 找 到 的 许可 证 不 是 GPL 兼 容 的 ， 则 通过 agdq_taint_module 设 置 全 局 变量 tainted 中 的 
TAINT_PROPRIETARY_MODULE 标 志 ， 该 函数 也 会 设置 struct module 的 taints 字 段 的 相应 标志 位 。 
license_is_gpl_compatible 人 确定 哪些 许可 证 当前 认为 是 GPL 兼 容 的 : 


kernel/module.c 
static :inline int 1icense_is_gp1_compatible(const char *license) 


{ 



















































































return (strcmp(license, "GPL") == 
|| strcmp(license, "GPL v2") == 0 
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| | strcmp (license, "GPL and additional rights") == 0 
| | strcmp(license, "Dual BSD/GPL") == 0 

| | strcmp (License， "Dual MIT/GPL") == 0 

| | strcmp (license, "Dual MPL/GPL") == 0); 


} 

此 外 ， 如 果 将 模块 ngiswrapper 或 driverwrapper 载 入 内 核 ， 也 会 污染 内 核 。 尽管 这 两 个 模块 
身 的 许可 证 是 兼容 内 核 的 ， 但 其 用 途 是 向 内 核 装 载 二 进 制 数据 (就 ndiswrapper 而 言 ， 会 装载 无 线 网 
卡 的 Windows 驱 动 程序 )。 这 与 内 核 的 许可 证 是 不 兼容 的 ， 因 而 必须 设置 污染 标志 。 
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e00000000 
下 一 步 将 继续 处 理 模块 符号 。 该 任务 委托 给 simp1ify_symbols 辅 助 函 数 ， 该 函数 将 遍历 符号 表 
中 的 所 有 符号 9 


kernel/module.c 

static int simp1lify symbols (Elf_Shdr *sechdrs, 
unsigned int symindex, 
const char *strtab, 
unsigned int versindex, 
unsigned int pcpuindex, 
struct module *mod) 





Elf_Sym *sym = (void *)sechdrs[symindex] .sh_ addr; 

unsigned long secbase; 

unsigned int i, n = sechdrs[symindex] .sh size / sizeof (Elf_Sym); 
int ret = 0; 


for (i = 1; i < n; i++) { 
Switch (sym[i].st_shndx) { 


不 同 符号 类 型 必须 进行 不 同 的 处 理 。 完 全 定义 的 符号 是 最 容易 的 ， 因 为 不 需要 做 什么 事情 : 


kernel/module.c 






































case SHN_ABS : 

7* 什么 也 不 用 做 */ 
DEBUGP ("Absolute symbol: 0xg081XxNn" ， 
(long) sym[i].st_value); 




















break; 
未 定义 符号 必须 解决 。 下 面 是 返回 给 定 符号 的 匹配 地 址 的 *esolve_symbol 函 数 : 


kernel/module.c 




















case SHN_UNDEF: 
sym[i].st_value 
= resolve_symbol (sechdrs, versindex, 
strtab + sym[i] .st name, mod); 





/* 如 果 符 号 已 经 解决 ， 则 没有 问题 。 */ 

if (sym[i].st_value != 0) 
break; 

/* 如 果 为 符号 定义 为 弱 的 ， 也 没有 问题 。 */ 

if (ELF_ST BIND(sym[i].st_info) == STB_WEAK) 
break; 

printk (KERN_WARNING "%s: Unknown Symbol %s\n", 





mod->name, strtab + sym[il].st_ name); 
ret = -ENOENT; 
break; strtab + sym[i].st_ name, mod); 






































QD 符号 数目 的 计算 : 符号 表 的 长 度 除 以 单个 表 项 的 长 度 。 
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如 果 符 号 因为 没有 匹配 的 定义 可 用 而 无 法 解决 ， 则 resolve_symbol 返 回 0。 如 果 该 符号 定义 为 上 0 
口 (参见 附录 E)， 则 没有 问题 ， 否 则 该 模块 无 法 插入 ， 因 为 它 引 用 了 不 存在 的 符号 。 
解决 所 有 其 他 符号 时 ， 都 是 通过 在 模块 符号 表 中 查找 其 值 : 


kernel/module.c 





























default: 
secbase = sechdrs[sym[il].st_shndx] .sh addr; 
syml[il].st_value += secbase; 
break; 
} 


} 


return ret; 


} 





模块 装载 的 下 一 步 是 ， 将 num_syms、syms 和 crcindqex 成 员 《〈 或 等 价 的 GPL 相关 成 员 ) 设置 为 二 
进 制 数据 中 对 应 的 内 存 位置 ， 设 置 内 核 中 的 (GPL ) 导出 符号 表 。 
kernel/module.c 
/* 设置 导出 的 符号 和 导出 的 GPL 符号 〈 段 0 长 度 为 0) */ 
modq->num_syms = sechdrs[exportindex] .sh size / sizeof(*mod->syms); 
mod->syms = (void *)sechdrs[exportindex] .sh addr; 
if (crcindex) 

mod->crcs = (void *)sechdrs[crcindex] .sh addr; 
mod->num_ gpl_syms = sechdrs[gplindex] .sh _ size / sizeof(*mod->gpl_syms); 
mod->gpl_syms = (void *)sechdrs[gplindex] .sh addr; 
if (gplcrcindex) 

mod->gpl_crcs = (void *)sechdrs[gplcrcindex] .sh addr; 
mod->num_ gpl_future_ syms = sechdrs[lgplfutureindex] .sh size / 

sizeof (*mod->gpl_future_ syms); 
































mod->gpl_future_syms = (void *)sechdrs[lgplfutureindex] .sh _addr; 
if (gplfuturecrcindex) 
mod->gpl_future crcs = (void *)sechdrs[gplfuturecrcindex] .sh addr; 
































标记 为 未 使 用 的 符号 进行 同样 的 处 理 ， 因 此 我 们 省 去 了 相应 的 代码 。 接 下 来 进行 重 定位 ， 内 核 将 

和 次 遍历 模块 的 所 有 段 。 根 据 段 类 型 (SHT_REL 或 SHT_RELA)， 会 调用 apply_relocate 或 apply 
relocate_adq 进 行 重 定位 。 取 决 于 处 理 器 类 型 ， 通 常 具 有 一 种 类 型 的 重 定位 《一 般 的 重 定 位 或 加 式 
重 定位 ?， 参 见 附 录 E)。 但 我 们 不 打算 深入 讨论 重 定 位 ， 因 为 这 涉及 大 量 特定 于 体系 结构 的 微妙 之 处 。 

module_finalize 提 供 了 另 一 个 特定 于 体系 结构 的 挂钩, 允许 不 同体 系 结构 的 实现 执行 特定 于 系 
统 的 结束 工作 。 例 如 ， 在 IA-32 系 统 上 ， 在 可 能 的 情况 下 ， 会 将 旧 的 处 理 器 类 型 的 低速 汇编 语言 指令 
替换 为 新 的 、 更 快 的 指令 。 
参数 处 理由 parse_args 执 行 ， 该 函数 将 传递 进来 的 字符 串 《〈 例 如 foo=bar,bar2baz=fuz wiz) 
换 为 一 个 kernel_param 实 例 的 数组 。 指 向 该 数组 的 一 个 指针 保存 在 module 数 据 结构 的 args 成 员 中 ， 
以 由 模块 的 初始 化 函数 处 理 。 
最 后 ，load_module 将 与 模块 有 关 的 文件 安置 到 sysfs 中 ， 并 释放 最 初 加 载 模 块 二 进 制 代 码 时 占用 
的 临时 内 存 区 。 

3. 解决 引用 

resolve_symbol 用 于 解决 未 定义 的 符号 引用 。 它 就 是 一 个 包装 器 函数 ， 如 图 7-5 给 出 的 代码 流程 
图 所 示 。 
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QD 加 式 重 定位 〈add relocation〉 是 作者 创造 的 术语 ， 指 在 重 定 位 时 ， 要 额外 加 一 个 偏 移 量 。 译 者 注 
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resolve_symbol 






finelsymboy 


check_version 
use_module 


图 7-5 ”resolve_symbol 的 代码 流程 图 
解决 符号 的 实际 工作 在 __fing_symbol 中 进行 。 内 核 首 先 裔 历 持久 编译 到 内 核 中 的 所 有 符号 : 


kernel/module.c 
static unsigned long __fingd symbol (const char *name, 
struct module **owner, 
const unsigned long **crc, 
int gplok) 























































struct module *mod; 
const struct kernel_symbol *ks; 


/* 首先 查找 核心 内 核 。 */ 
*owner = NULL; 
ks = lookup_symbol (name, 
if (ks) { 
*crc = symversion(_ start kcrctab, (ks - start ksymtab)); 
return ks->value; 





stop. ksymtab); 





start ksymtab, 











甫 助 冰 数 lookup_symbol (name，start，end) 查找 由 start 和 enq 指 定 的 符号 表 ， 看 是 否 能 找到 
名 称 为 name 的 项 。symversion 是 一 个 辅助 宏 。 如 果 启 用 了 MODVERSIONS 选 项 ， 则 该 宏 从 CRC 表 提取 
对 应 的 项 ， 否 则 ， 它 返回 0。 
更 多 在 其 他 部 分 搜索 的 代码 与 上 文 给 出 的 代码 基本 等 价 ， 因 此 我 们 不 再 列 出 。 如 果 在 所 有 模块 都 
能 够 访问 的 符号 表 中 未 能 找到 匹配 项 ， 而 模块 又 使 用 了 GPL 兼容 的 许可 证 〈 即 gplok 设 置 为 1)， 那 么 
将 搜索 内 核 提 供给 GPL 兼 容 模 块 的 符号 (位 于 _start _ksymtab gpl 和 stop _kysmtab _ gpl 之 
间 )。 如 果 又 失败 了 ， 则 将 搜索 将 来 专用 于 GPL 模 块 的 符号 。 如 果 仍 然 失 败 ， 则 搜索 未 使 用 符号 以 及 
未 使 用 的 GPL 符号 。 如 果 在 这 两 个 表 中 找到 符号 ， 那 么 内 核 将 使 用 该 符号 解决 依赖 关系 ， 但 二 
个 警告 消息 。 因 为 该 符号 迟早 会 消失 ， 因 此 任何 使 用 该 符号 的 模块 从 现在 起 都 应 该 停止 使 用 它 。 

如 果 搜 索 仍 未 成 功 ， 则 扫描 已 加 载 模块 的 导出 符号 : 

kernel/module.c 
/* 现在 尝试 搜索 已 加 载 模块 。 */ 
list_for each entry(mod, &modules, list) { 
*owner = mod; 
ks = lookup_symbol (name, mod->syms, mod->syms + mod->num syms); 
if (ks) { 


*crc = symversion(mod->crcs, (ks -mod->syms)); 
return ks->value; 
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+ 










































































} 


if (gplok) { 
ks = lookup_symbol (name, mod->gpl_syms, 
mod->gpl_syms + mod->num gpl_syms); 
if (ks) { 


*crc = symversion(mod->gpl_crcs, 


73 UDUUDUUDDU 403 





(ks -mod->gpl_syms)); 
return ks->value; 














da 
El 








/* 尝试 未 使 用 的 符号 等 。 */ 


} 
return 0; 
} 
每 个 模块 都 将 导出 符号 存储 在 mod->syms 数 组 中 ， 它 与 内 核 的 符号 数组 结构 相同 。 
如 果 当 前 模块 是 GPL 兼容 的 ， 则 将 搜索 已 加 载 模块 的 所 有 GPL 导出 符号 。 与 上 一 个 搜索 的 做 法 完 
全 相同 ， 只 是 将 mod->gpl_syms 用 作 数 据 库 而 已 。 如 果 仍 然 不 成 功 ， 内 核 会 尝试 使 用 其 余 符号 。 


国有 
国 
ODOUOD 


如 果 内 核 无 法 解决 该 符号 则 返回 0。 

我 们 回来 讨论 resolve_symbol。 如 果 ”fing_symbol 成 功 ， 内 核 首 先 使 用 check_version 确 定 
校 验 和 是 否 匹 配 (该 函数 在 7.5 节 讨论 )。 如 果 使 用 的 符号 源 自 另 一 个 模块 ， 则 通过 我 们 熟悉 的 
use_module 函 数 建立 两 个 模块 之 间 的 依赖 关系 。 只 要 刚 加 载 的 模块 仍然 在 内 存 中 ， 被 引用 的 模块 就 
不 能 从 内 存 移 除 。 

7.3.5” 移 除 模块 


从 内 核 移 除 模块 比 插入 模块 简单 得 多 ， 如 图 7-6 中 sys_qdelete_module 的 代码 流程 图 所 示 。 


find module] 
确认 模块 未 被 使 用 


free_ module] 


图 7-6 ”sys_delete_module 的 代码 流程 图 


该 系统 调用 通过 名 称 来 识别 模块 ， 因 此 必须 通过 参数 传递 模块 的 名 称 ”: 


kernel/module.c 
asmlinkage long 
sys_delete module(const char _ user *name user, unsigned int flags) 


首先 ， 内 核 必 须 使 用 finq_modqule 遍 历 所 有 注册 模块 的 链表 ， 找 到 匹配 的 module 实 例 。 
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G@ 除了 名 称 之 外 还 可 以 传递 两 个 标志 : 0_TRUNC， 表 示 模 块 可 以 从 内 核 “ 强 制 ” 移 除 ( 例 如 ， 即 使 引用 计数 器 为 正 
值 )，o_NONBLOCK， 指 定 该 操作 必须 是 非 阻 塞 的 。 为 简单 起 见 ， 这 里 不 讨论 这 些 标志 了 。 
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接 下 来 必须 确保 其 他 任何 模块 都 不 需要 使 用 该 模块 : 


kernel/module.c 


你 只 需 检查 该 链表 是 否 为 空 。 因 


和 


ret = 
goto out; 


} 














modules_which_use_me 链 表 插 入 一 项 。 


在 确认 引 














free_module 释 放 。 


7.4 


模块 不 仅 可 以 根据 用 户 指 令 或 








下 面 下 
( 














7.4.1 


在 内 核发 起 的 模块 自动 装载 特性 中 ，kernel/kmod.c 中 的 request_module 是 主要 的 函 


自动 化 与 热 插 拨 




















种 情况 下 很 有 用 处 。 


为 每 次 发 现 为 一 个 模块 


计数 器 已 经 归 0 之 后 ， 调 月 





特定 于 模块 的 


动 化 有 





























开 








(!list_empty (&mod->modules_which use_me)) { 
/* 其 他 模块 依赖 该 模块 ， 必须 先行 印 载 这 些 模块 。 
-EWOULDBLOCK; 


风沙 

















本 装载 ， 还 可 以 




















1) 内 核 确认 一 个 需要 的 功能 当前 不 可 
内 核 可 以 尝试 加 载 所 需 的 模块 ， 
(2) 一 个 新 设备 连接 到 可 热 扣 
包含 适当 驱动 程序 的 模块 。 
我 们 之 所 以 对 该 特性 的 实现 感 兴趣 ， 是 因为 在 这 内 
根据 内 核 提 供 的 信息 ， 实 





























kmod 实 现 的 自动 加 载 











的 名 称 〈 或 一 般 
请 求 模块 的 


























drivers/ide/ide-probe.c 
If (drive->media == ide_ disk) 


如 


net/socket.c 


if (drive->media == ide_floppy) 
request_ module("ide-floppy"); 


则 内 核 必须 设法 发 4 








果 特 定 的 协议 族 不 可 








3 





if (net_ families[family]==NULL) 


{ 
} 





] 。 例 如 ， 





然后 习 








目前 ， 内 核 











占 位 符 ") 需要 传递 给 该 函数 。 
操作 必须 显 式 建立 在 内 核 中 ， 逻辑 上 一 般 出 
程序 而 导致 分 配 特定 的 资源 失败 。 








内 核 自 身 请 求 装载 。 这 种 装载 机 制 ， 在 


使 用 了 该 模块 的 某 个 符号 时 ， 都 会 


函数 ， 而 模块 数据 占 


自动 向 














的 内 存 空间 通过 











需要 装载 一 个 文件 系统 ，{1 
EE 试 装载 文件 系统 。 
上 拔 的 总 线 (USB、FireWire、PCI 等 )。 内 核 检 测 到 新 设备 并 自 





现在 以 下 场合 : 内 核 因 
此 类 场景 大 约 有 100 处 左右 。 例 如 ，IDE 驱 动 程序 在 探 









































request_ module("ide-disk"); 





request module("net-pf-%d",family); 











尽管 在 较 早 的 内 核 版 本 〈2.0 及 以 前 ) 中 自 








中 





这 是 一 个 服务 名 称 ， 并 不 与 特定 硬件 相关 。 例 如 ， 内 核 确 定 需要 











内 核 中 。 因 为 它 
名 ， 其 中 x 表示 世 

















一 个 一 般 性 的 请 求 ; 








动 装载 模块 是 














下 一 





只 知道 该 协议 族 的 编号 ， 而 不 是 支持 该 协议 族 编号 的 模块 名 称 ， 


日 内 核 不 支持 。 














种 情况 下 ， 内 核 都 依赖 用 户 空 间 的 实用 程序 。 
用 程序 找到 适当 的 模块 并 按 惯 例 将 其 插入 内 核 。 





数 。 模 块 





为 没有 可 用 的 驱动 


测 现存 的 设备 时 会 尝试 加 载 设备 所 需 的 驱动 程序 。 为 此 必须 直接 指定 所 需 驱动 程序 的 模块 名 ; 


一 个 独立 的 守护 进程 负责 ， 该 守护 进 


个 网 络 模块 支持 某 种 协议 族 ， 但 却 无 法 链接 到 








大 











此 内 核 使 用 
\ 议 族 编号 。modules .alias 文 件 为 特定 协议 族 分 配 适 当 的 模块 名 。 例 如 net-pf-24 对 应 到 pppoe。 








net-pf-X 作 为 模块 
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程 必需 在 用 户 空间 中 显 式 启动 ， 而 现在 该 特性 由 内 核实 现 ， 当 然 还 需要 用 户 空间 中 的 实用 程序 插入 模 
块 。 默 认 情况 下 会 使 用 /sbin/modprobe。 该 工具 在 上 文 讨论 手动 插入 模块 时 提 到 过 。 我 不 打算 讨论 
在 自动 插入 模块 时 大 量 的 工具 控制 选项 。 对 此 ， 读 者 可 以 参阅 与 系统 管理 方面 与 此 相关 的 大 量 文档 。 
图 7-7 给 出 了 request_module 的 代码 流程 图 。 


request_module 


为 mnodeprob 准 备 环境 















































































































































jrequest_module 的 次 数 过 多 ? 


call usermodehelper 


图 7-7 ” request_module 的 代码 流程 图 
该 函数 需要 一 个 最 低 限 度 上 的 环境 ， 以 便 执行 modprobe 进 程 ( 具 备 完全 的 root 权 限 ): 


kernel/kmod.c 

char *argv[] = { modprobe_path，"-d"，"--"，modqule_name，NULL }; 

static char *envp[] = { "HOME=/"， 
RMS Ln 
"PATH=/sbin:/usr/sbin:/bin:/usr/bin", 
NULL }; 


modprobe_path 的 默认 值 是 /sbin/modprobe。 但 该 值 可 以 通过 proc 文 件 系统 ( /proc/sys/ 
kernel/modprobe) 或 对 应 的 Sysctl 改 变 。 所 需 模 块 的 名 称 作为 一 个 命令 行 参 数 传 递 。 

如 果 modprobe 自 身 基 于 某 个 模块 中 实现 的 一 个 服务 ," 内 核 将 进入 递归 的 无 限 循环 ， 因 为 会 重复 
启动 modqprobe 实 例 。 为 防止 这 种 情况 ， 内 核 使 用 全 局 变量 kmoq_concurrent， 每 次 调用 modprobe 都 
将 该 变量 加 1。 如 果 该 变量 超过 MAX_KMOD_CONCURRENT (默认 值 是 50) 和 max_threads/2 两 个 值 的 较 
小 者 之 后 ， 则 停止 加 1 操 人 

接 下 来 调用 call_usermodehelper 以 启动 用 户 空间 中 的 实用 程序 ,通过 迁 回 到 一 些 这 里 没有 详细 
讲述 的 函数 ， 该 函数 声明 了 一 个 新 的 工作 队列 项 (参见 第 14 章 ) 并 将 其 添加 到 khelper 内 核 线程 的 工 
作 队 列 。 在 处 理 该 队列 项 时 ， 会 调用 call_usermodehelper。 该 函数 负责 运行 hRodprobe 应 用 程 
序 ， 将 所 需 的 模块 按 上 文 讲述 的 方法 插入 到 内 核 。 

7.4.2 ” 热 插 拔 

在 新 设备 连接 到 可 热 插 拔 的 总 线 (或 移 除 ) 时 ， 内 核 再 次 借助 用 户 空间 应 用 程序 来 确保 装载 正确 
的 驱动 程序 。 与 通常 插入 模块 的 过 程 相 比 ， 这 里 有 必要 执行 几 个 额外 的 任务 例如， 必须 根据 设备 标 
识字 符 串 ， 找 到 正确 的 驱动 程序 ， 或 必须 进行 一 些 配置 工作 )。 因 此 ， 这 里 用 男 一 个 工具 (通常 是 
/sbin/udevd”) 代替 了 modprobe。 

































































































































I 
o 






































































































































































































































G@ 换 铝 话说 ，modprobe 依 赖 某 个 模块 中 的 一 个 服务 。 内 核 会 发 出 一 个 相应 的 指令 要 求 modprobe 加 载 该 模块 ， 这 又 会 
导致 modprobe 指 示 内 核 启 动 modprobe 加 载 该 模块 。 

@ 在 内 核 以 前 的 版 本 中 ，/sbin/hotplug 是 唯一 的 热 插 拔 工具 程序 。 随 着 设备 模型 的 引入 和 该 模型 在 内 核 版 本 2.6 开 
发 期 间 逐 渐 成 熟 ，uaevd 现 在 是 大 多 数 发 行 版 首选 的 方法 。 尽 管 如 此 ， 内 核 确实 提供 的 是 一 般 性 的 消息 ， 并 不 绑 


定 到 用 户 空 间 中 的 特定 机 制 。 在 某 些 情 况 下 ， 内 核 仍然 调用 uevent_helper 中 注册 的 程序 ， 它 可 以 设置 为 
































































































































/sbin/hotplug,， 该 设置 可 以 通过 /proc/sys/kernel/hotplug 访 问 。 将 该 值 设置 为 空 串 ， 则 停 用 该 机 制 。 由 于 它 
只 在 启动 期 间或 某 些 非常 特殊 的 配置 下 (主要 是 完全 停 用 了 网 络 的 系统 ) 有 用 ， 我 不 会 过 多 考虑 它 。 
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都 会 发 送 消 








提供 该 设备 上 已 经 找 3 
此 ， 实 际 上 内 核 可 能 发 送 的 消息 ， 组 成 了 一 个 相当 庞大 和 广泛 的 
的 例子 上 ， 来 说 明基 本 的 机 
到 系统 ， 但 此 时 提供 
秆 该 设备 装载 到 文件 系统 中 ， 
口 USB 窒 主机 控 


一 仆 部 


动 地 ; 


存储 棒 扣 





相反 ， 








言 息 ， 




















到 的 分 区 








要 注意 , 内 核 不 仅 在 设备 插入 与 移 除 时 向 用 
县 。 例 如 ， 在 一 个 新 硬盘 连接 到 系统 时 ， 内 核 不 
言 息 。 设 备 模 型 的 每 部 分 都 可 以 向 用 户 

















户 室 间 提供 消 


乱 , 实际 上 内 核 














仅 提 供 有 关 该 事件 的 信息 ， 














我 








门 把 注意 力 集 
USB 海量 存储 (mass 


FP 在 


个 特定 

















以 便 











出 器 在 总 线 上 检测 











新 的 device 实 例 并 调用 usb 
口 usb_new_dqevice 触 发 对 kobjec 

















到 


个 新 设备 











new_device 注 


报告 
册 它 。 



































时 。 


口 对 USB 设 备 对 象 ，usb_uevent 
使 得 udaevdq 能 够 对 谣 
udevd 守 护 进 程 可 以 检查 来 源 于 内 核 的 所 有 消息 。 注 意 以 下 通信 日 
入 系统 











t_uevent 的 调 


中 注册 的 特定 于 子 系统 的 事件 通知 程序 。 

















j 作 











的 USB 海 量 














root@meitner # udevmonitor --environment 


EVI 
usb) 





和 


bp 





EV. 


局 可 口 


EVTY, 


EVPAT 
UBSYSTI 
] FE=usb_interface 


CTION=add 
I H=/devices/pci0000:00/0000:00:1a.7/usb7/7-4/7-4:1.0 


EM=USD 








DT 











名 


EVICI 





TYPE=0/0/0 











INTERFACE=8/6/80 
MODALIAS=usb:v0951p1600d0100dc00dsc00dp00ic08isc06ip50 


SI 





A 


EQNUM=1830 


自 











外 


内 部 所 进行 的 操作 。 
牛 系统 中 的 位 置 ， 可 以 据 此 查找 该 设备 的 有 关 信息 ， 而 PRO 


个 








溢 





/EN 



























































里 最 司 








类 别 


要 的 字段 是 INT 


ENT[1201129806.368892] 




















存储 设备 的 扣 





通知 函数 。 该 函数 准备 一 个 消息 ， 
ii 入， 作出 适当 反应 。 
志 ， 其 内 容 取 自 一 个 新 的 USB 








给 其 


六 





集合 ， 























用 。" 该 函数 对 所 述 对 象 kobj 


其 中 








在 很 多 一 般 事件 发 生 时 ， 
还 发 送 通知 ， 
层 发 送 注册 和 撤销 注册 事件 。 因 
我 没有 详细 地 讲述 。 
判 。 考 虑 将 一 个 USB 存 储 棒 附 ] 
storage) 支持 的 模块 尚未 载 入 内 核 。 此 外 ， 该 发 行 版 想 要 
户 可 以 立即 访问 它 。 为 此 ， 需 要 执行 以 下 步骤 。 

设备 驱动 程序 。 宿 主机 控制 器 分 配 








x 














add /devices/pci0000:00/0000:00:1a.7/usb7/7-4/7-4:1.0 


E=/proc/bus/usb/007/005 
PRODUCT=951/1600/100 


上 述 的 usb_uevent 函 数 产 生 。 每 个 消 


于 一 个 新 的 设备 添加 到 系统 ，ACTION 

















ERFACE 








<usb_ch9.h> 


MODAL 


IAS 字 有 段 








适 于 人 了 眼 阅 读 ，1 
热 插 拔 消息 添加 





























drivers/usb/core/usb.c 


add_uevent_Vvar(env， 





对 )。 








#define USB_CLASS_MASS_STORRGE 
包含 有 关 该 设备 的 所 有 一 般 信 息 。 
计算 机 很 容易 解析 。 其 生成 过 程 如 下 (add_uevent_var 是 
个 新 的 标识 符 / 什 


， 它 确定 了 新 设备 所 属 接口 


8 














息 都 























D 


些 标识 符 / 值 对 组 成 ， 这 些 
的 值 是 aada。DEVICE 表 示 该 设备 在 USB 
UcT 提 供 一 些 有 关 广 商 和 设备 的 
的 类 别 。USB 标 准 对 海 











这 些 信 





息 编 


/ 世 \ 





码 在 一 个 字 


符 遇 
个 























显 


中 ， 其 设计 

















甫 助 函数 ， 








"MODALIAS=usb:v%$04Xp%04Xd%04Xdc%02xXdsc%02xXdp%02Xic%02Xisc%02Xip%02X", 
lel6_to cpu(usb dev->descriptor.idVendor), 
































准确 的 调 





] 路径 是 usb_new_device 一 device add 一 kobject_uevent。 


信息 。 


量 存储 设备 分 配 的 


ect 实 例 ， 调 用 其 
包含 了 所 有 必要 的 


篆 述 了 内 





然 不 
用 于 向 
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lel16_ to_ cpul(usb dev->descriptor.idProduct), 
lel1l6_ to_ cpul(usb dev->descriptor.bcdDevice), 
usb_ dev->descriptor.bDeviceClass, 
usb_dev->descriptor.bDeviceSubClass, 
usb_dev->descriptor.bDeviceProtocol, 
alt->desc.bInterfaceClass, 
alt->desc.bInterfaceSubClass, 
alt->desc.bInterfaceProtocol)); 





通过 比较 MODALIAS 值 和 各 个 模块 提供 的 别名 ，udeva 可 以 找到 需要 插入 的 模块 。 











入 usb-storage 模 块 ， 因 为 以 下 别名 与 需求 匹配 : 


wolfgang@meitner> /sbin/modinfo usb-storage 








alias: usb:v*p*d*dc*dsc*dp*ic08isc06ip50* 





De 


类 似 于 普通 
(ic08isc06ip50*) 与 MODALIAS 值 相同 。 
































vy 











下 











有 





的 正则 表达 式 ， 星 号 是 占 位 符 ， 表 示 任 意 值 ， 而 该 别名 最 后 的 一 部 分 
因而 别名 是 匹配 的 ，udevad 可 以 将 usb-storage 横 块 捐 


























内 核 中 。uqevaq 如 


何 了 解 一 个 给 定 模块 有 哪些 别名 呢 ? 它 依赖 aepmoq 程 


Ee 序 ， 该 程序 扫 

















、 














块 ， 提 取 别 名 信息 ， 并 存储 到 文本 文件 /Lib/modules/2.6.x/modules.alias 中 。 























但 故事 到 这 里 尚未 结束 。 在 USB 海量 存储 模块 已 经 插入 内 核 之 后 ， 
包含 的 分 区 。 这 又 产生 了 男 一 个 通知 。 


root@meitner # udevmonitor 




















UDEV [1201129811.890376] adqd /block/sdc/sdcl1 (block) 
UDEV_LOG=3 

ACTION=add 

DEVPATH=/block/sdc/sdcl1 

SUBSYSTEM=block 

MINOR=33 

JOR=8 





HYSDEVBUS=scsi 

EQNUM=1837 

DEVD_EVENT=1 

EVTYPE=partition 

D_VENDOR=Kingston 

D_ MODEL=DataTraveler_II 

D_REVISION=PMAP 

D_SERIAL=Kingston DataTraveler_II 5B67040095EB-0:0 
D_SERIAL SHORT=5B67040095EB 

D_ TYPE=disk 

D_INSTANCE=0:0 

D_BUS=usb 
D_PATH=pci-0000:00:1a.7-usb-0:4:1.0-scsi-0:0:0:0 
D_FS_USAGE=filesystem 

D_FS_TYPE=Vvfat 

D_FS_VERSION=FAT16 

D_FS_UUID=0920-E14D 

D_FS_UUID ENC=0920-E14D 

D_FS_LABEL=KINGSTON 

D_FS_LABEL_ ENC=KINGSTON 

D_FS_LABEL SAFE=KINGSTON 

DEVNAME=/dev/sdcl 





























HHHAHHHHHHHHHHHHHHOCWmYHY 





DEVLINKS=/dev/disk/by-id/usb-Kingston DataTraveler_IIT 5B670400951 








块 设备 层 识别 





/dev/disk/by-path/pci-0000:00:1a.7-usb-0:4:1.0-scsi-0:0:0:0-part1 


/dev/disk/by-uuid/0920-E14D /dev/disk/by-label/KINGSTON 

















出 该 设备 和 其 





这 里 ， 应 该 插 


fi 入 到 
描 所 有 可 用 的 模 





HYSDEVPATH=/devices/pci0000:00/0000:00:1a.7/usb7/7-4/7-4:1.0/host7/target7:0:0/7:0:0:0 


EB-0:0-partl1 
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该 消息 提供 了 新 检测 到 的 分 区 名 称 〈 /qev/sac1)〉 和 分 区 | 


对 于 udeva 来 说 ， 该 信息 已 经 足够 用 于 自动 装载 文 伯 





7.5 版 本 控制 























上 找到 的 文件 系统 (vfat) 的 有 关 信 | 































































































































































































































































































系统 ， 这 样 USB 存 储 棒 就 可 以 使 用 了 。 



























































































































































































































































不 断 改变 的 内 核 源 代码 当然 对 驱动 程序 和 模块 的 程序 设计 有 一 些 影响 , 特别 是 只 提供 二 进 制 代码 
的 专 有 的 驱动 程序 ， 本 节 将 讨论 这 种 影响 。 

在 实现 新 特性 或 修订 总 体 设计 时 ， 通 常 必须 修改 内 核 各 个 部 分 之 间 的 接口 ， 以 处 理 新 的 情况 或 支 
持 性 能 和 设计 方面 的 改进 。 当 然 ， 开 发 者 会 尽 可 能 将 改动 限制 到 驱动 程序 不 直接 使 用 的 那些 内 部 函数 
上 。 但 这 并 不 排除 偶尔 修改 “公开 的 ”接口 。 很 自然 ， 模 块 接口 也 会 受到 此 类 修改 的 影响 。 

在 驱动 程序 以 源 代码 形式 提供 时 ， 这 不 成 问题 ， 只 要 找到 一 个 勤勉 的 内 核 黑客 将 代码 改编 为 适应 
新 的 结构 即 可 。 对 大 多 数 驱动 程序 来 说 ， 相 关 的 工作 量 都 可 以 按 天 计算 《即使 不 能 按 小 时 计算 )。 
于 不 再 有 明确 的 “开发 版 内 核 ”的 概念 ， 在 内 核 的 两 个 稳定 修订 版 之 间 引 入 接口 改变 是 不 可 避免 的 。 
但 由 于 in-tree 代 码 更 新 很 容易 ， 所 以 这 不 会 产生 问题 。 

但 对 于 由 厂商 发 布 、 只 提供 二 进 制 代码 的 驱动 程序 来 说 ， 情 况 会 有 所 不 同 。 用 户 不 得 不 依赖 厂商 
的 信誉 ， 等 待 新 驱动 程序 的 开发 和 发 布 。 这 种 情况 引起 了 一 整套 问题 ， 其 中 有 两 个 是 技术 上 的 "， 我 
们 对 此 比较 感 兴趣 。 

口 如 果 模 块 使 用 了 一 个 废弃 的 接口 ， 不 仅 会 损害 模块 的 正常 功能 ， 而 且 系 统 很 可 能 崩溃 。 

口 SMP 和 单 处 理 器 系统 的 接口 不 同 ， 需 要 两 个 二 进 制版 本 。 如 果 装 载 了 错误 的 版 本 ， 同 样 可 能 

导致 系统 崩溃 。 

当然 ， 如 果 用 了 只 有 二 进 制 代码 的 开源 模块 ， 上 述 观点 同样 适用 。 有 时 候 ， 除 非 厂 商 提供 适当 的 
更 新 ， 否 则 对 于 经 验 较 少 的 用 户 ， 这 是 唯一 的 选择 。 

因此 ， 显 然 需 要 引入 模块 版 本 控制 功能 。 但 何 种 方法 是 最 好 的 呢 ? 最 简单 的 解决 方案 是 引入 一 个 
常数， 并且 内 核 和 模块 都 保存 该 常数 。 每 次 改变 一 个 接口 ， 常 数 的 值 都 加 1。 除 非 模块 和 内 核 中 接口 



































际 的 模块 和 内 核实 现 。 
不 能 改变 。 所 用 的 方法 极其 简单 ， 但 却 能 很 好 地 解决 版 本 控制 问题 。 



























































EE 














的 版 本 号 相同 ， 和 否则 内 核 不 会 接受 模块 。 这 可 以 解决 版 本 问题 。 到 
面 。 如 果 改 变 的 是 模块 0 DD 的 接 
因此 ， 引 入 了 一 种 


， 尺 管 模块 完全 可 以 运转 ， 肉 
细 粒 度 的 方法 ， 从 而 考虑 到 内 核 中 各 个 例 程 的 改变 。] 























ue] 





要 考虑 的 问 

















可 题 是 ， 















































如 果 模 块 要 在 不 同 的 内 核 版 本 下 运作 ， 那 么 其 调用 的 接口 


E 论 上 该 方法 是 可 行 的， 但 还 不 够 全 
I 不 能 再 装载 。 
不 体 地 ， 我 们 无 需 考虑 





过 


头 














7.5.1 ” 校 验 和 方法 

基本 思想 是 使 用 函数 或 过 程 的 参数 ， 生 成 一 个 CRC 校 验 和 。 该 校 验 和 是 一 个 4 字 节 数字 ， 十 六 进 
制 记 数 法 需要 8 个 字母 。 如 果 函 数 接口 修改 了 ， 校 验 和 也 会 发 生变 化 。 这 使 得 内 核能 够 推断 出 新 版 本 
己 经 不 再 兼容 旧版 本 。 

校 验 和 在 数学 上 不 是 唯一 的 ,不同 过 程 可 能 映射 到 同一 个 校 验 和 ,因为 过 程 参数 的 组 合 (实际 上 ， 
是 一 个 无 穷 大 数 ) 比 可 用 的 校 验 和 《 即 ，22 个 ) 要 多 很 多 。 实 际 上 这 不 会 成 为 问题 ， 因 为 函数 接口 的 








几 个 参数 改变 前 后 校 验 和 相同 的 可 能 性 很 小 。 





GD 有 关 道 德 、 伦 理 、 意 识 形 态 方面 的 问题 ， 
@ 这 里 预先 假定 ， 函 数 的 代码 语义 改变 但 接 








在 医 


























特 网 上 有 大 量 详细 的 信息 。 
定义 不 变 的 情况 下 ， 将 改变 函数 的 名 称 。 
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1. 生成 校 验 和 

内 核 源 代码 附带 的 genksym 工 具 在 编译 时 自动 创建 , 用 于 生成 函数 的 校 验 和 。 为 说 明 其 工作 方式 ， 
我 们 使 用 以 下 头 文件 ， 其 中 包含 一 个 导出 函数 的 定义 ; 

#include<linux/sched.h> 


#include<linux/module.h> 
#include<linux/types.h> 























int accelerate task(long speedup, struct task struct *task); 


EXPORT_ SYMBOL (accelerate task); 

该 函数 定义 包含 了 一 个 复合 结构 指针 作为 参数 ， 这 使 得 genksyms 的 工作 更 为 困难 。 当 该 结构 的 
定义 改变 时 , 函数 的 校 验 和 也 会 改变 。 为 分 析 该 结构 的 内 容 ,假定 其 内 容 必 须 是 已 知 的 .因此 ,genksyms 
的 输入 只 能 是 预 处 理 器 已 经 处 理 过 的 文件 ， 其 中 已 经 包括 了 相关 定义 所 在 的 头 文件 。 

生成 导出 函数 的 校 验 和 ， 需 要 以 下 调用 ”: 

wolfgang@meitner> gcc -E test.h -D GENKSYMS -D__KERNEL /| genksyms > test.ver 

test .ver 的 内 容 如 下 : 


wolfgang@meitner> cat test.ver 
__ Crc accelerate task = 0x3341f339 ; 


如 果 accelerate_task 的 定义 改变 ,那么 校 验 和 也 会 改变 ,例如 将 第 一 个 参数 改 为 整数 。 在 这 种 
情况 下 ，genksym 计 算 的 校 验 和 是 0xbb29£607。 

如 果 一 个 文件 中 定义 了 几 个 符号 ，genksyms 生 成 同样 数目 的 校 验 和 。 以 下 是 对 vfat 模 块 生成 的 
结果 文件 的 内 容 示 例 : 


wolfgang@meitner> cat .tmp_ vfat.ver 

























































































Crc vfat_create = 0x50fed954 ;，; 
__Ccrc vfat unlink = 0xe8acaa66 : 
__Ccrc vfat mkdir = 0x66923cde ;，; 
__Ccrc vfat_ rmdir = 0xd3bf328b ; 
__Ccrc vfat_ rename = 0xc2cd0db3 ;，; 
__Ccrc vfat_lookup = 0x61b29e32 ， 











中 
tut 


这 是 一 个 脚本 ， 用 于 链接 器 1G， 其 在 编译 过 程 中 的 
2. 将 校 验 和 编译 到 模块 和 内 核 中 
核 必须 将 genksym 提 供 的 信息 合并 到 模块 的 二 进 制 代 码 中 ， 供 后 续 使 用 ， 后 面 将 讨论 具体 的 做 














要 性 将 在 下 文 解释 。 


















































法 。 


DDOO 
可 想 一 下 ，_。_EXPORT_SYMBOL 内 部 调用 了 __CRC_SYMBOL 宏 ， 这 在 7.3.3 节 讨论 过 。 在 启用 版 本 控 
制 时 ， 后 者 定义 如 下 : 

<module.h> 

#define __CRC_SYMBOL (sym, sec) 
extern void * crc ##sym _ attribute _((weak)); 
static const unsigned long _ kcrctab ##sym 
_ attribute used 


attribute_ _((section("__ kcrctab" sec), unused)) 
= (unsigned long) &_ crc ##sym; 












































We i pe 





Q@ 为 简单 起 见 ， 没 有 给 出 指定 内 核 源 代码 的 ipclude 路 径 的 参数 。 另 外 ， 举 例 来 说 ， 在 真正 编译 模块 时 ， 也 会 指定 
-DMODULE。 细 节 请 参看 make modules 的 输出 。 



































410 册子 四， 加 0 
在 调用 EXPORT_SYMBOL (get_shorty) 时 ， 其 内 部 调用 了 __cRC_SYMBOL 宏 ， 如 下 所 示 : 
extern void * crc get richard _ attribute _((weak)); 




















static const unsigned long _ kcrctab get_shorty 


attribute used _ 


_attribute_ _((section("_ kcrctab" "" 


(unsigned long) 








因此 ， 内 核 在 模块 的 二 进 























口 指向 刚 定 义 的 变量 




























































































口 未 定义 的 voigd 指 针 crc_function， 位 于 模块 
的 一 个 指针 krcrtab_function， 存 储 在 文件 的 _ kcrctap 上 段 。 











), unused)) = 
&__Ccrc_ get_shorty; 
制 文件 中 建立 了 两 个 对 象 : 
普通 符号 表 中 ;” 
































































































































在 模块 链接 时 模块 编译 的 第 一 个 阶段 )， 链 接 器 使 用 genksyms 生 成 的 .ver 文 件 作 为 一 个 脚本 。 
这 将 脚本 中 的 值 ， 提 供给 _ crc_function 符 号 。 内 核 稍 后 会 读 入 这 些 值 。 如 果 有 另 一 个 模块 引用 了 
其 中 茶 个 符号 ， 内 核 会 使 用 此 处 给 出 的 信息 ， 来 确保 两 个 模块 都 引用 同一 版 本 的 符号 。 

euU00000 

当然 上 只 存 储 模 块 导出 函数 的 校 验 和 是 不 够 的 。 更 重要 的 是 ， 要 注意 到 所 有 0 0 0 符号 的 校 验 和 ， 
因为 在 模块 插入 内 核 时 ， 必 须要 将 用 到 的 符号 的 校 验 和 与 当前 内 核 中 可 用 的 版 本 相 比 。 

在 模块 编译 的 第 二 阶段 ， ”需要 执行 以 下 步 又， 将 所 有 引用 到 的 符号 的 版 本 信息 ， 插 入 到 模块 的 
二 进 制 文件 中 。 

(1) 如 下 调用 mogdpost: 

wolfgang@meitner> scripts/modpost vmlinux modulel module2 module3 ... modulen 

这 里 不 仅 指 定 了 内 核 映像 的 名 称 ， 还 包括 所 有 先前 生成 的 .o 模 块 二 进 制 文件 的 名 称 。modpost 是 
内 核 源 代码 附带 的 一 个 实用 程序 。 它 生成 两 种 列表 一 个 是 全 局 列表 ， 包 含 所 有 可 用 的 符号 (无 论 由 

































































内 核 或 模块 提供 ) 马 一 种 列表 特定 于 有 具体 模块 ， 每 个 模块 都 有 一 个 ， 包 含 所 有 未 解决 的 引用 。 





(2) modprobe 接 下 来 损 历 








核 











身 或 男 











所 有 模块 ， 
个 模块 定义 ， 那 么 会 成 功 查 找 
对 每 个 模块 创建 一 个 新 的 moGule.mod.c 文 伯 





试图 


A 


EI] 。 





























wolfgang@meitner> cat vfat.mod.c 


#include <linux/module. 


h> 


#include <linux/vermagic.h> 
#include <linux/compiler.h> 


MODUL] 





E_INFO(vermagic, 


V. 





ERMAGIC_STRING); 


struct module __ this module 


_ attribute _((section(".gnu.linkonce.this module"))) 





= .name = 
.init = init_ module, 

#ifdef CONFIG MODULE_ UNLOAD 
.exit = cleanup_ module, 


#endif 
.arch = MODUL 
}3 





static const struct modversion_ info 


_ attribute used _ 








E_ARCH_INIT, 


versions[] 














在 所 有 符号 的 列表 中 找到 未 解决 的 引用 。 





Ar 


林 付 与 























如 | 内 





F。 其 内 容 如 下 所 示 (对 vfat 模 块 生 成 的 文件 ): 


KBUILD MODNAME, 


GD weak 属 性 创建 一 个 ( 弱 ) 链接 的 变量 。 如 果 该 变量 未 指定 值 ， 就 不 会 报错 (普通 变量 会 报错 )。 如 果 未 指定 值 ， 





@ 在 编译 的 第 一 阶段 ， 所 有 模块 源 文件 都 编译 为 .o 








天 | 














为 genksyms 对 某 些 符号 并 不 生成 校 验 和 。 
标 文 件 ， 其 中 包含 导出 符号 的 版 本 信息 









































， 但 不 包括 引 

















的 符号 。 
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_ attribute _ _((section("_ versions"))) = 


0x8533a6dd, "struct_module" ， 
0x21ab58c2， "fat_detach" ， 
Oxd8ec2862, "_ mark_ inode dirty" ， 


0x3c15a491， "fat_ dir empty" ， 
0x9a290a43， "d_instantiate" ， 
}3 


static const char _ module depends[] 
attribute used _ 

_ attribute _((section(".modinfo"))) = 
"depends=fat"; 


在 该 文件 中 定义 了 两 个 变量 ， 分 别 位 于 二 进 制 文件 的 两 个 不 同 段 。 
(a) 模块 引用 的 所 有 符号 连同 对 应 的 校 验 和 ， 从 内 核 或 另 一 个 模块 的 符号 定义 中 复制 过 来 ， 保 存 
在 、 moqversions 段 的 modversions_info 数 组 中 。 在 插入 模块 时 ， 该 信息 用 于 检查 当前 运行 内 核 是 
否 有 所 需 的 正确 版 本 的 符号 。 
(b) 当前 模块 所 依赖 的 所 有 模块 的 列表 ， 位 于 .modinfo 段 的 module_depends 数 组 中 。 在 我 们 的 
例子 中 ，VFAT 模 块 依赖 FAT 模 块 。 
modprobe 建 立 依赖 列表 是 很 简单 的 。 如 果 模 块 A 引 用 的 符号 在 内 核 自 身 中 没有 定义 ， 而 是 由 另 一 
个 模块 B 定 义 ， 那 么 将 模块 B 的 名 称 添加 到 模块 A 的 依赖 列表 中 。 
(3) 最 后 一 步 ， 内 核 将 结果 module.mod.c 文 件 编 译 为 目标 文件 ， 并 使 用 1g 将 其 与 模块 现存 的 .o 
日 标 文件 链接 起 来 。 结 果 文 件 命 名 为 module .ko， 这 是 最 终 的 内 核 模块 ， 可 以 使 用 insmogd 装 载 。 


7.5.2 版 本 控制 函数 

上 文中 我 提 到 , 内 核 使 用 辅助 函数 check_version 确 定 模块 所 需 版 本 的 符号 是 否 与 内 核 中 可 用 符 

号 的 版 本 匹配 。 
该 函数 需要 几 个 参数 : 指向 模块 段 涉 的 一 个 指针 (sechdrs)，__version 段 的 索引 ， 将 要 处 理 符 

号 的 名 称 〈symname)， 指 向 模块 数据 结构 的 一 个 指针 (mod)， 指 问 内 核 提 供 的 对 应 符号 校 验 和 的 一 

个 指针 (crc)， 该 校 验 和 在 解决 该 符号 时 由 __fing_symbol 提 供 。 


kernel/module.c 

static int check version(E]lf_Shdr *sechdrs, 
unsigned int versindex, 
const char *symname, 
struct module *mod, 
const unsigned long *crc) 
































































































































Hl 




















































































































unsigned int i, num versions; 
struct modversion info *versions; 

















/* 导出 模块 没有 提供 校 验 和 ? 那么 ， 内 核 已 经 被 污染 了 。*/ 
i (MerEe) 
return 1; 











如 果 模 块 〈 引 用 未 解决 符号 的 模块 ) 没有 提供 CRC 信 息 ， 则 函数 直接 返回 1。 这 意味 着 版 本 检查 
已 经 成 功 ， 因 为 如 果 没 有 信息 可 用 ， 那 么 检查 也 不 会 失败 。 

否则 内 核 壳 历 该 模块 引用 的 所 有 符号 ， 从 中 搜索 对 应 项 ， 并 比较 模块 中 存储 的 校 验 和 与 内 核 返 
的 校 验 和 (versions [i] .crc 和 *crc)。 如 果 两 者 匹配 ， 则 内 核 返 回 1; 否则 发 出 一 条 警告 消息 ， 并 






































回 


















































412 D70 0 0 
函数 返回 0: 
kernel/module.c 
versions = (void *) sechdrs[versindex] .sh _ addr; 
num versions = sechdrs[versindex] .sh size 











成 功 。 








/ sizeof (struct modversion info); 




































































(i = 0; i < num versions; i++) { 
if (strcmp(versions[i] .name, symname) != 0) 
continue; 
if (versions[t] re.==. *oere) 
return 1; 
printk("%s: disagrees about version of Symbol %s\n", 
mod->name, symname); 
return 0; 
} 
如 果 模 块 的 版 本 表 中 未 发 现 该 符号 ， 则 对 该 符号 不 实施 版 本 控制 。 因 此 ， 函 数 还 是 返回 1， 表 示 
但 前 述 的 tainted 全 局 变量 和 所 述 模 块 的 struct module 实 例 都 会 标记 为 TAINT_ 
FORCED_MODULE， 提 示 后 续 处 理 流程 已 经 使 用 了 一 个 没有 版 本 信息 的 符号 。 


kernel/module.c 




















/* 模块 的 版 本 表 
















































































































































































FP 没有 。 可 以 ， 但 这 污染 了 内 核 。 */ 
if (!(tainted & TAINT FORCED MODULE)) { 
printk("%$s: no version for \"%s\" found: kernel tainted.\n", 
mod->name, symname); 
adqd taint module (mod, TAINT FORCED MODULE); 
J 
} 
7.6 小结 
模块 允许 我 们 在 运行 时 扩展 内 核 提供 的 功能 。 由 于 内 核 中 可 用 驱动 程序 的 数目 庞大 ， 所 以 引入 模 
块 这 种 机 制 非常 重要 ， 因 为 模块 使 得 只 有 真正 需要 的 代码 才 会 在 内 核 中 处 于 活动 状态 。 不 仅 是 设备 驱 
动 程 序 ， 内 核 中 除了 最 基础 的 部 分 之 外 ， 都 可 以 配置 为 模块 。 
我 已 经 讨论 了 如 何 检测 和 解决 模块 之 间 的 依赖 关系 ,模块 在 二 进 制 文件 中 的 表示 方式 ,将 模块 向 
内 核 装 载 、 印 载 的 过 程 。 此 外 ， 我 又 讲述 了 内 核 如 何在 用 户 层 访问 特定 的 功能 特性 时 自动 请 求 加 载 模 
块 ， 但 相应 的 支持 代码 并 不 在 内 核 中 。 这 需要 与 用 户 层 进 行 一 些 交 互 ， 以 确定 所 需 加 载 的 模块 。 
最 后 ， 有 些 模 块 是 针对 不 同 版 本 内 核 编译 的 ， 使 用 的 接口 可 能 与 当前 内 核 不 兼容 ， 对 此 我 介绍 了 
内 核 利 用 模块 版 本 控制 实现 的 保护 机 制 。 














执行 所 需 的 他 


第 8 章 


虚拟 文件 系统 








一 个 完整 的 Linux 系 统 


























数 千 到 数 百 万 个 文件 组 成 ， 文 件 中 存储 了 程序 、 数 据 和 各 种 信 








=z 常 ， 
通 ， 层次 化 的 目录 结构 用 于 对 文件 进行 编目 和 分 组 。 其 中 采用 了 各 种 方法 来 永久 存储 所 需 
的 结构 和 数据 。 

















每 种 操作 系统 都 至 少 有 一 种 “ 标 疹 
E 务 。Linux 附 带 的 Ext2/3 文 伯 




















E 文 件 系 统 ”， 提供 了 或 好 或 差 的 一 些 功 能 ， 用 以 可 靠 而 高 效 地 
































F 系 统 是 一 种 标准 文件 系统 ， 在 过 去 几 年 中 ， 该 文件 系统 被 证 

















实 非常 健壮 且 适 于 日 常 使 用 。 尺 管 如 此 ,还 有 其 他 为 Linux 编 写 或 移植 的 文件 系统 ， 所 有 这 些 都 是 Ext2 


可 接受 的 备 选 方 案 。 当 然 ， 这 
方法 ， 那 与 操作 系统 作为 一 种 抽象 机 制 的 
为 支持 各 种 本 机 文件 系统 ， 
标准 库 ) 和 文件 系统 实现 之 间 引 
简称 VFS。" 图 8-1 说 明了 该 抽象 层 的 重 





















































不 意味 着 程序 员 必 须 对 他 们 使 用 的 每 种 文件 系统 采用 不 同 的 文件 存 取 





















































的 是 背道而驰 的 。 






































在 同时 允许 访问 其 他 操作 系统 的 文件 ，Linux 内 核 在 用 户 进 程 (或 C 
入 了 一 个 抽 








象 层 。 该 抽象 层 称 之 为 0 0 0 DODD (Virtual File System )， 














EE 要 性 。 



































系统 调用 








应 用 程序 


C 标 准 库 〈libc) 




















































Ext2/3 





虚拟 文件 系统 (VFS) 





图 8-1 











] 作 文件 系统 抽象 的 VFS 


MU 





























VEFS 的 任务 并 不 简单 。 一 方面 ， 它 用 来 提供 一 种 操作 文件 、 目 录 及 其 他 对 象 的 统一 方法 。 妃 一 方 8 

















面 都 有 


已 必须 能 够 与 各 种 方法 给 出 的 具体 文 






































牛 系统 的 实现 达成 妥协 ， 这 些 实现 在 具体 细节 、 总 体 设 计 方 



































8.1 文件 系统 类 型 


文件 系统 一 般 可 以 分 为 下 























些 不 同 之 处 。 但 VFS 的 回报 很 高 ， 
内 核 支 持 40 多 种 文件 系统 , 其 来 源 各 种 各 样 :来 自 MS-DOS 的 FAT 文 件 系 统 、UFS(Berkeley UNIX)、 
用 于 CD-ROM 的 is09660、 网 络 文件 系统 (如 coda 和 NFS) 和 虚拟 的 文件 系统 (如 proc)。 





而 3 种 。 














已 使 得 Linux 内 核 更 加 灵活 了 。 











Q 有 时 候 也 使 用 virtual filesystem switch 这 个 术语 来 表示 虚拟 文件 系统 。 
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(1) 基于 磁盘 的 文件 系统 (Disk-based Filesystem ) 是 在 非 易 失 介质 
在 多 次 会 话 之 间 保 持 文件 的 内 容 。 实 际 上 ， 大 多 数 文件 系统 都 
文件 系统 ， 包 括 Ext2/3、Reiserfs、FAT 和 iso9660。 所 有 这 些 文 
以 下 问题 ， 如 何 将 文件 
法 不 感 兴趣 ， 内 核 中 对 应 的 驱动 





是 存储 块 组 成 的 一 个 列表 ， 文 件 系统 相当 于 对 


(2) 虚拟 文件 系统 


proc 文 件 系统 是 这 一 类 的 最 佳 


并 了 一 个 层次 化 的 文 





/proc/version 在 用 1s 命 令 查 








1 此 演变 | 

































































上 存储 文件 的 经 典 方法 ， 用 以 
[来 。 
牛 系统 都 使 用 面 


比如 ， 一 些 众所周知 的 
向 块 的 介质 ， 必 须 解 决 



























































内 容 和 结构 信息 存储 在 目录 层次 结构 上 。 在 这 里 我 们 对 与 底层 块 设备 通信 的 方 
程序 对 此 提供 了 统一 的 接口 。 从 文件 系统 的 角度 来 看 ， 底 层 设备 无 非 

该 列表 实施 一 个 适当 的 组 织 方案 。 
(Virtual Filesystem ) 在 内 核 中 生成 ， 是 一 种 使 用 户 应 用 程序 与 用 户 通信 的 方法 。 

















件 结构 ， 


个 人 页 




















示例 。 它 不 需要 在 任何 种 类 的 硬件 设备 上 分 本 
其 中 的 项 包含 了 与 系统 特定 部 分 相关 的 信息 。 举 例 来 说 ， 文 件 
看 时 ， 标 称 长 度 为 0 字 节 。 








wolfgang@meitner> 1s -1 /proc/version 


nk te et tt 


但 如 果 用 cat 
的 数据 结构 提取 而 来 。 
wolfgang@meitne 


Linux version 2 
#1 Tue Jan 29 0 








(3) 网 络 文件 系统 (Network Filesystem) 是 基 卫 
种 文件 系统 允许 访问 另 一 台 计 算 机 上 的 数据 ， 该 计算 机 
数据 实际 上 存储 在 一 个 不 同系 统 的 硬件 设备 上 。 这 意味 着 内 核 了 
远程 计算 机 








信 的 细节 ， 这 些 














输出 文件 内 容 ， 内 核 会 产生 一 个 有 关系 统 处 到 


r> cat /proc/version 
.6.24 (wolfgang@schr 
3:58:03 GMT 2008 

















对 





程 向 文件 写 数据 


远程 计 





时 ， 数 据 使 用 
| 算 机 负责 存储 传输 的 数据 并 通 和 


几 的 内 核 处 理 。 





ot root 0 May 27 00:36 /proc/version 





存储 空间 。 相 反 ， 内 核 建 


























器 的 信 ， 





oedinger) 








De 


过 














央 列 表 。 这 列 


(gcc version 4.2.1 
































特定 的 协议 ( 


使 尺 





























发送 者 











尽管 如 此 ， 
文件 的 其 他 重要 信息 。 














即使 在 内 核 处 














到 
必须 也 提 








它 ， 














网 络 文件 系统 


还 


数据 已 经 





到 


到 达 。 



































比 类 文件 系统 中 文件 的 操作 者 
具体 的 网 络 文件 系统 决定 ) 发 送 到 远程 


时 ， 仍 然 需要 文件 长 度 、 文 从 


供 函数 ， 使 得 用 户 进 程 能 够 执行 通常 的 文 作 




















表 从 内 核 内 存 中 








(SUSE Lirmmux)) 





F 磁盘 的 文件 系统 和 虚拟 文件 系统 之 间 的 折 中 。 这 
过 网 络 连接 到 本 地 计算 机 。 在 这 种 情况 下 ， 
E 需 关注 文件 存 取 、 数 据 组 织 和 硬件 通 
通过 网 络 连接 进行 。 在 进 





计算 机 。 接 下 来 





[在 目录 层次 中 的 位 置 以 及 
相关 操作 ， 如 打开 、 读 、 















































删除 等 。 由 于 VFS 抽 象 
8.2 











个 术语 的 含义 看 起 来 似乎 很 清楚 ， 











层 的 存在 ， 


户 空间 进 


通用 文件 模型 
VFS 不 仅 为 文件 系统 提供 了 方法 和 抽 





象 ， 














程 不 会 看 到 本 地 文件 系统 与 网 络 文件 系统 之 间 的 





别 


o 


还 支持 文件 系统 中 对 象 ( 或 0 口 ) 的 统一 视图 。DD 这 




















1 


























的 差异 。 并 非 所 有 文件 系统 都 支持 同样 的 功能 ， 
对 象 完全 没有 意义 ， 例 如 集成 到 VFSH 
非 每 一 种 文件 系统 都 支持 VFS 中 
(如 FAT)， 后 者 的 设计 没有 考 

定义 一 个 最 小 的 通用 模型 ， 来 支持 内 核 
为 这 样 会 损失 许多 本 质 性 的 功能 特性 ， 或 者 导致 这 些 特性 只 
际 上 否定 了 虚拟 抽象 层 所 带 来 的 好 处 。VFS 的 方案 完全 术 






































Ph 的 0 0 0 








0 





= 





的 所 


El 





象 。 设备 文件 无 法 存 




















虑 到 此 类 对 象 。 








渚 在 源 自 





于 各 个 文件 系统 的 底层 实现 不 同 ， 其 语义 经 常 有 许多 小 而 微妙 


T 有 些 操作 〈 对 “普通 ”文件 是 不 可 缺少 的 ) 对 某 些 


统 


UD 


其 他 系统 的 文件 系 





























| 

















目 反 : 提供 











0D 文件 系统 都 实现 的 那些 功能 ， 这 是 不 实际 的 。 因 
能 通过 特定 文件 系统 的 路 径 访 问 。 这 实 
种 结构 模型 ， 包 含 了 一 个 强大 








文件 系统 所 应 具备 的 所 有 组 件 。 但 该 模型 上 只 存在 于 虚拟 中 ， 必 须 使 用 各 种 对 象 和 函数 指针 与 每 种 文 


件 系统 适 配 。 所 有 文件 











的 差异 。 


F 系 统 的 实现 都 必须 提供 与 VFS 定 义 的 结 














构 配 合 的 全 





I 程 ， 


以 弥合 两 种 视图 之 间 
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, 








当然 ， 虚 拟 文件 系统 的 结构 并 非 是 幻想 出 来 的 东西 ， 而 是 基于 描述 经 典 文 件 系 统 所 使 用 的 结构 。 
VFS 抽 象 层 的 组 织 显然 也 与 Ext2 文 件 系统 类 似 。 这 对 于 基于 完全 不 同 概念 的 文件 系统 来 说 ， 会 更 加 困 
难 《〈 例 如 ，Reiser 或 XFS 文 件 系 统 )， 但 处 理 Ext2 文 件 系统 时 会 提高 性 能 ， 因 为 在 Ext2 和 VFS 结 构 之 间 
转换 ， 几 乎 不 会 损失 时 间 。 
在 处 理 文件 时 ， 内 核 室 间 和 用 户 空间 使 用 的 主要 对 象 是 不 同 的 。 对 用 户 程序 来 说 ， 一 个 文件 由 一 
个 0000D0 标识 。 该 描述 符 是 一 个 整数 ， 在 所 有 有 关 文 件 的 操作 中 用 作 标 识 文件 的 参数 。 文 件 描述 
符 是 在 打开 文件 时 由 内 核 分 配 ， 只 在 一 个 进程 内 部 有 效 。 两 个 不 同 进程 可 以 使 用 同样 的 文件 描述 符 ， 
但 二 者 并 不 指向 同一 个 文件 。 基 于 同一 个 描述 符 来 共享 文件 是 不 可 能 的 。 
内 核 处 理 文 件 的 关键 是 inode。 每 个 文件 (和 目录 )〉 都 有 且 只 有 一 个 对 应 的 indoe， 其 中 包含 元 数 
据 (如 访问 权限 、 上 次 修改 的 日 期 ， 等 等 ) 和 指向 文件 数据 的 指针 。 但 inode 并 0 包含 一 个 重要 的 信息 
项 ， 即 文件 名 ， 这 看 起 来 似乎 有 些 上 古怪 。 通 常 ， 假 定 文件 名 称 是 其 主要 特征 之 一 ， 因 此 应 该 被 归 入 用 
于 管理 文件 的 对 象 (inode) 中。 在 下 一 节 中 ， 我 会 解释 这 样 做 的 原因 。 
8.2.1 inode 

如 何 用 数据 结构 表示 目录 的 层次 结构 ?如 前 所 述 ，inode 对 文件 实现 来 说 是 一 个 主要 的 概念 ， 但 
它 也 用 于 实现 目录 。 换 名 话说 ， 目 录 只 是 一 种 特殊 的 文件 ， 它 必须 正确 地 解释 。 

inode 的 成 员 可 能 分 为 下 面 两 类 。 

(1) 描述 文件 状态 的 元 数据 。 例 如 ， 访 问 权 限 或 上 次 修改 的 日 期 。 

(2) 保存 实际 文件 内 容 的 数据 段 〈 或 指 回 数 据 的 指针 )。 就 文本 文件 来 说 ， 用 于 保存 文本 。 

为 阐明 如 何 用 inodes 来 构造 文件 系统 的 目录 层次 结构 ， 我 们 来 考察 内 核查 找 对 应 于 /usr/bin/ 
emacs 的 inode 过 程 。 

查找 起 始 于 inode， 它 表示 根 目录 /， 对 系统 来 说 必须 总 是 已 知 的 。 该 目录 由 一 个 inode 表 示 ， 其 数 
据 段 并 不 包含 普通 数据 ， 而 是 根 目录 下 的 各 个 目录 项 。 这 些 项 可 能 代表 文件 或 其 他 目录 。 每 个 项 由 两 
个 成 员 组 成 。 

(1) 该 目录 项 的 数据 所 在 inode 的 编号 。 

(2) 文件 或 目录 的 名 称 。 

系统 中 所 有 inode 都 有 一 个 特定 的 编号 ， 用 于 唯一 地 标识 各 个 inode。 文 件 名 和 inode 之 间 的 关联 即 
通过 该 编号 建立 。 

查找 操作 中 的 第 一 步 是 查找 子 目 录 uszr 的 inode。 这 一 步 会 扫描 根 inode 的 数据 段 ， 直 至 找到 
个 名 为 usz 的 目录 项 (如果 查找 失败 ， 则 返回 File not found 错 误 )。 相 关 的 inode 可 以 根据 inode 编 号 
定位 。 
重复 上 述 步 又， 但 这 一 次 在 usz 对 心 inode 的 数据 段 中 查找 名 为 bin 的 目录 项 ， 以 便 根据 其 mode 编 
号 定位 pode。 下 一 步 在 bin 的 inode 数 据 段 中 ， 将 查找 名 为 emacs 的 目录 项 。 这 仍然 会 返回 一 个 inode 编 
号 ， 这 一 次 的 inode 表 示 文 件 而 非 目 录 。 图 8-2 给 出 了 查找 过 程 结束 时 的 情形 《所 经 由 的 路 径 由 对 象 之 
间 的 指针 表示 )。 
最 后 一 个 inode 的 文件 内 容 ， 与 前 三 个 inode 不 同 。 前 三 个 inode 都 表示 目录 ， 其 文件 内 容 是 目录 项 
的 一 个 列表 ， 包 括 子 目录 和 文件 。 与 emacs 文 件 关联 的 inode， 其 数据 段 存 储 了 文件 的 内 容 。 
尽管 上 述 的 分 步 文件 查找 过 程 ， 其 基本 思想 与 VFS 的 实际 实现 相同 ， 但 有 一 些 细节 上 的 差异 。 例 
如 ， 实 际 的 实现 使 用 了 缓存 来 加 速 查找 操作 ， 因 为 频繁 打开 文件 是 一 个 很 慢 的 过 程 。 此 外 ，VEFS 层 必 
须 与 提供 实际 信息 的 底层 文件 系统 通信 。 


















































































































































































































































































































































































































































































































































| 



















































































































































































































































































416 


U80 DUUD0UUDO 





8.2.2 ”链接 


DO dink〉 用 于 建立 文件 系统 对 和 象 之 间 的 


0000 与 0D 


符号 连接 可 以 认为 是 “方向 指针 ”( 至 少 从 用 
9 文件 在 其 他 地 方 。 
有 时 使 用 0 0 0 来 表示 此 类 链接 。 这 是 
其 中 除了 指向 文件 名 的 指针 ， 
保持 。 对 每 个 符号 链接 都 人 


置 。 当 然 我 们 者 





一 个 目录 项 ， 


目标 的 路 径 。 





国 | Inode | 数据 段 


图 8-2 














Bis 


PB 知道 ， 实 际 























/和 
二 














无 法 


inode 编 号 。 


对 于 符号 链接 ， 可 以 
区 分 哪个 文件 是 原来 的 ， 哪 个 是 后 来 建立 














删除 符号 链接 


享 同一 个 inode。 





间 供 后 续 使 用 。 那 么 接 下 来 B 就 不 能 继续 访问 了 了， 
不 是 我 们 想 要 的 行为 。 

















不 困难 ,但 








一 个 














查找 /usr/pbin/emacs 的 操作 














因为 链接 和 链接 目标 彼此 




















便 链 接 的 处 理 有 
必 户 现在 想 要 删除 A。 这 




































































不 存在 其 他 数据 。 目 标 文 但 
了 一 个 独立 的 inode。 相 应 inode 的 数据 段 包含 一 个 字符 串 ， 





出 





未 紧密 耘 合 。 


噶 除 时 ， 符 号 链接 仍然 继续 





区 分 原始 文件 和 链接 。 对 于 便 链 接 ， 情 况 不 是 这 样 。 
的 。 在 便 链 接 建 立时 ， 创 建 的 





点 技巧 。 我 们 假定 硬 链 接 〈B) 与 原始 文件 (A) 共 
通常 会 销毁 相关 的 inode 连 同 其 数据 段 ， 以 便 释放 存储 空 





居 系 ， 这 不 符合 经 典 的 树 模型 。 有 两 种 类 型 的 链接 ， 











户 程 序 来 看 是 这 样 )， 表 示 某 个 文件 存在 于 特定 的 位 





链接 可 以 认为 是 


给 出 了 链接 





在 便 链 接 已 经 建立 后 ， 























录 项 使 用 了 一 个 现存 的 


























大 











为 相关 的 inode 和 文 从 





信息 不 再 存在 了 。 当 然 ， 这 


在 inode 中 加 入 一 个 计数 器 ， 即 可 防止 这 种 情况 。 每 次 对 文件 创建 一 个 硬 链 接 时 ， 都 将 计数 器 加 1。 


如 果 其 中 一 个 硬 链 接 或 原始 文件 被 删 





归 0 时 ， 我 们 才 























8.2.3 ”编程 接口 











户 进程 











除 〈 不 可 能 
能 确认 该 inode 不 再 使 用 ， 可 以 从 系统 删除 。 





上 内 核 的 VFS 实 现 之 间 的 接口 





般 意 义 上 的 文 从 








主题 ， 如 [SR05] 和 [Her03])。 


对 上 述 的 操作 ， 内 核 提 供 了 50 多 个 系统 调用 。 我 介 
月 open 或 openat 系 统 调用 打 





文件 使 用 之 前 ， 必 须 月 














照例 














系统 调 



























































。 在 成 功 失 
































QD 利 





] 文 件 





进行 通 
后 者 在 C 标 准 库 中 








言 ， 不 仅 可 以 通过 文件 描述 符 进行 ， 还 可 以 借助 了 
实现 ， 并 非 由 内 核实 现 。 流 在 内 部 使 


























了 通常 的 文件 描述 符 。 











区 分 这 两 种 情况 )， 那 么 ; 


组成， 其 中 大 多 数 涉及 对 文件 、 
系统 的 操作 。 这 里 ， 我 们 并 不 关注 系统 程序 设计 的 具体 细 


+ 
EE 





FD (stream)。 后 者 提供 











等 计 数 器 减 1。 只 有 在 计数 器 























目录 和 一 
(这 是 许多 其 他 出 版 物 的 





] 只 考察 最 重要 的 调用 ， 以 阐明 关键 原则 。” 
文件 之 后 ， 内 核 向 用 户 层 i 











户 层 返回 





























了 全 小 








。 但 
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一 个 非 负 的 整数 。 这 种 分 配 的 文件 描述 符 起 始 于 3。 我 们 知道 ， 尽 管 没 有 明确 规定 ， 这 个 标识 符号 之 
所 以 不 从 0 开始 ， 是 因为 所 有 的 进程 都 分 配 了 前 3 个 标识 符 (0~2)。0 表 示 标 准 输入 ，1 表 示 标 准 输出 ， 
2 表示 标准 错误 输出 。 
在 文件 已 经 打开 后 ， 其 名 称 就 没什么 用 处 了 。 它 现在 由 其 文件 描述 符 唯一 标识 ， 所 有 其 他 库 函 数 
都 需要 传递 文件 描述 符 作为 一 个 参数 (进一步 传递 到 系统 调用 )。 尽 管 传 统 上 文件 描述 符 在 内 核 中 足 
以 标识 一 个 文件 ， 但 现在 情况 不 再 如 此 。 由 于 多 个 命名 空间 和 容器 的 引入 ， 具 有 相同 数值 的 多 个 文件 
描述 符 可 以 共存 于 内 核 中 。 对 文件 的 唯一 表示 由 一 个 特殊 的 数据 结构 (struct file) 提供 ， 我 将 在 
下 文 讨论 。 
我 们 在 示例 程序 调用 close 的 部 分 会 看 到 文件 描述 符 , 该 调用 关闭 与 文件 的 “连接 ”( 释 放 文 件 描 
述 符 ， 以 便 在 后 续 打 开 其 他 文件 时 使 用 )。 read 也 需要 将 文件 描述 符 作 为 第 一 个 参数 ， 以 标识 读 取 数 
据 的 来 源 。 
在 一 个 打开 文件 中 的 当前 位 置 保存 在 00D 0 DDDU (file pointer) 中， 这 是 一 个 整数 ， 指 定 了 当 
前 位 置 与 文件 起 始点 的 偏 移 量 。 对 口 口 口 口 口 口 而 言 ， 该 指针 可 以 设置 为 任何 值 ， 只 要 不 超出 文件 存 
储 容量 范围 即 可 。 这 用 于 支持 对 文件 数据 的 随机 访问 。 其 他 文件 类 型 ， 如 0 口 0 口 或 字符 设备 的 0 口 
0 D ， 不 支持 这 种 做 法 。 它 们 只 能 从 头 至 尾 顺 序 读 取 。 
在 文件 打开 时 ， 可 以 指定 各 种 标志 《〈 如 o_RDpoNLY)， 用 来 规定 文件 的 存 取 模 式 。 更 详细 的 解释 ， 
请 参考 系统 程序 设计 方面 的 书籍 。 


8.2.4 将 文件 作为 通用 接口 


UNIX 是 基于 少量 审慎 选择 的 范 型 而 建立 的 。 一 个 非常 重要 的 隐喻 贯穿 内 核 的 始终 (特别 是 VFS )， 
尤其 是 在 有 关 输 入 和 输出 机 制 的 实现 方面 。 
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万 物 皆 文件 
好 ， 我 们 承认 : 当然 该 规则 有 少数 例外 《例如 ， 网 络 设备 )， 但 大 多 数 内 核 导 出 、 用 户 程序 使 用 的 
函数 都 可 以 通过 VFS 定 义 的 文件 接口 访问 。 以 下 是 使 用 文件 作为 其 主要 通信 手段 的 一 部 分 内 核子 系统 : 


























口 字符 和 块 设备 ; 

口 进程 之 间 的 管道 ; 

口 用 于 所 有 网 络 协议 的 套 接 字 ; 

口 用 于 交互 式 输入 和 输出 的 终端 。 

要 注意 ， 上 述 的 某 些 对 象 不 一 定 联系 到 文件 系统 中 的 某 个 项 。 例 如 ， 管 道 是 通过 特殊 的 系统 调用 
生成 ， 然 后 由 内 核 在 VFS 的 数据 结构 中 管理 ， 管 道 并 不 对 应 于 一 个 可 以 用 通常 的 rm、1s 等 “命令 访问 
的 真正 的 文件 系统 项 。 
我 们 特别 感 兴趣 的 〈 尤 其 是 ， 从 第 6 章 的 上 下 文 来 考虑 ) 是 访问 块 设备 和 字符 设备 的 设备 文件 。 这 
些 是 真正 的 文件 , 通常 位 于 /dev 目 录 。 其 内 容 是 在 进行 读 写 操作 时 由 相关 的 设备 驱动 程序 动态 生成 的 。 


8.3 VFS 的 结构 


既然 我 们 已 经 熟悉 了 VFS 的 基本 结构 和 用 户 接口 ， 下 面 我 们 将 重点 讨论 其 实现 细节 。 在 VFS 接 口 
的 实现 中 ， 涉 及 大 量 数据 结构 ， 有 些 非 常见 长 。 因 此 最 好 草拟 出 各 个 组 成 部 分 的 一 个 大 体 概观 ， 并 说 
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G 命名 管道 确实 在 文件 系统 中 有 对 应 项 ， 所 以 是 可 以 访问 的 。 
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明 其 联结 方式 。 
8.3.1 结构 概观 


VFS 由 两 个 部 分 组 成 : 文件 和 文件 系统 ， 这 些 都 需要 管理 和 抽象 。 
1. 文件 的 表示 










































































如 上 所 述 ，inode 是 内 核 选择 用 于 表示 文件 内 容 和 相关 元 数据 的 方法 。 理 论 上 上， 实现 这 个 概念 只 
需要 一 个 数据 结构 (尽管 很 长 )， 其 中 包含 了 所 有 必要 的 数据 。 实 际 上 ， 数 据 分 散 到 一 系列 较 小 的 、 
相互 关系 如 图 8-3 所 示 。 
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布局 清晰 的 结构 中 ，: 


super_bloc 





























文件 的 file 实 例 
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a 双 链 表 (图 示 )》 











图 8-3 ”各 个 VFS 组 件 的 相互 关系 


在 抽象 对 底层 文件 系统 的 访问 时 ， 并 未 使 用 固定 的 函数 ， 而 是 使 用 了 函数 指针 。 这 些 函 数 指针 保 
存在 两 个 结构 中 ， 包 括 了 所 有 相关 的 函数 。 

(1) inode 操 作 : 创建 链接 、 文 件 重 命 名 、 在 目录 中 生成 新 文件 、 删 除 文件 。 

(2) 文件 操作 : 作用 于 文件 的 数据 内 容 。 它 们 包含 一 些 显 然 的 操作 (如 读 和 写 )， 还 包括 如 设置 文 
牛 位 置 指针 和 创建 内 存 映 射 之 类 的 操作 。 

除 此 之 外 ， 还 需要 其 他 结构 来 保存 与 inode 相 关 的 信息 。 特 别 重 要 的 是 与 每 个 inode 关 联 的 数据 段 ， 
其 中 存储 了 文件 的 内 容 或 目录 项 表 。 每 个 inode 还 包含 了 一 个 指向 底层 文件 系统 的 超级 块 对 象 的 指针 ， 
于 执行 对 inode 本 身 的 操作 〈 这 些 操作 也 是 通过 函数 指针 数组 实现 ， 稍 后 我 们 会 看 到 )。 还 可 以 提供 
有 关 文 件 系统 特性 和 限制 的 信息 。 
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因为 打开 的 文件 总 是 分 配 到 系统 中 一 个 特定 的 进程 , 内 核 必 须 在 数据 结构 中 存储 文件 和 进程 之 间 
的 关联 。 在 第 2 章 简 要 讨论 过 ，task_struct 包 含 一 个 成 员 ， 其 中 保存 了 所 有 打开 的 文件 〈 通 过 一 种 
寺 回 方式 )。 该 成 员 是 一 个 数组 ， 访 问 时 使 用 文件 描述 符 作 为 索引 。 各 个 数组 项 包含 的 对 象 不 仅 关 联 
到 对 应 文件 的 inode， 还 包含 一 个 指针 ， 指 向 用 于 加 速 查 找 操作 的 目录 项 缓存 的 一 个 成 员 。 

各 个 文件 系统 的 实现 也 能 在 VFS inode 中 存储 自身 的 数据 (不 通过 VFS 层 操作 )。 

2. 文件 系统 和 超级 块 信息 

VEFS 文 持 的 文件 系统 类 型 通过 一 种 特殊 的 内 核对 象 连接 进来 ， 该 对 象 提 供 了 一 种 读 取 D 口 口 的 方 
法 。 除 了 文件 系统 的 关键 信息 〈 块 长 度 、 最 大 文件 长 度 ， 等 等 ) 之 外 ， 超 级 块 还 包含 了 读 、 写 、 操 作 
inode 的 函数 指针 。 
内 核 还 建立 了 一 个 链表 ， 包 含 所 有 活动 文件 系统 的 超级 块 实例 。 之 所 以 使 用 口 〈active) 这 个 
术语 蔡 代 0 口 口 (mounted)， 是 因为 在 某 些 环 境 中 ， 有 可 能 使 用 一 个 超级 块 对 应 几 个 装载 点 。” 
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超级 块 结构 的 一 个 重要 成 员 是 一 个 列表 ， 包 括 相 关 文 件 系 统 中 所 有 修改 过 的 inode (内 核 相当 不 
敬 地 称 之 为 0D inode )。 根 据 该 列表 很 容易 标识 已 经 修改 过 的 文件 和 目录 ， 以 便 将 其 写 回 到 存储 介质 。 
可 写 必须 经 过 协调 ， 保 证 在 一 定 程度 上 最 小 化 开销 ， 因 为 这 是 一 个 非常 费时 的 操作 〔 便 盘 、 软 盘 驱 动 
器 及 其 他 介质 与 系统 其 余 组 件 相 比 ， 速 度 很 慢 )。 男 一 方面 ， 如 果 写 回 修改 数据 的 间隔 太 长 也 可 能 
严重 后 果 ， 因 为 系统 骨 溃 《或 者 ， 就 Linux 的 情形 而 言 ， 更 可 能 的 是 停电 ) 会 导致 不 能 恢复 的 数据 丢 
失 。 内 核 会 周期 性 扫描 脏 块 的 列表 ， 并 将 修改 传输 到 底层 硬件 。” 
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8.3.2 inode 

VFS 的 inode 结 构 如 下 : 

<fs.h> 

struct inode { 
struct hlist_node i_hash; 
struct list_head i 
struct list_head pe 
struct list head i_dentry; 
unsigned long i_ ino; 
atomic_t 1 Ounty 
unsigned int Li] 
uiqd 七 i_uid; 
giqd_ 七 i_gid 
dev_t i_rdev 
unsigned long i_version; 
二 放下 人 泡 i _ sizes 
struct timespec i_atime; 
struct timespec i_mtime; 
struct timespec i_ctime; 

















@ 在 块 设备 上 的 一 个 文件 系统 装载 到 目录 层次 结构 中 的 几 个 位 置 时 。 
@) 在 裸 硬 件 和 内 核 之 间 还 有 额外 的 缓存 ， 如 第 6 章 所 述 。 
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unsigned int 
blkcnt_t 
umode_t 


i_blkbits; 
i_blocks; 
i_mode; 


struct inode_ operations *i_op; 
const struct file operations *i_fop; /* 此 前 为 ->i_op->default_file ops */ 


struct super_block 
struct address_space 
struct address_space 
Struct doaudt 





struct list_head 


union { 


A SD 

*i_mapping; 

i_data; 

*i_dquot [MAXQUOTAS] ; 


i_devices; 


struct pipe_ inode info *i pipe; 
struct block_ device *i_bdev; 
struct cdev *i_cdev; 


u32 


unsigned long 
unsigned long 


unsigned int 


atomic_t 
void 








该 结构 包括 几 个 链表 元 素 ， 











生成 或 动态 建 








Mo 























取信 息 并 生成 





这 里 给 出 的 形式 。 

















i_cindex; 
i_generation; 


i_state; 
dirtieqd_when; /* 第 一 个 脏 操作 发 生 的 时 间 , 以 jiffies 计 算 */ 








i_flags; 


i_writecount; 
*i_security; 


























] 于 分 类 管理 各 个 inode。 我 们 将 在 下 文 考察 各 个 链表 的 重要 性 。 
在 解释 各 个 结构 成 员 的 语义 之 前 ， 应 该 记 住 这 里 考察 的 inode 结 构 是 用 于 0 0 0 口 进行 处 理 ， 
J 包含 了 一 些 实际 介质 上 存储 的 inode 所 0 口 的 成 员 。 这 些 是 由 内 核 自身 在 从 底层 文件 系统 读 入 信息 


















































要 团 



































还 有 一 些 文件 系统 , 如 FAT 和 Reiserfs 没 有 使 用 经 典 意义 上 的 inode, 因此 必须 从 其 包含 的 数据 中 提 











大 部 分 成 员 用 于 管理 简单 的 状态 信息 。 例 如 ，i_atime、i_mtime、t_ctime 分 别 存储 了 最 后 访 
后 修改 的 时 间 、 最 后 修改 inode 的 时 间 。 [DO 意味 着 修改 与 node 相 关 的 数据 段 内 容 。 修 





问 的 时 间 、 最 


改 inode 意 味 着 修改 inode 结 构 自 
文件 长 度 保存 在 i_size， 


系统 的 特征 ， 























不 属于 文件 自身 。 














存储 空间 的 最 
将 更 详细 地 讨 









































进程 同时 使 用 
文件 访问 











小 单位 (Ext2 文 伯 


系统 的 晶 





身 或 文件 的 某 个 属性 )， 这 导致 了 i_ctime 的 改变 。 
按 字 节 计算 。1_blocks 指 定 了 文件 按 块 计算 的 长 度 。 后 一 个 值 是 文件 
在 许多 文件 系统 创建 时 ， 会 选择 一 个 块 长 度 ， 作 为 在 硬件 介质 上 分 配 


















































\ 认 值 是 每 块 4 096 字 节 ， 但 可 以 选择 更 大 或 更 小 的 值 ， 第 9 章 











论 这 一 点 )。 因 此 ， 按 块 计算 的 文件 长 度 ， 也 可 以 根据 文件 的 字 节 长 度 和 文件 系统 块 长 
度 计算 得 出 。 实 际 上 没有 这 样 做 ， 为 方便 起 见 ， 该 信息 也 归 入 到 inode 结 构 。 

每 个 VFS inode〈 对 给 定 的 文件 系统 ) 都 由 一 个 唯一 的 编号 标识 ， 保 存在 i_ino 中 。i_count 是 一 
个 使 用 计数 器 ， 指 定 访问 该 inode 结 构 的 进程 数目 。 例 如 ， 进 程 通过 fork 复 制 自身 时 ，inode 会 由 不 同 





， 如 第 2 章 所 述 。i_n1link 也 是 一 个 计数 器 ， 记 录 使 用 该 inode 的 硬 链接 总 数 。 
权限 和 所 有 权 保 存在 i_mogde( 文 件 类 型 和 访问 权限 )、i_uig 和 i_giq (与 该 文件 相关 的 








UID 和 GID) 上 
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在 inode 表 示 设 备 文件 时 ， 则 需要 i_rdev。 它 表示 与 哪个 设备 进行 通信 。 要 注意 ，i_rgdev 只 是 一 
个 数字 , 不 是 数据 结构 ! 但 这 个 数字 包含 的 信息 ， 即 足以 找到 有 关 目 标 设 备 、 我 们 感 兴趣 的 所 有 信息 。 
对 块 设备 ， 最 终 会 找到 struct block_device 的 一 个 实例 ， 如 第 6 章 所 述 。? 

如 果 inode 表 示 设 备 特殊 文件 ， 那 么 i_rdev 之 后 的 匿名 联合 就 包含 了 指向 设备 专用 数据 结构 的 
指针 。 

i_bdev 用 于 块 设备 ，i_pipe 包 含 了 用 于 实现 管道 的 inode 的 相关 信息 ， 而 i_cdev 用 于 字符 设备 。 

于 一 个 inode 一 次 只 能 表示 一 种 类 型 的 设备 ， 所 以 将 i_pipe、i_bdev 和 i_cqev 放 置 在 联合 中 是 安全 
的 。i_gdevices 也 与 设备 文件 的 处 理 有 关联 利用 该 成 员 作 为 链表 元 素 ， 使 得 块 设备 或 字符 设备 可 以 
佳 护 一 个 inode 的 链表 ， 每 个 inode 表 示 一 个 设备 文件 ， 通 过 设备 文件 可 以 访问 对 应 的 设备 。 尽 管 在 很 
多 情况 下 每 个 设备 一 个 设备 文件 就 足够 了 ， 但 还 有 很 多 种 可 能 性 。 例 如 chroot 造 成 的 环境 ， 其 中 一 个 
给 定 的 块 设备 或 字符 设备 可 以 通过 多 个 设备 文件 ， 因 而 需要 多 个 inode。 

inode 剩 余 的 成 员 多 数 指向 复合 数据 类 型 ， 其 语义 将 在 下 文 讨 论 。 

1. inode 操 作 

内 核 提 供 了 大 量 函 数 ， 对 inode 进 行 操作 。 为 此 定义 了 一 个 函数 指针 的 集合 ， 以 抽象 这 些 操 作 ， 
因为 实际 数据 是 通过 具体 文件 系统 的 实现 操作 的 。 调 用 接口 总 是 保持 不 变 ,但 实际 工作 是 由 特定 于 实 
现 的 函数 完成 的 。 
inode 结 构 有 两 个 指针 (i_op 和 i_fop)， 指 问 实现 了 上 述 抽 象 的 数组 。 一 个 数组 与 特定 于 inode 的 
操作 有 关 ， 男 一 个 数组 则 提供 了 文件 操作 。inode 结 构 和 file 结 构 都 包括 了 一 个 指向 Eile_operations 
结构 的 指针 。 在 我 们 考察 过 文件 在 内 核 中 的 表示 方式 之 后 ， 再 来 更 仔细 地 考察 这 个 问题 。 在 这 里 ， 知 
道 以 下 这 些 就 足够 了 : file_operations 用 于 操作 文件 中 包含 的 数据 ， 而 inode_operations 人 负责 管 
理 结构 性 的 操作 例如 删除 一 个 文件 ) 和 文件 相关 的 元 数据 例如， 属性)。 

所 有 inode 操 作 都 集中 到 以 下 结构 中 : 


<fs.h> 

struct inode operations { 
int (*create) (struct inode *,struct dentry *,int, struct nameidata *); 
struct dentry * (*lookup) (struct inode *,struct dentry *, struct nameidata *); 


t 
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int (*link) (struct dentry *,struct inode *,struct dentry *); 
int (*unlink) (struct inode *,struct dentry *); 

int (*symlink) (struct inode *,struct dentry *,const char *); 
int (*mkdir) (struct inode *,struct dentry *,int); 

int (*rmdir) (struct inode *,struct dentry *); 

int (*mknod) (struct inode *,struct dentry *,int,dev t); 


int (*rename) (struct inode *, struct dentry *, 
struct inode *, struct dentry *); 
int (*readlink) (struct dentry *, char _ user *,int); 
void * (*follow link) (struct dentry *, struct nameidata *); 
void (*put_link) (struct dentry *, struct nameidata *, void *); 
void (*truncate) (struct inode *); 
*permission) (struct inode *, int, struct nameidata *); 
( 
( 


EE A( 
Int (*setattr) (struct dentry *, struct iattr *),，; 
int (*getattr) (struct vfsmount *mmt, struct dentry *, struct kstat *); 


int (*setxattr) (struct dentry *, const char *,const void *,size t,int); 
ssize t (*getxattr) (struct dentry *, const char *, void *, size t); 
ssize 七 (*listxattr) (struct dentry *, char *, size t); 

int (*removexattr) (struct dentry *, const char *); 

void (*truncate range) (struct inode *, loff t, loff t); 




















QO 已 知 i_rgev 中 的 设备 标识 符 ， 我 们 就 可 使 用 辅助 函数 paget 构 建 一 个 block_qdevice 的 实例 。 





























422 0U8U 0U00000 
long (*fallocate) (struct inode *inode, int mode, loff t offset, 
loff_t len); 
} 
大 多 数 情况 下 ， 各 个 函数 指针 成 员 的 语义 可 根据 其 名 称 推断 。 它 们 与 对 应 的 系统 调用 和 用 户 空 























: 
六 


DO DO 
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E 名 称 方 




















lookup 根 
link 用 于 
牛 使 用 ， 


Xxattz 了 芽 





























多 改 指 
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truncate 履 


] 该 函数 之 前 ， 

















存 文件 系统 文 持 。 
fol 





， 并 非 所 有 名 称 都 可 以 追 洲 
据 文 件 系统 对 象 的 名 称 
j 除 文件 。 但 根据 上 文 的 描述 ， 如 果 硬 
则 不 会 执行 删除 操作 。 
数 建立 、 读 取 、 删 除 文件 的 扩展 属性 ， 
使 用 这 些 属 性 实现 访问 控制 
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truncate range 


Llow_link 根 据 符 号 链接 查找 























条 非常 相 似 (有意 设计 的 )。 例 如 ，rmqir 删 除 目录 ， 


























连 











rename 重 命名 文件 系统 对 象 ， 








有 到 熟悉 的 标准 命令 。 
(表示 为 字符 串 ) 查找 其 inode 实 例 。 
接 的 引用 计数 器 表明 该 inode 仍 然 被 多 个 文 

















经 








的 UNIX 模 型 不 支持 这 些 属性 。 例 如 ， 可 

















表 
Einode 的 长 度 。 该 函数 只 接受 一 个 
须 将 新 的 文件 长 度 手 








, 





























(access control list， 简 称 ACL )。 


设置 到 inode 结 


用 于 截断 一 个 范围 内 的 块 〈 即 ， 在 文件 中 穿孔 )， 但 该 操作 当前 

















参数 ， 即 所 处 理 的 inode 的 数据 结构 。 在 调 
构 的 i_size 成 员 。 























只 右 


-™ 


共享 内 
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Ar 品 
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链接 可 能 是 跨 文件 系统 边界 的 ， 








目标 文件 的 inode。 





该 例 程 的 实现 通常 非常 短 ， 实 际 工作 很 快 委托 给 一 上 











为 符号 


的 VFS 例 程 完成 。 




















fallocate 











于 对 文件 预先 分 配 空间 ,在 一 些 情况 下 
Reiserfs 或 Ext4) 才 支 持 该 
struct dentry 在 所 述 很 多 函数 原型 中 用 作 参 数 。struct dentry 是 一 种 标准 化 的 数据 结构 ， 可 





操作 。 



















































































以 提高 性 能 。 但 只 有 很 新 的 文件 系统 (如 
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以 表示 文件 名 或 目录 。 它 还 建立 了 文件 名 及 其 inode 之 间 的 关联 。 我 们 在 下 文 讨论 aentry 绥 存 时 会 讲 
解 该 结构 ， 它 与 VFS 的 实现 有 很 多 关联 。 目 前 ,我们 只 是 将 dentry 视 为 一 个 结构 ， 提 供 了 文件 名 及 其 
inode 的 有 关 信 息 。 

2. inode 链 表 

每 个 inode 都 有 一 个 i_1ist 成 员 ， 可 以 将 inode 存 储 在 一 个 链表 中 。 根 据 inode 的 状态 ， 它 可 能 有 3 
种 主要 的 情况 。 

(1) inode 存 在 于 内 存 中 ， 未 关联 到 任何 文件 ， 也 不 处 于 活动 使 用 状态 。 

(2) inode 结 构 在 内 存 中 , 正在 由 一 个 或 多 个 进程 使 用 , 通常 表示 一 个 文件 。 两 个 计数 器 (i_count 
和 i_nlink) 的 值 都 必须 大 于 0。 文 件 内 容 和 inode 元 数据 都 与 底层 块 设备 上 的 信息 相同 。 也 就 是 说 ， 
从 上 一 次 与 存储 介质 同步 以 来 ， 该 inode 没 有 改变 过 。 

(3) inode 处 于 活动 使 用 状态 。 其 数据 内 容 已 经 改变 ， 与 存储 介质 上 的 内 容 不 同 。 这 种 状态 的 inode 





被 称 作 





DD. 
在 fs/inode.c 中 内 核定 义 了 两 个 全 
(上 述 第 1 类 )，inode_in_use 用 于 所 有 使 月 




















局 变量 用 作 表 头 ， 


























个 特定 于 超级 块 的 链表 中 。 
第 4 种 可 能 性 出 现 得 不 那么 频繁 ， 一 般 是 与 一 个 超级 块 


动 设备 的 介质 改变 时 ， 
在 所 有 情况 下 ,代码 都 结束 于 invalidate_inodes 函 数 中 ， 
代码 再 
































没有 关系 了 。 























inodqe_unused 用 于 有 效 但 非 活 动 的 inode 





月 但 未 改变 的 inode《〈 第 2 类 )。 脏 的 inode《〈 第 3 类 ) 保存 在 一 











相关 的 所 有 inode 都 无 效 时 。 在 检测 到 可 移 

















此 前 使 用 的 inode 就 都 没有 意义 了 , 男 外 文件 系统 重新 装载 时 也 会 发 生 这 种 情况 。 





无 效 inode 保 存在 一 个 本 地 链表 中 ， 与 VFS 
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每 个 inode 不 仅 出 现在 特定 于 状态 的 链表 中 ， 还 在 一 个 散 列 表 中 出 现 ， 以 文 持 根据 inode 编 号 和 超 
级 块 快速 访问 inode， 这 两 项 的 组 合 在 系统 范围 内 是 唯一 的 。 该 散 列 表 是 一 个 数组 ， 可 以 借助 于 全 局 变 
量 inode_hashtable( 也 定义 在 fs/inode.c 中 ) 来 访问 ,该 表 启 动 期 间 在 fs/inode.c 中 的 inode_init 


函数 中 初始 化 。 消 息 输出 表明 ， 该 数组 的 长 度 基于 可 用 的 物理 内 存 计算 。 


wolfgang@meitner> dmesg 
























































Inode-cache hash table entries: 262144 (order: 9, 2097152 bytes) 














fs/inode.c 中 的 hash 函 数 用 于 计算 散 列 和 “我 不 会 讲述 该 散 列 方法 的 实现 )。 它 将 inode 编 号 和 
超级 块 对 象 的 地 址 合并 为 一 个 唯一 的 编号 ， 保 证 位 于 散 列 表 已 经 分 配 的 下 标 范 围 内 。? 倍 撞 照 例 通过 
溢出 链表 解决 。inode 的 成 员 i_hash 用 于 管理 溢出 链表 。 
除了 散 列 表 之 外 ，inode 还 通过 一 个 特定 于 超级 块 的 链 寻 
i_sb_1ist 用 作 链 表 元 素 。 

但 超级 块 管理 了 更 多 的 inode 链 表 ， 与 1_sb_1ist 所 在 的 链表 是 独立 的 〈8.4.1 节 更 仔细 地 讲解 了 
struct super_block 的 定义 )。 如 果 一 个 inode 是 脏 的 ， 即 其 内 容 已 经 被 修改 ， 则 列 入 脏 链 表 ， 表 头 
为 super_block->s_dirty， 链 表 元 素 是 1_1ist。 这 样 做 有 下 列 好 处 : 在 写 回 数据 时 (数据 回 写 通常 
也 称 之 为 0 0 ) 不 需要 扫描 系统 0 上 0 的 inode， 考 虑 及 链表 上 所 有 的 inode 就 足够 了 。 另 外 两 个 链表 〈 表 
头 为 super_block->s_io 和 super_block->s_more _io) 使 用 同样 的 链表 元 素 i_1ist。 这 两 个 链表 包 
含 的 是 已 经 选中 向 磁盘 回 写 的 inode， 但 正在 等 待 回 写 进行 。 

8.3.3 ”特定 于 进程 的 信息 

文件 描述 符 ( 就 是 整数 ) 用 于 在 一 个 进程 内 唯一 地 标识 打开 的 文件 。 这 假定 了 内 核能 够 在 用 户 
程 中 的 描述 符 和 内 核 内 部 使 用 的 结构 之 间 ， 建 立 一 种 关联 。 每 个 进程 的 task_struct 中 包含 了 用 于 
成 该 工作 的 成 员 。 

<sched.h> 


struct task_struct { 


/* 文件 系统 信息 */ 


int link count, total_ link count; 


/* 文件 系统 信息 */ 

struct fs struct *fs; 
/* 打开 文件 信息 */ 

struct files_struct *files; 
/* 命名 空间 */ 

struct nsproxy *nsproxy; 



















































































住 护 ， 表 头 是 super_block->s_inodqes。 
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让 茜 






















































































整数 成 员 link_count 和 total_1ink_count 用 于 在 查找 环形 链表 时 防止 无 限 循 环 , 我 将 在 8.4.2 节 
阐述 相关 内 容 。 
进程 的 文件 系统 相关 数据 保存 在 fs 中 。 这 些 数据 包含 ， 例 如 当前 工作 目录 和 chroot 限 制 有 关 的 







































































G@ 但 有 些 文件 系统 , 不 能 保证 可 以 根据 inode 编 号 和 相关 的 超级 块 标识 inode。 在 这 种 情况 下 , 还 需要 扫描 其 他 成 员 ( 使 
村 定 于 文件 系统 的 方法 )，iLookup5 是 用 于 该 功能 的 前 端 。 当 前 ， 该 函数 使 用 不 多 ， 仅 限于 sysfg 和 一 些 很 少 
使 用 的 文件 系统 〈 如 OCFS2)。 但 对 于 更 罕见 的 文件 系统 来 说 ， 其 外 部 代码 能 够 访 问 该 函数 。 
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信息 ， 我 将 在 8.3.4 节 讨论 。 























于 内 核 允许 同 














对 运行 多 个 模仿 独立 系统 的 容器 ， 从 容器 角度 看 似 “ 全 局 ”的 每 个 资源 ， 都 由 内 















































核 包 装 起 来 ， 分 别 根据 每 个 容器 进行 管 

















里 。 虚 拟 文件 系统 也 受到 影响 ， 因 为 各 个 容器 可 能 因 装 载 点 的 















































不 同 导 致 不 同 的 目录 层次 结构 。 对 应 的 信息 包含 在 ns_proxy->mnt_namespace〈 人 参见 8.3.4 节 ) 中 。 
files 包 含 当前 进程 的 各 个 文件 描述 符 ， 将 在 下 一 节 讨 论 。 
相关 文件 
task_struct 的 file 成 员 类 型 为 files_struct。 其 定义 如 下 : 
<sched.h> 


struct files_struct { 
atomic_t count; 
struct fdtable *fdt; 
struct fdtable fdtab; 


下 六 


int next_fd:; 
struct embedded_ fqd_set close_on exec_init; 
struct embedded_ fqd_set open_ fds_init; 
struct file * fd array [NR_OPEN_ DEFAULT]; 














next_fd 表 示 下 一 次 打开 新 文件 时 使 用 的 文件 描述 符 。close_on_exec_init 和 open_fqds_init 





是 位 图 。 对 执行 exec 时 将 关闭 的 所 有 文件 描述 符 ， 在 close_on_exec 中 对 应 的 比特 位 都 将 置 位 。 
open_fds_init 是 最 初 的 文件 描述 符 集 合 。 struct embeddeqd_fq_set 只 是 一 个 简单 的 unsigned long 


整数 ， 封 装 在 一 个 特殊 的 结构 中 。 


<file.h> 























struct embedded fq set { 
unsigned long fds_ bits[1]; 


hb 





结构 。 











fg_array 的 每 个 数组 项 都 是 一 个 指针 ， 指 向 每 个 打开 文件 的 struct file 实 例 ， 稍 后 我 会 讨论 该 














内 核 允 许 每 个 进程 打开 NR_OPEN_DEFAULT 个 文件 。 该 值 定义 在 include/ 
linux/sched.h 中 ， 默 认 值 为 BITS_PER_LONG。 因 此 在 32 位 系统 上 ， 人 允许 打开 文件 的 初始 数目 是 32。 








64 位 系统 可 以 同时 处 理 64 个 文件 。 如 果 























中 用 于 管理 与 进 
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个 进程 试图 同时 打开 更 多 的 文件 , 内 核 必须 对 files_struct 





程 相关 的 所 有 文件 信息 的 各 个 成 员 ， 分 配 更 多 的 内 存 空间 。 








最 重要 的 信息 包含 在 fatap 中 。 内 核 为 此 定义 了 另 一 个 数据 结构 。 


<file.h> 





struct fdtable { 


ye 


struct files_structd 


unsign 
cruct 
d_set 
d_set 
bxuct 
Cruct 
ret 


Wnnmhihn 





ed int max_ fds; 
下 生 二 火炎 -下 Qs ./ 交 
*close_on._ exec; 
*open_fds; 
rcu_head rcu; 


当前 fq_array */ 





files_struct *free_ files; 


fdtable *next; 






































Ph 包含 了 该 结构 的 一 个 实例 和 指向 一 个 实例 的 指针 , 因为 这 里 使 用 了 RCU 
































机 制 以 便 在 无 需 锁 定 的 情况 下 读 取 这 些 数据 结构 ， 这 可 以 加 速 处 理 。 在 讨论 具体 的 做 法 之 前 ， 我 们 需 
要 介绍 各 个 成 员 的 语义 。 
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max_fds 指 定 了 进程 当前 可 以 处 理 的 文件 对 象 和 文件 描述 符 的 最 大 数目 。 这 里 没有 固有 的 上 限 
因为 这 两 个 值 都 可 以 在 必要 时 增加 (只 要 没有 超出 由 Rlimit 指 定 的 值 ， 但 这 与 文件 结构 无 关 )。 尽 管 
核 使 用 的 文件 对 象 和 文件 描述 符 的 数目 总 是 相同 的 ， 但 必须 定义 不 同 的 最 大 数目 。 这 归 因 于 管理 相 
数据 结构 的 方法 。 我 会 在 下 文 解释 这 一 证 但 首先 必须 阐明 该 结构 剩余 成 员 的 语义 。 
口 fd 是 一 个 指针 数组 ， 每 个 数组 项 指向 一 个 tile 结构 的 实例 ， 管 理 一 个 打开 文件 的 所 有 信息 。 
] 户 空间 进程 的 文件 描述 符 充当 数组 索引 。 该 数组 当前 的 长 度 由 max_fds 定 义 。 

口 open_fgds 是 一 个 指向 位 域 的 指针 ， 该 位 域 管理 着 当前 所 有 打开 文件 的 描述 符 。 每 个 可 能 的 文 
件 描述 符 都 对 应 着 一 个 比特 位 。 如 果 该 比特 位 置 位 ， 则 对 应 的 文件 描述 符 处 于 使 用 中 ;否则 
该 描述 符 未 使 用 。 当 前 比特 位 置 的 最 大 数目 由 max_faqset 指 定 。 
个 指向 位 域 的 指针 ， 该 位 域 保存 了 所 有 在 exec 系 统 调用 时 将 要 关闭 的 
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口 close_on_exec 也 是 一 
文件 描述 符 的 信息 。 
初 看 起 来 ，struct fdtable 和 struct files_struct 之 间 某 些 信息 似乎 是 重复 的 :exec 时 关闭 
文件 描述 符 和 打开 文件 描述 符 两 个 位 图 ， 以 及 file 指 针 的 数组 。 事 实 上 并 非 如 此 ， 因 为 file_struct 
中 的 成 员 是 数据 结构 真正 的 实例 ， 而 fatable 的 成 员 则 是 指针 。 实 际 上 ， 后 者 的 成 员 fda、open_fdas 和 
close_on_exec 都 初始 化 为 指向 前 者 对 应 的 3 个 成 员 。 因 此 ，fq 数 组 包含 了 NR_OPEN_DEFAULT 项 。 
close_on_exec 和 open fds 位 图 最 初 包括 BITS PER_LONG 个 比特 位 (前 面 讲 过 )。 此 让 
NR_OPEN_DEFAULT 设 置 为 BITS_PER_LONG， 所 有 这 些 长 度 都 是 相同 的 。 如 果 需 要 打开 更 多 文件 ， 内 核 

会 分 配 一 个 f9_set 的 实例 ， 蔡 换 最 初 的 embedqdeq_fq_set。fqd_set 定 义 如 下 : 


<posix_types.h> 





































































































































































































define __NFDBITS (8 * sizeof (unsigned long)) 
define __FD_ SETSIZE 1024 
define __FDSET LONGS (__FD_ SETSIZE/__NFDBITS) 





typedef struct { 
unsigned long fds_ bits [__FDSET LONGS]; 
} __ kernel_ fqd_ set; 








typedef _ kernel_ fq set fqd_set; 


要 注意 ，struct embeddeq_ fq_set 可 以 转换 为 struct fq_set。 在 这 种 意义 上 讲 ，embedqdeqd_ 
fdq_set 是 fa_set 的 缩小 版 ， 可 以 同样 使 用 ， 但 占用 的 空间 较 小 。 

如 果 两 个 位 图 或 fd 数组 的 初始 长 度 限制 太 低 ， 内 核 可 以 将 对 应 的 指针 指向 更 大 的 结构 ， 以 扩展 空 
间 。 数 组 扩展 的 “ 步 长 ”是 不 同 的 ， 这 也 说 明了 为 什么 该 结构 中 描述 符 和 文件 数量 需要 两 个 不 同 的 最 

























































































大 值 。 
还 需要 讨论 Eiles_struct 定 义 时 用 到 的 一 个 结构 :struct file。 该 结构 保存 了 内 核 所 看 到 的 8 
文件 的 特征 信息 。 其 定义 如 下 〔 稍 有 简化 ): 


<fs.h> 

struct file { 
struct list_head fu list; 
struct path f_path; 

#define f_dentry f_path.dentry 

#define f_vfsmnt f_path.mnt 
const struct file operations *f_op; 














atomic_t f_count; 
unsigned int f_flags; 
mode_t f_mode; 


LFF f_pos; 
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各 个 成 员 的 语义 如 下 。 


口 
口 


口 


口 


口 
口 





口 


path 数 据 结 


<namei.h> 


S 
s 
unsigned long 


S 














定 了 





f_uigd 和 f_gigd 指 


truct fown_ struct 
unsigned int f_uigd, 
truct file ra_state 


truct address_space 


f_ra; 


f_owner; 
£f_gigd; 


f_version; 


韦 户 的 UID 和 GID 。 








f_owner 包 含 了 处 理 
实现 异步 输入 输出 )。 


























该 文件 的 进程 有 关 的 信息 














预 读 特 4 


征 保存 在 f_ra。 这 些 值 














读 ( 预 读 可 以 提高 系统 性 能 


上 月 E ) 。 





打开 文件 
f_flags 
文件 位 置 
f_pos 变 量 中 ， 表示 与 文 








此 针 的 当前 从 























指定 了 在 open 系 统 调 














用 
《对 于 | 
件 起 始 处 的 字 节 




















f_path 封 装 了 下 面 两 部 














分 
量 文件 名 和 inode 之 间 的 关 


信息 ; 


HF， 


联 ; 











1 


里 文件 所 在 文件 系统 的 有 关 信 | 




















构 定 义 如 下 : 


Struect path 


3 


struct dentry 提 供 了 文 伯 





truct vfsmount 


S 
S 
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truct dentry *dentry; 


























































































































指定 了 在 实际 请 求 文 伯 


时 传递 的 模式 参数 〈 通 党 指定 0D 、0 或 0 0 访问 
时 传递 的 额外 的 标志 。 
页 序 读 取 操作 或 读 取 文 件 


*f_mapping; 


号 发 送 的 





(因而 也 确定 了 sIGIO 信 








F 数 据 之 前 ， 





模式 ) 保存 在 f_mode 字 有 段 中 。 











偏 移 。 


F 名 和 inode 之 间 的 关联 ,我 将 在 8.3.5 节 讨论 它 。 有 关 所 在 文件 










































































































































































目标 PID， 


以 


否 预 读 文 件数 据 、 如 何 预 


特定 部 分 的 操作 ， 都 很 重要 ) 保存 在 


系统 的 信 


息 包含 在 struct vfs_mount 中 ， 我 将 在 8.4.1 节 讨论 。 
于 以 前 的 一 些 内 核 版 本 没有 使 用 struct path， 而 是 将 dentry 和 vfsmount 成 员 显 式 骨 入 到 
struct file 中 ， 因 此 需要 使 用 相应 的 辅助 宏 ， 以 确保 尚未 更 新 到 新 接口 的 代码 仍然 能 够 工作 。 

口 £_op 指 定 了 文件 操作 调用 的 各 个 函数 (参见 8.3.4 节 )。 

口 £_version 由 文件 系统 使 用 ， 以 检查 一 个 file 实 例 是 否 仍 然 与 相关 的 inode 内 容 兼 容 。 这 对 于 

确保 已 缓存 对 象 的 一 致 性 很 重要 。 

口 mapping 指 向 属于 文件 相关 的 inode 实 例 的 地 址 空间 上 映射。 通常 它 设置 为 inode->i_mapping， 

但 文件 系统 或 其 他 内 核子 系统 可 能 会 修改 它 ， 对 此 我 不 会 详细 讨论 。 

每 个 超级 块 都 提供 了 一 个 s_list 成 员 用 作 表 头 ， 以 建立 file 对 象 的 链表 ， 链 表 元 素 是 
file->f_1ist。 该 链表 包含 该 超级 块 表示 的 文件 系统 的 所 有 打开 文件 。 例 如 ， 在 以 读 / 写 模式 装载 的 
文件 系统 以 只 读 横 式 重 新 装载 时 ， 会 扫描 该 链表 。 当 然 ， 如 果 仍 然 有 按 写 模式 打开 的 文件 ， 是 无 法 重 
新 装载 的 ， 因 而 内 核 需要 检查 该 链表 来 确认 。?” 

Q@ 实际 比 这 要 稍微 复杂 一 点 ， 因 为 使 用 了 RCU 机 制 ， 以 便 更 高 效 地 释放 file 实 例 。 这 只 会 使 过 程 复 杂 ， 并 不 能 使 读 

者 增加 新 的 见识 ， 因 此 我 不 会 过 多 讨论 。 
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file 实 例 可 以 用 get_empty_filp 分 配 ， 该 函数 利用 了 自身 的 缓存 并 将 实例 用 基本 数据 预先 
初始 化 。 

eUU0000 

每 当 内 核 打开 一 个 文件 或 做 其 他 的 操作 时 ， 如 果 需 要 file_struct 提 供 比 初始 值 更 多 的 项 ， 则 调 
用 expanq_files。 该 函数 检查 是 和 否 有 必要 增 大 数组 ， 如 果 是 这 样 则 调用 expanq_fdqtable。 该 函数 实 
现 如 下 《〈 稍 有 简化 )。 


fs/file.c 
static int expangd fdtable(struct files_struct *files, int nr) 


€ 












































struct fdtable *new_fdt, *cur_fdt; 


spin unlock(&files->file lock); 
new_fdt = alloc_fdtable (nr); 
spin_ lock(&files->file lock); 


copy_fdtable(new_ fdt, cur_fdt); 

rcu_ assign pointer (files->fdt, new_ fdt); 

if (cur_fdt->max_fds > NR_OPEN_ DEFAULT) 
free_fdtable(cur_fdt); 


return 1; 


} 

alloc_fdqtable 分 配 一 个 文件 描述 符 表 ， 可 以 容纳 最 大 可 能 数目 的 项 ， 并 为 增 大 的 位 图 分 配 内 存 
(只 有 同时 增 大 所 有 的 组 件 才 有 意义 )。 此 后 ， 该 函数 将 文件 描述 符 表 先前 的 内 容 复 制 到 新 的 、 增 大 的 
实例 中 。 将 files_fat 指 针 切 换 到 新 实例 的 过 程 由 RCU 朱 数 rcu_assign_pointer 处 理 ( 第 5 章 讲 过 )， 
然后 释放 旧 的 文件 描述 符 表 。 


8.3.4 文件 操作 


文件 不 能 只 存储 信息 ， 必 须 容许 操作 其 中 的 信息 。 从 用 户 的 角度 来 看 ， 文 件 操作 由 标准 库 的 函数 
执行 。 这 些 函 数 指示 内 核 执 行 系统 调用 ， 然 后 系统 调用 执行 所 需 的 操作 。 当 然 各 个 文件 系统 实现 的 接 
口 可 能 不 同 。 因 而 VFS 层 提供 了 抽象 的 操作 ， 以 便 将 通用 文件 对 象 与 具体 文件 系统 实现 的 底层 机 制 关 
联 起 来 。 
用 于 抽象 文件 操作 的 结构 必须 尽 可 能 通用 ， 以 考虑 到 各 种 各 样 的 目标 文件 。 同 时 ， 它 不 能 带 有 过 
多 只 适用 于 特定 文件 类 型 的 专门 操作 。 尽 管 如 此 ， 仍 然 必 须 满 足 各 种 文件 〈 普 通 文件 、 设 备 文件 ， 等 
等 ) 的 特殊 需求 ， 以 便 充 分 利用 。 
AAA AR file_operations 实 例 的 指针 ， 该 结构 保存 了 指向 所 有 可 
能 文件 操作 的 函数 指针 。 该 结构 定义 如 下 : 
<fs.h> 
struct file operations { 
struct module *owner; 
loff . (*1LSseek) (SEruet file *. LOff EE. LN) 
SSize 七 (*read) (struct file *, char _ user *, size t, loff _t *); 
ssize 七 (*write) (struct file *, const char _ user *, size t, loff _t *); 
ssize t (*aio read) (struct kiocb *, const struct iovec *, unsigned long, 
LT6ff tt)s 
ssize t (*aio write) (struct kiocb *, const struct iovec *, unsigned long, 


LOFff.€)s 
int (*readdir) (struct file *, void *, filldir t); 
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unsigned int (*poll) (struct file *, struct poll_ table struct *); 





int (*ioctl) (struct inode *, struct file *, unsigned int, unsigned long); 
long (*unlocked ioctl) (struct file *, unsigned int, unsigned long); 
long (*compat_ioctl) (struct file *, unsigned int, unsigned long); 
int (*mmap) (struct file *, struct vm area struct *); 

int (*open) (struct inode *, struct file *); 

int (*flush) (struct file *, fl1_ owner tt id); 

int (*release) (struct inode *, struct file *); 

int (*fsync) (struct file *, struct dentry *, int datasync); 

int (*aio fsync) (struct kiocb *, int datasync); 

int (*fasynce) (int, struct file *, int); 

int (*lock) (struet file *, ‘int, struct file_ locek *):; 





ssize t (*sendpage) (struct file *, struct page *, int, size t, loff t *, int); 

unsigned long (*get _ unmapped area) (struct file *, 
unsigned long, unsigned long, 

unsigned long, unsigned long); 

int (*check_ flags) (int); 

int (*dir notify) (struct file *filp, unsigned long arg); 

int (*flock) (struct file *, int, struct file lock *); 

ssize t (*splice write) (struct pipe inode info *, struct file *, loff t *, size 七 ， 
unsigned int); 

ssize t (*splice read) (struct file *, loff t *, struct pipe inode info *, size 七 ， 

unsigned int); 











仅 当 文件 系统 以 模块 形式 装载 并 未 编译 到 内 核 中 时 ， 才 使 用 owner 项 。 该 项 指向 在 内 存 中 表示 模 








块 的 数据 结构 。 








大 多 数 指针 的 名 称 揭示 了 函数 执行 的 任务 (还 有 许多 同名 的 系统 调用 ,更 直接 地 调用 这 些 指针 所 


指向 的 函数 )。 








口 read 和 write 分 别 负责 读 写 数据 。 这 两 个 函数 的 参数 包括 文件 描述 符 、 缓 冲 区 《放置 读 / 写 





数据 ) 
数目 。 





口 aio_readq 用 于 异步 读 取 操作 。 
口 open 打 开 一 个 文件 ， 这 相当 于 将 一 个 file 对 象 关 联 到 一 个 inode。 
口 file 对 象 的 使 用 计数 器 到 达 0 时 ， 调 用 release。 换 名 话说， 即 该 文件 
































和 偏 移 量 《指定 在 文件 中 读 写 数据 的 位 置 )。 另 一 个 参数 指定 了 需要 读 取 和 写 入 的 字 节 



























































不 再 使 用 时 。 这 使 得 底 





























其 运行 





层 实现 能 够 释放 不 再 需要 的 内 存 和 缓存 内 容 。 
口 如 果 文 件 的 内 容 映射 到 进程 的 虚拟 地 址 空间 中 ， 访 问 文件 就 变 得 很 容易 。 这 通过 mmap 完 成 ， 





























方式 已 经 在 第 3 章 讨论 过 。 
































口 ioctl 





























j 于 与 硬件 设备 通信 ， 因 而 只 能 用 于 设备 文件 〈 不 能 用 于 其 他 对 象 ， 因 为 其 他 对 象 对 应 


























的 file_operations 中 ，ioct1 为 NULL 指 针 )。 在 有 必要 向 设备 发 送 控制 命令 时 ， 将 使 用 该 方 
法 (write 函 数 用 于 发 送 数 据 )。 尽 管 该 函数 对 所 有 外 设 的 名 称 和 调用 语法 都 相同 ， 但 实际 文 


持 的 命令 与 具体 硬件 相关 。 



























































口 pol1 用 于 pol1 和 select 系 统 调 用 ， 以 便 实 现 同步 的 IO 多 路 复 用 。 这 意味 着 什么 ? 在 进程 等 待 


来 自 文 
取 数 据 
数 将 永 


select 系 























件 对 象 的 输入 数据 时 ， 需 要 使 用 read 函 数 。 如 果 没 有 数据 可 用 在 进程 从 外 部 接口 读 
时 ， 可 能 有 这 样 的 情况 )， 该 调用 将 阻塞 ， 直 至 数据 可 用 。 如 果 一 直 没 有 数据 ，reag 函 
远 阻 塞 ， 这 将 导致 不 可 接受 的 情况 出 现 。 
统 调用 也 基于 pol1 方 法 ， 用 于 解决 这 种 情况 。 它 设置 一 个 超时 限制 ， 如 果 超过 一 定时 















































































































































间 没 有 数据 到 达 ， 则 放弃 读 取 操 作 。 这 确保 了 在 没有 其 他 数据 可 用 时 ， 程 序 流程 可 以 恢复 正常 。 
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口 在 文件 描述 符 关 闭 时 将 调用 flush， 同 时 将 使 用 计数 器 减 1， 这 一 次 计数 器 不 必 是 0〈 计 数 器 为 
0 时 ， 将 执行 release)。 网 络 文件 系统 需要 这 个 函数 ， 以 标记 传输 结束 。 

口 fsync 由 fsync 和 fdatasync 系 统 调用 使 用 ， 用 于 将 内 存 中 的 文件 数据 与 存储 介质 同步 。 

口 fasync 用 于 启用 / 停 用 由 信和 号 控制 的 输入 和 输出 《通过 信和 号 通知 进程 文件 对 象 发生 了 改变 )。 

口 feadqv 和 writev 用 于 同名 系统 调用 的 实现 , 用 以 实现 向 量 的 读 取 和 写 入 .0 D 本质 上 是 一 个 结 
构 ， 用 以 提供 一 个 非 连续 的 内 存 区 域 ， 放 置 读 取 的 结果 或 写 入 的 数据 。 该 技术 称 之 为 ULDD 
D -OO (fast scatter-gather)。 它 用 于 避免 多 次 reagd/write 调 用 ， 以 免 降 低 性 能 。 

口 1ock 函 数 用 于 锁定 文件 。 它 用 于 对 多 个 进程 的 并 发 文件 访问 进行 同步 。 

口 fevalidqate 由 网 络 文件 系统 使 用 ， 以 确保 在 介质 改变 后 远程 数据 的 一 致 性 。 

口 check_media_change 只 适用 于 设备 文件 ， 由 于 检查 在 上 一 次 访问 以 来 是 否 发 生 了 介质 改变 。 
主要 的 例子 是 用 户 可 以 换 介质 的 设备 ， 如 光驱 和 软驱 的 块 设备 文件 〈 便 盘 通 常 不 能 换 )。 

口 sendfile 通 过 sendfile 系 统 调 用 在 两 个 文件 描述 符 之 间 交 换 数 据 。 因为 套 接 字 (参见 第 12 章 ) 

电表 示 为 文件 描述 符 ， 该 函数 也 用 于 实现 网 络 上 简单 、 高 效 的 数据 交换 。 

口 splice_read 和 splice_write 用 于 从 管道 向 文件 传输 数据 ， 反 之 亦 然 。 由 于 这 两 个 方法 目前 

只 用 于 splice2 系 统 调用 ， 我 不 会 更 进一步 讨论 它们 。 

如 果 一 个 对 象 使 用 这 里 给 出 的 结构 作为 接口 ， 那 么 并 不 必 实 现 所 有 的 操作 。 举 个 具体 的 例子 ， 进 
程 之 间 管 道上 只 提供 了 少量 操作 ， 因 为 剩余 的 操作 根本 没有 意义 ， 例 如 无 法 对 管道 读 取 目 录 内 容 ， 因 此 
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readdir 是 不 可 用 的 。 
有 两 种 方法 可 以 指定 某 个 方法 不 可 用 , 一 种 是 将 函数 指针 设置 为 NOLL， 另 一 种 是 将 函数 指针 指向 
一 个 占 位 函数 ， 该 函数 直接 返回 错误 值 。 
例如 ， 以 下 file_operations 实 例 用 于 块 设备 (参见 第 6 章 ): 


fs/block_dev.c 
const struct file operations def blk fops = { 
.open = blkdev_open, 
.release = blkdev_close, 
.llseek = block_ llseek, 
.read = do_sync_ read, 
.write = do_sync write, 
.dio_read = generic file aio read, 
.aio write = generic file aio write nolock, 
.mmap = generic _ file mmap, 
.fsync = block_ fsync, 
Unlocked_ioctl = block ioctl, 
.Splice read = generic file splice read, 
.Splice write = generic file splice write, 










































































: 
Ext3 文 件 系 统 使 用 一 个 不 同 的 函数 集 。 


fs/ext3/file.c 
const struct file operations ext3_file operations = { 
.llseek = generic file llseek, 
.read = do_sync_read, 
.write = do_sync write, 
.dio_read = generic file aio_ read, 
.aio_ write = ext3_file write, 
‘ioctl = ext3._ioctl., 
.mmap = generic _ file mmap, 
.open = generic file open, 
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—_- 


尽 





这 些 是 VFS 层 的 通用 加 


1. 
除 


例 都 包含 一 个 指针 ， 指 向 另 一 个 


.release = ext3_release_file， 
.fsync = ext3_sync_file, 
.splice read = generic file splice read, 
.splice write = generic file splice write, 


A 
‘et 
已 


























目录 信息 
了 打 




















结 


<fs_struct.h> 
struct fs_struct { 


}; 




















该 


atomic_t count; 
int umask; 


struct dentry * root, 








Struct vfesmount * rootmmt, 

















] 完 成 。 








结 


术 


为 中 类 型 为 aentry 的 成 员 指 


umask 表 示 标 准 的 措 码 ， 用 于 设置 新 文件 的 权限 。 其 值 


同名 的 系统 调 








Key 


系统 该 数据 结构 的 确切 定义 将 在 下 文 给 出 ) 


dentry 和 vfsmount 类 型 
口 root 和 rootmnt 指 定 了 相关 进程 的 
通过 chroo 





件 系统 。 当 然 ， 对 于 
情况 并 非 如 此 。 蛋 
子 目 录 视 为 其 根 






































下。 





pwd 和 pwdmnt 指 定 了 OODOODOO0OD 和 文件 系统 的 vfsmoun 
有 会 动态 改变 。 在 使 用 shell 时 ， 这 是 很 频繁 的 (cg 命令 )。 尺 管 每 次 chgir 系 统 调用 都 会 
进入 了 一 个 新 的 装载 点 时 ，pwdmn 3 


二 者 者 
改变 pwa 的 值 ，” 但 仅 当 
中 软盘 驱动 器 装载 在 /mn 
/mmnt 乔 
































的 成 员 各 有 3 


了 么 相应 的 进 ; 














根 








Et 


FT 











* pwd, 








这 两 个 对 象 分 配 了 不 同 的 指针 ， 但 也 有 些 指针 是 相同 上 
助 函 数 ，8.5 节 将 讨论 其 中 几 个 函数 。 


























* dltroot; 
* pwdmnt, 


文件 描述 符 的 列表 之 外 ， 还 必须 管理 其 他 特定 于 
构 ， 类 型 为 fs_struct。 








进程 的 数据 。 因 








* altrootmnt; 

















o 








可 以 使 








多， 例如 以 generic 前 级 











而 每 个 tas 


头 的 函数 。 





k_struct 实 








jumask 命 令 读 取 或 设置 。 


在 内 部 








个 ， 名 称 类 似 。 实 际 上 ， 这 些 项 是 成 对 的 ， 并 





目录 和 文件 系统 。 通 常 二 者 分 别 是 /目录 和 





暗中 通过 同名 和 
旦 就 会 使 用 某 个 子 

















t/floppy 里 。 
icq floppy 命 令 ， 切 换 到 适当 的 














四 cd /mnt 改变 pwq 项 但 未 改变 pwdmnt 项 ， 我 们 仍然 处 了 
和 cd floppy 同 时 改变 了 pwda 和 pwadmnt 的 值 ， 


的 文 
altroo 
个 仿真 
例如 ， 
中 (通常 是 /usr/gnemul 
在 搜索 文件 时 总 是 优先 # 
统 


少 使 


牛 系统 。 


t 和 altzrootmnt 成 员 




















说 
Ti 












































jj， 我 不 会 进一步 讨 


论 。 








GD 唯一 的 例外 是 切换 到 . 



































在 Sparc 系 统 上 仿真 SunOS 时 就 使 
/)。 有 关 该 路 径 的 信 ， 








户 
目录 。 这 两 


用 





的 系统 调 


目录 ， 


启动 shell， 从 根 


人 人 
个 命令 


型 的 成 员 表示 


目录 的 名 称 ，vfsmount 类 玫 


个 已 经 装载 的 文件 

















且 彼 此 关联 。 












































| 
Ee 


山 











不 是 全 











结构 。 





十 上 


1 系统 的 root 文 
 ) 锁定 到 某 个 子 目录 的 进程 来 说 ， 
局 的 根 目录 ， 该 进程 


会 将 该 





在 进 


程 改变 
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当前 目录 时 ， 








t 才 会 改变 。 我 们 考察 一 个 例 了 














录 开始 

















作 ， 
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本 





子 ， 其 
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+ 依次 输入 ca 





























根 目录 所 在 


























习 描 上 述 目 录 ， 


因为 已 经 切换 到 


的 文件 系统 中 。 





都 会 改变 fs_struct 中 的 数据 。 


日 














一 个 新 目 











录 ， 并 











于 实现 喇 口 、(personality )。 这 种 特性 允许 为 二 进 
不 境 ， 使 得 程序 认为 是 在 不 同 于 Linux 的 某 个 操作 系统 下 运行 。 


十 





让 





进入 到 一 个 3 


折 





程序 建立 一 














在 一 个 目 





录 














用 了 该 方法 。 仿 真 所 需 的 特殊 文件 和 库 安置 
息 保 存在 alt 成 员 中 。 








大 












































的 文件 《这 些 之 后 才 搜 索 )。 这 支持 对 不 同 的 二 进 各 


| 








格式 同时 使 用 不 





剖 
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此 首先 会 找到 仿真 的 库 或 系统 文件 ， 而 不 是 Linux 系 














同 的 库 。 





于 该 技术 很 
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2. VFS 命 名 空间 
回忆 第 2 章 的 内 容 ， 我 们 知道 内 核 提供 了 实现 容器 的 可 能 性 。 单 一 的 系统 可 以 提供 许多 容器 ， 但 
容器 中 的 进程 无 法 感知 容器 外 部 的 世界 , 也 无 法 得 知 所 在 容器 的 有 关 信息 。 容器 彼此 完全 独立 , 从 VFS 
度 来 看 ， 这 意味 着 需要 针对 每 个 容器 分 别 跟踪 装载 的 文件 系统 。 单 一 的 全 局 视图 是 不 够 的 。 
VFSD 0 0 0 是 所 有 已 经 装载 、 构 成 某 个 容器 目录 树 的 文件 系统 的 集合 。” 
通常 调用 fork 或 clone 建 立 的 进程 会 继承 其 父 进 程 的 命名 空间 。 但 可 以 设置 CLONE_NEWNS 标 志 ， 
以 建立 一 个 新 的 VFS 命 名 空间 (在 下 文中 ， 我 不 再 区 分 VFSD 口 口 口 和 口 口 口 ， 当 然 内 核 也 提供 了 
非 VFS 的 命名 空间 。 如 果 修 改 新 的 命名 空间 ， 改 变 不 会 传播 到 属于 不 同 命名 空间 的 进程 。 对 其 他 命名 
空间 的 改变 也 不 会 影响 新 的 命名 空间 。 
回想 一 下 struct task_struct 包 含 的 成 员 nsproxy， 该 成 员 负 责 命 名 空间 的 处 理 。 
内 核 使 用 以 下 结构 〈 稍 有 简化 ) 管理 命名 空间 。 在 各 种 命名 空间 中 ， 其 中 之 一 是 VFS 命 名 空间 。 


<nsproxy.h> 
struct nsproxy { 














































































































一 、 















































































































































Struct mnt_namespace *mnt_ns; 
} 
实现 VFS 命 名 空间 所 需 信息 的 数量 相对 很 少 : 
<mnt_namespace.h> 
struct mt namespace { 

atomic 七 count; 


struct vfsmount * root; 
struct list head list; 














下 

count 是 一 个 使 用 计数 器 ,指定 了 使 用 该 命名 空间 的 进程 数目 。root 指 问 根 目录 的 vfsmount 实 例 ， 
list 是 一 个 双 链 表 的 表 头 , 该 链表 保存 了 VFS 命 名 空间 中 所 有 文件 系统 的 vfEsmount 实 例 , 链表 元 素 是 
vfsmount 的 成 员 mt_list。 

命名 空间 操作 (如 mount 和 umount) 并 不 作用 于 内 核 的 全 局 数据 结构 。 相 反 ， 它 们 操作 的 是 当前 
进程 的 命名 空间 实例 ， 可 以 通过 task_struct 的 同名 成 员 访 问 。 改 变 会 影响 命名 空间 的 所 有 成 员 ， 因 
为 一 个 命名 空间 中 的 所 有 进程 共享 同一 个 命名 空间 实例 。 
8.3.5 ”目录 项 缓存 
于 块 设备 速度 较 慢 ， 可 能 需要 很 长 时 间 才 能 找到 与 一 个 文件 名 关联 的 inode。 即 使 设备 数据 已 
经 在 页 缓存 〈 参 见 第 16 章 ) 中 ， 仍 然 每 次 都 会 重复 整个 查找 操作 (简直 苞 诬 )。 
Linux 使 用 DUODDD 《简称 dentry0 口 ) 来 快速 访问 此 前 的 查找 操作 的 结果 我们 将 在 8.4.2 节 详 
细 讲 解 该 特性 )。 该 缓存 围绕 着 struct dentry 建 立 ， 此 前 已 经 提 到 几 次 这 个 结构 。 
在 VFS 连 同文 件 系统 实现 读 取 的 一 个 目录 项 (目录 或 文件 ) 的 数据 之 后 , 则 创建 一 个 dentry 实 例 ， 
以 缓存 找到 的 数据 。 

1. dentry 结 构 

该 结构 定义 如 下 : 
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< 二 



































































































































Q 要 注意 ，chroot 坏 境 并 不 需要 独立 的 命名 空间 。 尽 管 在 容器 中 无 法 访问 全 部 的 目录 树 ， 但 仍然 会 受到 上 层 命 名 空 
间 的 影响 。 例 如 ， 务 载 某 个 目录 就 可 能 影响 容器 中 能 够 看 到 的 某 个 文件 系统 。 












































432 080 000000 
<dcache.h> 
struct dentry { 
atomic_t qd_count; 
unsigned int qd_flags; /* 由 Gd_lock 保 护 */ 
spinlock t qd_ lock; /* 每 个 dentry 的 锁 */ 





struct inode *qd_inode; /* 文件 名 所 属 的 inode， 如 果 为 NULL， 则 表示 不 存在 的 文件 名 */ 
/* 
* 接 下 来 的 3 个 字段 由 __g_lookup 处 理 


















































* 将 它们 放置 在 这 里 ， 使 之 能 够 装填 到 一 个 缓存 行 中 

yh 

struct hlist _ node d_hash; /* 用 于 查找 的 散 列 表 */ 
struct dentry *d_parent; /* 父 目 录 的 dentry 实 例 */ 
struct qstr d name; 

struct list head d_lru; /* LRU 链 表 */ 

union { 


struct list head d_child; 
/* 链表 元 素 ， 用 于 将 当前 dentry 连 接 到 父 目 录 dentry 的 9_subdirs 链 表 中 */ 
struct rcu_ head d_rcu; 






































} du 
struct list_head d_subdirs; /* 子 目 录 / 文 件 的 目录 项 链表 */ 
struct list_head d_alias; /* 链表 元 素 ， 用 于 将 dentry 连 接 到 inode 的 i_qdentry 链 表 中 */ 
























































unsigned long d_time; /* 由 gd_revalidate 使 用 */ 
struct dentry_operations *d_op; 

struct super_block *d_sb; /* dentry 树 的 根 ， 超 级 块 */ 
void *d_fsdata; /* 特定 于 文件 系统 的 数据 */ 





int d_mounted; 





unsigned char d_iname [DNAME_INLINE_LEN_MIN]; /* 短文 件 名 存储 在 这 里 */ 


}3 
各 个 aent 


























xy 实例 组 成 了 一 个 网 络 ， 与 文件 系统 的 结构 形成 一 定 的 映射 关系 。 与 给 定 目录 下 的 所 

















有 文件 和 子 目 录 相 关联 的 aentry 实 例 ， 都 归 入 到 aa_subairs 链 表 (在 目录 对 应 的 dentry 实 例 中 )。 子 
结 点 的 a_chilg 成 员 充 当 链 表 元 素 。” 









































但 其 中 并 非 完全 映射 文件 系统 的 拓扑 结构 , 因为 aentry 缓 存 只 包含 文件 系统 结构 的 一 小 部 分 。 最 

















常用 文件 和 目录 对 应 的 目录 项 才 保 存在 内 存 中 。 原 则 上 ， 可 以 为 0 0 文件 系统 对 象 都 生成 aentry 项 ， 
但 物理 内 存 空间 和 性 能 原因 都 限制 了 这 样 做 。 

































































我 们 经 常 所 到 ，dentry 结 构 的 主要 用 途 是 建立 文件 名 和 相关 的 inode 之 间 的 关联 。 结 构 中 有 3 个 成 














(1) a_inode 是 指向 相关 的 inode 实 例 的 指针 。 





员 用 于 该 目的 。 
D0 
加 





aentxyjUU0Ou0000000000000a inogel NIL UUUUUD 
加 本 








(2) qQ_name 指 定 了 文件 的 名 称 。astz 是 一 个 内 核 字 符 串 的 包装 器 。 它 存储 了 实际 的 char * 字 符 串 























以 及 字符 串 长 度 和 散 列 值 ， 这 使 得 更 容易 处 理 查 找 工 作 。 

















D0 





exmae So 








日 目 利和 目 置 利 置 利 目 上 和 旧 旧 利和 卓 利 利和 目 日 目 上 日 旧 四 日 Vusr/bin/emacs 罩 卓 目 








(3) 如 果 文 件 名 只 由 少 








2 














量 字 符 组 成 ， 则 保存 在 a_iname 中 ， 而 不 是 daname 中 ， 以 加 速 访问 。 





























中 与 表 头 共享 














个 联合 的 RCU 成 员 ， 在 从 父 结 点 的 链表 删除 当前 结 点 时 ， 将 发 挥 作用 ， 但 我 们 对 此 不 感 兴趣 。 











8.3 VEFSUDUD 


433 











短文 件 名 的 长 度 


上 上限 




















决 于 体系 结构 和 处 至 
剩余 成 员 的 语义 包 








口 Q_flags 可 以 包含 
门 的 目的 相关 : DCACHE_1 


DCACHE_UNHASHEI 




















是 彼此 完全 独立 的 。 


的 Q_subdairs 链 表 中 。 对 于 根 
当前 aentry 对 象 表示 一 个 装载 点 ， 那 么 
d_alias 用 作 链 表 元 素 ， 以 连 
名 称 表示 同一 文件 时 
头 。 各 个 daentry 对 象 通过 aq_al 
Gd_op 指 向 一 个 结构 ， 其 中 包含 了 各 种 函数 指针 ， 提 供 对 aentry 对 象 的 各 种 操作 。 这 些 操作 必 
底层 文件 系统 实现 。 我 将 在 下 文 讨论 该 结 
十 ， 指 向 dentry 对 象 所 属 文件 系统 超级 块 的 实例 。 该 指针 使 得 各 个 dentry 实 例 











须 














s_sb 是 一 个 指 














散布 到 可 








系统 装载 点 对 应 目录 的 dentry 实 例 ， 


L 个 标 对 


LT 


1 DNAME INLIN 
容纳 更 长 的 文件 名 ， 因 为 该 成 员 位 于 结构 的 末尾 ， 而 容纳 该 数 扩 
I 下 所 示 。 








DISCONNECTED 指 定 一 个 dentry 当 
D 表 明 该 aentry 实 例 没 有 包含 在 任何 inode 的 散 列 表 中 。 


qd_parent 是 一 个 指针 ,指向 当前 结 点 父 














E_NAME 工 




















EN 指定 ， 最 多 不 超过 16 个 字符 。 但 内 核 有 
的 缓存 行 可 能 仍然 有 可 用 空间 














时 能 够 
(这 取 


标志 在 include/1linux/dcache.h 中 定义 。 但 其 中 只 有 两 个 与 我 





> 























目录 的 dentry 实 例 ， 























用 的 (已 装载 的 ) 文件 系统 。 由 于 每 个 



































ias 连 接 到 该 链表 中 。 








构 。 











因此 aen 











录 (没有 父 目 录 )，Q_parent 指 向 其 
gd_mounted 设 置 为 1 ; 否则 其 信 
接 表 示 相 同文 件 的 各 个 aentry 对 象 。 在 利 
， 会 发 生 这 种 情况 。 对 应 于 文件 的 inode 的 i_qgen 




















前 没有 连接 到 超级 块 的 dentry 树 。 

















这 两 





要 注 导 ， 














身 的 aentry 实 僵 


为 0。 




















个 标 AN 


当前 的 aentry 实 例 即 位 于 父 日 录 


| 




















] 便 链接 














超级 块 结构 都 包含 了 一 个 指针 ， 指 向 该 文件 
try 组 成 的 树 可 以 划分 为 几 个 子 树 。 








两 个 不 同 
try 成 员 用 作 该 链表 的 表 





内 存 中 所 有 活动 的 dentry 实 例 都 保存 在 一 个 散 列 表 中 , 该 散 列 表 使 用 fs/dcache.c 中 的 全 局 变量 


dentry_hashtable 实 现 。 用 gd_hash 实 现 的 溢出 链 ， 


为 0 0 dentryD D0。 


内 核 中 还 有 男 一 个 gentry 的 链表 , 表 头 是 全 




















于 解决 散 列 从 














时 











始 化 )。 该 链表 包含 哪些 项 ?所 有 使 用 计数 器 (qd_count ) 到 达 0 


den 


何 管理 的 。 





























zy 实例 都 自动 地 放置 到 该 链表 上 。 下 一 他 ) 








( 





各 讨论 aentry 绥 存 的 结 




















因而 任何 进程 都 不 
构 ， 








撞 。 在 下 文中 ， 我 将 该 散 列表 称 





局 变量 qentry_unused (也 在 fs/dcache.c 中 初 
使 用 ) 的 
读者 会 看 到 该 链表 是 如 








inode[] 吕 口 





人 
ena 
DO000000U0U000inoded O00 aentry O00U00 














2. 缓存 的 组 织 


dentry 结 构 不 仅 使 得 易于 处 理 











每 个 

















VFS 发 送 到 底 














件 系 统 实现 的 通信 ， 加 速 了 VFS 的 处 理 





文 




















牛 系统 ， 对 提高 系统 性 能 也 很 关键 。 他 们 通过 最 小 化 与 底层 文 

















现 的 请 求 ， 都 会 导致 创建 一 个 新 的 aentry 对 象 ， 以 保存 请 求 的 结果 。 这 





二 
云 头 





些 对 象 保存 在 一 个 缓存 中 ， 在 下 一 次 需要 时 可 以 更 快速 地 访问 ， 这 样 操 人 
的 ? dentry 对 象 在 内 存 中 的 组 织 ， 涉 及 下 面 两 个 部 分 。 
(1) 一 个 散 列 表 (dentry_hashtapble) 包含 了 所 有 的 dentry 对 象 。 


是 如 何 组 织 















































FE 就 能 够 更 快速 地 执行 








(2) 一 个 LRU (0D 吕 DODDODDD leastrecently used) 链表 ， 其 中 不 再 使 用 的 对 象 将 授予 一 个 














限期 ， 宽 限 基 


过 后 才 从 内 存 移 除 。 


。 绥 存 


最 后 宽 
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我 们 知道 ， 散 列表 是 用 经 典 的 方式 实现 的 。fs/dcache.c 中 的 dq_hash 函 数 用 于 确定 dentry 对 象 
的 散 列 位 置 。 

LRU 链 表 的 处 理 有 一 点 技巧 。 该 链表 的 表 头 是 全 局 变量 aentry_unused， 包 含 的 对 象 是 stzruct 
dentry 实 例 ， 使 用 的 链表 元 素 是 struct dentry 的 Q_lru 成 员 。 

在 dentry 对 象 的 使 用 计数 器 (qd_count ) 到 达 0 时 ， 会 被 置 于 LRU 链 表 上 ， 这 表明 没有 什么 应 用 
程序 正在 使 用 该 对 象 。 新 项 总 是 置 于 该 链表 的 起 始 处 。 换 句 话 说， 一 项 在 链表 中 越 靠 后 ， 它 就 越 老 ， 
这 是 经 典 的 LRU 原 理 。prune_dqcache 会 时 第 调用 ， 例 如 在 印 载 文件 系统 或 内 核 需要 更 多 内 存 时 。 其 
中 会 删除 比较 老 的 对 象 ， 以 释放 内 存 。 要 注意 ， 有 时 候 aentry 对 象 可 能 临时 处 于 该 链表 上 ， 尽 管 这 些 
对 象 仍然 处 于 活动 使 用 状态 ， 而 且 其 使 用 计数 大 于 0。 这 是 因为 内 核 进 行 了 一 些 优化 : 在 LRU 链 表 上 
的 aentry 对 象 恢 复 使 用 时 , 不 会 立即 将 其 从 LRU 链 表 移 除 , 这 可 以 省 去 一 些 锁 操 作 , 从 而 提高 了 性 能 。 
有 些 操作 如 prune_dqcache， 无 论 如 何 代 价 都 比较 高 ， 我 们 可 以 对 这 种 情况 作出 补救 。 有 具体 地 ， 如 果 
遇 到 使 用 计数 为 正 值 的 对 象 ， 只 是 将 其 从 链表 移 除 ， 而 不 释放 该 对 象 。 
于 LRU 链 表 中 的 对 象 同时 仍然 处 于 散 列 表 中 ， 通 过 查找 操作 也 可 以 找到 gentry 对 象 。 一 旦 找 
到 茶 个 daentry 对 象 之 后 ， 即 可 将 其 从 LRU 链 表 移 除 ， 因 为 它 现在 处 于 活动 使 用 状态 。 同 时 将 其 使 用 计 
数 器 加 1。 

3. dentry 操 作 

dentry_operations 结 构 保存 了 一 些 指 向 各 种 特定 于 文件 系统 可 以 对 dentry 对 象 执行 的 操作 的 
函数 指针 。 该 结构 定义 如 下 : 

<dcache.h> 

struct dentry_operations { 

int (*d revalidate) (struct dentry *, struct nameidata *); 
int (*qd hash) (struct dentry *, struct qstr *); 
int (*d compare) (struct dentry *, struct qstr *, struct qstr *); 
int (*d_ delete) (struct dentry *); 
void (*d_ release) (struct dentry *); 


void (*d_iput) (struct dentry *, struct inode *); 
char *(*d dname) (struct dentry *, char *, int); 



















































































































































































































































































































































































地 

口 Q_iput 从 一 个 不 再 使 用 的 aentry 对 象 中 释放 inode (在 默认 的 情况 下 , 将 inode 的 使 用 计数 器 减 

1， 计 数 器 到 达 0 后 ， 将 inode 从 各 种 链表 中 移 除 )。 

口 在 最 后 一 个 引用 已 经 移 除 〈q_count 到 达 0 时 ) 后 ， 将 调用 a_dqelete。 

口 在 最 后 删除 一 个 qentry 对 象 之 前 ， 将 调用 d_release。d_release 和 gd_delete 的 两 个 默认 实 

现 什么 都 不 做 。 

口 a_hash 计 算 散 列 值 ， 该 值 用 于 将 对 象 放置 到 qentry 散 列表 中 。 

口 dg_compare 比 较 两 个 dentry 对 象 的 文件 名 。 尽管 VFS 只 执行 简单 的 字符 串 比较 , 但 文件 系统 可 
以 蔡 换 默认 实现 ， 以 适合 自身 的 需求 。 例 如 ，FAT 实 现 中 的 文件 名 是 不 区 分 大 小 写 的 。 因 为 不 
区 分 大 写字 母 和 小 写字 母 ， 所 以 简单 的 字符 串 匹 配 将 返回 错误 的 结果 。 在 这 种 情况 下 必须 提 
供 一 个 特定 于 FAT 的 函数 。 

口 Q_revalidate 对 网 络 文件 系统 特别 重要 。 它 检查 内 存 中 的 各 个 aentry 对 象 构成 的 结构 是 否 仍 
然 能 够 反映 当前 文件 系统 中 的 情况 。 因 为 网 络 文件 系统 并 不 直接 关联 到 内 核 /VFS， 所 有 信息 
都 必须 通过 网 络 连接 收集 ， 可 能 由 于 文件 系统 在 存储 端的 改变 ， 致 使 某 些 aentry 不 再 有 效 。 
该 函数 用 于 确保 一 致 性 。 
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本 地 文件 系统 通常 不 会 发 生 此 类 不 一 致 情况 ，VFS 对 gd_revaligdate 的 默认 实现 什么 都 不 做 。 
于 大 多 数 文件 系统 都 没有 实现 前 述 的 这 些 函 数 ， 内 核 的 惯例 是 这 样 : 如 果 文 件 系 统 对 每 个 函数 
提供 的 实现 为 NULL 指 针 ， 则 将 其 替换 为 VTFS 的 默认 实现 。 
4. 标准 函数 
内 核 提 供 了 几 个 辅助 函数 ， 可 以 简化 对 dentry 对 象 的 处 理 。 其 实现 主要 是 链表 管理 和 数据 结构 
处 理 方面 的 练习 ， 因 此 我 不 会 过 多 讨论 其 代码 。 但 给 出 其 原型 并 讲述 其 效果 是 很 重要 的 ， 因 为 在 讨论 
VFS 操 作 的 实现 时 ， 我 们 会 经 常 遇 到 这 些 函 数 。 以 下 辅助 函数 需要 一 个 指向 struct dentry 的 指针 作 
为 参数 。 每 个 都 执行 了 一 个 简单 的 操作 。 
口 每 当 内 核 的 某 个 部 分 需要 使 用 一 个 aentrvy 实 例 时 ， 都 需要 调用 daget。 调 用 dget 将 对 象 的 引用 
计数 加 1， 即 获取 对 象 的 一 个 引用 。 
口 gput 是 dqget 的 对 应 物 。 如 果 内 核 中 的 某 个 使 用 者 不 再 需要 一 个 dentry 实 例 时 ， 就 必须 调 月 
dput。 
该 函数 将 dentry 对 象 的 使 用 计数 减 1。 如 果 计 数 下 降 到 0， 则 调用 dentry_operations-> 
gd_delete 方 法 (如 果 可 用 )。 此 外 ， 还 需要 使 用 d_drop 从 0D 日 dentry[ 0 DO 移 除 该 实例 ， 并 
将 其 置 于 LRU 链 表 上 。 
如 果 在 调用 dput 时 该 对 象 并 未 包含 在 散 列表 中 ， 则 通过 kfree 将 其 从 内 存 中 删除 。 
口 dg_gdrop 将 一 个 dentry 实 例 从 全 局 dentry 散 列表 移 除 。 调 用 dput 时 ， 如 果 使 用 计数 下 降 到 0 则 
自动 调用 该 函数 ， 另 外 如 果 需 要 使 一 个 缓存 的 aentry 对 象 失效 ， 也 可 以 手工 调用 。_a_qrop 
是 a_dqrop 的 一 个 变 体 ， 并 不 自动 处 理 锁 定 。 
口 d_delete 在 确认 dentry 对 象 仍 然 包 含 在 全 局 dentry 散 列表 中 之 后 ， 使 用 _q_grop 将 其 移 除 。 
如 果 该 对 象 此 时 只 剩余 一 个 使 用 者 ， 还 会 调用 aentry_iput 将 相关 inode 的 使 用 计数 减 1。 
qd_dqelete 通 常 紧 挨 着 aput 之 前 调用 。 这 样 做 确保 了 aqput 删 除了 aentry 对 象 ， 因 为 它 不 再 处 了 
全 局 dentry 散 列表 中 。 
有 些 辅助 函数 更 为 复杂 ， 因 此 最 好 查看 其 原型 。” 
<dcache.h> 
extern void qd instantiate(struct dentry *, struct inode *); 
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struct dentry * d_ alloc(struct dentry *, const struct qstr *); 
struct dentry * d alloc anon(struct inode *); 


struct dentry * d splice alias(struct inode *, struct dentry *); 


static inline void d add(struct dentry *entry, struct inode *inode); 
struct dentry * d_ lookup(struct dentry *, struct qstr *); 


口 q_instantiate 将 一 个 dentry 实 例 与 一 个 ijnode 关 联 起 来 。 这 意味 着 设置 d_inode 字 有 段 并 将 该 
dentry 增 加 到 inode->i_qdentry 链 表 。 

口 g_agdd 调 用 了 d_instantiate。 此 外 ， 该 对 象 还 添加 到 全 局 dentry 散 列表 dentry_hashtable 

中 。 

口 Q_alloc 为 一 个 新 的 struct dentry 实 例 分 配 内 存 。 初 始 化 各 个 字段 ， 如 果 给 出 了 一 个 表示 父 


结 点 的 dentry， 则 新 dqentry 对 象 的 超级 块 指针 从 父 结 点 获取 。 此 外 ， 新 的 dentry 添 加 到 父 结 
















































































GD <dentry.h> 定 义 了 更 多 辅助 函数 ， 由 fs/dcache.c 实 现 。 由 于 它们 不 那么 常用 ， 我 在 这 里 不 会 讨论 。 有 关 这 些 函 
数 的 更 多 信息 ， 请 读者 参考 相关 的 文档 。 
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点 的 子 目 录 或 文件 链表 ， 表 头 是 parent->qd_subdirs。 

口 9_alloc_anon 为 一 个 struct dentry 实 例 分 配 内 存 , 但 并 不 设置 与 父 结 点 dentry 的 任何 关联 ， 

因此 该 函数 与 a_alloc 相 比 去 控 了 相关 参数 。 新 的 dentry 添 加 到 两 个 链表 中 : 特定 于 超级 块 、 

于 匿名 dentry 对 象 的 链表 , 表 头 为 super_block->s_anon; 与 inode 关 联 的 所 有 dentry 实 例 

的 链表 ， 表 头 为 inode->i_dqentry。 
要 注意 , 如 果 inode 已 经 包含 了 一 个 断 开 连接 的 aentrv, 由 前 一 次 对 qd_alloc_anon 的 调用 分 配 ， 
那么 这 一 次 将 使 用 原来 的 dentry， 而 不 再 分 配 新 的 实例 。 

口 d_splice_alias 将 一 个 断 开 连接 的 dentry 对 象 连 接 到 dentry 树 中 。 该 功能 的 inode 参 数 表示 
与 dentry 关 联 的 inode。 
如 果 inode 表 示 目 录 之 外 的 文件 系统 对 和 象 ， 则 调用 a_agg 就 足够 了 。 对 于 目录 来 说 ,gd_splice_ 
alias 函 数 确保 只 有 一 个 aentry 别 名 存在 ， 这 需要 更 多 管理 工作 ， 我 不 会 详细 论述 。 

口 9Q_lookup 根 据 目录 对 应 的 aentry 实 例 ， 搜 索 名 称 为 name 的 文件 对 应 的 aentry 对 象 。 


8.4 处 理 VFS 对 象 


如 上 所 述 的 各 数据 结构 ， 是 VEFS 层 工作 的 基础 。 我 们 在 后 面 几 节 里 将 具体 讨论 该 抽象 层 。 我 们 首 
先 关 注 文件 系统 的 装载 和 外 载 (和 文件 系统 注册 ， 这 是 装载 和 御 载 的 先决 条 件 )。 我 接 下 来 介绍 最 重 
要 ， 也 是 大 家 最 感 兴 趣 的 功能 ， 即 如 何 通过 同样 的 接口 表示 文件 和 所 有 其 他 的 对 象 。 
首先 ， 我 们 从 标准 库 用 来 与 内 核 通 信 的 系统 调用 谈 起 。 
8.4.1 文件 系统 操作 
尽管 文件 操作 对 所 有 应 用 程序 来 说 都 属于 标准 功能 , 但 对 文件 系统 的 操作 只 限于 少量 几 个 系统 程 
序 ， 即 用 于 装载 和 务 载 文件 系统 的 mount 和 umount 程 序 "。 

还 必须 考虑 到 另 一 个 重要 的 方面 ， 即 文件 系统 在 内 核 中 是 以 模块 化 形式 实现 的 。 这 意味 着 可 以 将 
文件 系统 编译 到 内 核 中 (参见 第 7 章 )， 而 内 核 自 身 在 编译 时 也 完全 可 以 限制 不 支持 某 个 特定 的 文件 系 
统 。 事 实 上 大 约 有 50 个 文件 系统 ， 把 这 些 代 码 都 编译 到 内 核 中 几乎 没有 意义 。 
因此 ， 每 个 文件 系统 在 使 用 以 前 必须 注册 到 内 核 ， 这 样 内 核能 够 了 解 可 用 的 文件 系统 ， 并 按 需 调 
用 装载 功能 。 

1. 注册 文件 系统 

在 文件 系统 注册 到 内 核 时 ， 文 件 系 统 是 编译 为 模块 ， 或 者 持久 编译 到 内 核 中 ， 都 没有 差别 。 如 果 
不 考虑 注册 的 时 间 《〈 持 和 久 编 译 到 内 核 的 文件 系统 在 启动 时 注册 ， 模 块 化 文件 系统 在 相关 模块 载 入 内 核 
时 注册 )， 在 两 种 情况 下 所 用 的 技术 方法 是 同样 的 。 

fs/super.c 中 的 register_filesystem 用 来 向 内 核 注 册 文件 系统 。 该 函数 的 结构 非常 简单 。 所 
有 文件 系统 都 保存 在 一 个 〈 单 ) 链表 中 ， 各 个 文件 系统 的 名 称 存储 为 字符 串 。 在 新 的 文件 系统 注册 到 
内 核 时 ， 将 逐 元 素 扫描 该 链表 ， 直 至 到 达 链 表 尾 部 或 找到 所 需 的 文件 系统 。 在 后 一 种 情况 下 ， 会 返回 
一 个 适当 的 错误 信息 〈 一 个 文件 系统 不 能 注册 两 次 ); 否则， 将 描述 新 文件 系统 的 对 象 置 于 链表 末尾 ， 
这 样 就 完成 了 向 内 核 的 注册 。 
用 于 描述 文件 系统 的 结构 定义 如 下 : 












































































































































































































































































































































































































































































































































































































































@ 在 较 早 的 UNIX 版 本 中 ， 该 命令 曾经 称 之 为 unmount〈 这 很 合乎 逻辑 )， 但 第 一 个 字母 n 在 该 操作 系统 悠久 的 历史 中 
已 经 丢失 了 。 
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<fs.h> 
struct file system type { 
const char *name; 
Tnk ES £1age: 
struct super block *(*get_ sb) (struct file system type *, 
const char *, void *, 
void (*kil]] sb) (struct super_ block *); 
struct module *owner; 
struct file system type * next; 
struct list_ head fs_supers; 


和 
name 保 存 了 文件 系统 的 名 称 ， 是 一 个 字符 串 《 





因此 包含 了 例如 reiserfs、ext 











Ti 
struct vfsmount *); 


3 等 类 似 的 值 )。 


fs_flags 是 使 用 的 标志 ,例如 标明 只 读 装 载 、 禁 止 setuid/setgid 操 作 或 进行 其 他 的 微调 。owner 是 一 个 
指向 module 结 构 的 指针 ， 仅 当 文件 系统 以 模块 形式 加 载 时 ，ownez 才 包含 有 意义 的 值 NULL 指针 表示 











文件 系统 已 经 持久 编译 到 内 核 中 )。 
各 个 可 用 的 文件 系统 通过 next 成 员 连 接 起 来 , 这 里 0 0 利 























用 标准 的 链表 功能 ， 











链表 





因 





为 这 是 一 个 单 


日 








我 们 最 感 兴趣 的 成 员 是 fs_supers 和 函数 指针 get_sb。 对 于 每 个 已 经 装载 的 文 伯 
都 创建 了 一 个 超级 块 结构 。 该 结构 保存 了 文件 系统 它 本 身 和 装载 点 的 有 关 信 息 。 



































F 系 统 , 在 内 在 





1 于 可 以 装载 几 个 口 


0D0D0 的 文件 系统 (最 好 的 例子 是 hnome 和 root 分 区 ， 二 者 的 文件 系统 类 型 通常 相同 )， 同 一 文件 系统 类 
型 可 能 对 应 了 多 个 超级 块 结构 ， 这 些 超级 块 聚集 在 一 个 链表 中 。fs_supers 是 对 应 的 表 头 。 在 下 文 讨 











论文 件 系统 装载 时 ， 会 涉及 更 多 细节 。 






































另外 ， 用 于 从 底层 存储 介质 读 取 超 级 块 的 函数 《其 地 址 保存 在 get_sb) 对 装载 过 程 也 很 重要 。 
逻辑 上 ， 该 函数 依赖 具体 的 文件 系统 ， 不 能 实现 为 抽象 。 而 且 该 函数 也 不 能 保存 在 上 述 的 




















super_operations 结 构 中 ， 因 为 超级 块 对 象 和 指向 该 结构 的 指针 都 是 在 调 
kil1l_super 在 不 再 需要 某 个 文件 系统 类 型 时 执行 清理 工作 。 
2. 装载 和 逢 载 
目录 树 的 装载 和 御 载 比 仅仅 注册 文件 系统 复杂 得 多 ， 
者 需要 对 内 核 的 内 部 数据 结构 执行 很 多 操作 ， 所 以 要 复杂 得 多 。 文 件 系统 的 装载 
































jget_sp 之 后 创建 的 。 



































们 还 需要 讨论 用 于 描述 装载 点 的 数据 结构 。 
@ vfsmount[| 中 


UNIX 采 用 了 一 种 单一 的 文件 系统 层次 结构 ， 新 的 文件 系统 可 以 集成 到 其 中 ， 如 


国 * 




















图 8-4 ”文件 系统 层次 结构 ， 包 括 各 种 文件 系统 类 型 





图 8-4 所 示 。 





[| Reiserfs 
[ ISO9660 


因为 后 者 只 需要 丫 一 个 链表 添加 对 象 ， 而 前 
由 mount 系 统 调 
起 。 在 详细 讨论 各 个 步骤 之 前 ， 我 们 需要 阐明 在 现存 目录 树 中 装载 新 的 文件 系统 必须 执行 的 任务 。 我 


发 
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图 中 给 出 了 3 种 不 同 的 文件 
Reiserfs 文 件 系 统 ， 而 /mnt/cdrom 使 


各 种 文件 系统 的 装载 情况 。 


wolfgang@meitner> mount 
/dev/hda7 on / type ext2 














/dev/hdc on /mnt/cdrom type 


/mmt 和 /mnt/cdrom 目 录 被 称 为 DD ， 
包含 
装载 点 的 内 容 被 奉 换 为 即将 装载 的 文件 








尘 击 


一 





件 系统 都 有 
统 装 载 到 一 个 


个 本 地 根 
目录 时 ， 














水 ， 






























































(rw) 
/dev/hda3 on /mnt type reiserfs 


(rw) 
iso9660 





天 
了 系统 





























系统 。 全 局 的 根 目录 /使 用 了 Ext2 文 件 系 统 (参见 第 9 章 )，/mnt 为 
用 了 ISO9660 格 式 ， 这 通常 用 于 光盘 。 使 用 mount 可 查询 目录 树 中 























(ro,noexec,nosuid,nodev,user=wolfgang) 
为 这 是 附 接 (装载 ) 文件 
说 是 source 和 1ibs 目 录 )。 在 将 文件 系 
系统 的 相对 根 目 录 的 














每 个 装载 的 文 





系统 的 位 置 。 














内 容 。 前 一 个 目录 
































数据 消失 ， 直 至 新 文件 系统 和 卸 载 才 重新 出 现 〈 当 然 ， 在 此 期 间 旧 文件 系统 的 数据 不 会 被 改变 ， 但 是 无 
法 访问 )。 

在 我 们 的 例子 中 ， 装 载 是 可 以 峙 套 的 。 光 盘 装 载 在 /mnt/cdrom 目 录 中 。 这 意味 着 ISO9660 文 件 
系统 的 相对 根 目录 装载 在 一 个 Reiser 文 件 系统 内 部 ， 因 而 与 用 作 全 局 根 目录 的 Ext2 文 件 系 统 是 完全 分 





离 的 。 


在 内 核 其 他 部 分 常见 的 父子 关系 ,也 可 以 
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用 于 更 好 地 
































个 文件 系统 2 


间 的 关系 。Ext2 是 /mnt 






































































































































中 的 Reiserfs 的 父 文 件 系 统 。/mnt/cdrom 中 包含 的 是 /mat 的 子 文件 系统 ， 与 根 文件 系统 Ext2 无 关 (至 
人 
每 个 装载 的 文件 系统 都 对 应 于 一 个 vfsmount 结 构 的 实例 ， 其 定义 如 下 : 
<mount.h> 
struct vfsmount { 
struct list head mnt_hash; 
struct vfsmount *mnt_parent; /* 装载 点 所 在 的 父 文件 系统 */ 
struct dentry *mnt_mountpoint; /* 装载 点 在 父 文件 系统 中 的 dentry */ 
struct dentry *mnt_root; /* 当前 文件 系统 根 目录 的 dentry */ 
struct super_block *mnt_sb; /* 指向 超级 块 的 指针 */ 
struct list_head mnt _mounts; /* 子 文件 系统 链表 */ 
struct 人 mnt_child; /* 链表 元 素 ， 用 于 父 文件 系统 中 的 mnt_mounts 链 表 */ 
int mnt_flags 
/* 64 体系 结构 上 ， 是 一 个 4 字 节 的 空洞 */ 
char *Imnt_devname; /* 设备 名 称 ,例如 /dev/dsk/hdal */ 
struct list head mnt_list; 
struct list_head mnt_expire; /* 链表 元 素 ， 用 于 特定 于 文件 系统 的 到 期 链表 中 */ 
struct list_head mnt_share; /* 链表 元 素 ， 用 于 共享 装载 的 循环 链表 */ 
struct list_head mnt_slave_list;/* 从 属 装载 的 链表 */ 
struct list_head mnt_slave; /* 链表 元 素 ， 用 于 从 属 装载 的 链表 */ 
struct vfsmount *mnt master; eed 向 主 装载 ， 从 属 装载 位 于 master->mnt_slave_list 
链表 上 */ 

struct mnt_namespace *mnt_ns; /* 所 属 的 命名 空间 */ 
/* 
* 我 们 把 mnt_count 和 mnt_expiry_mark 放 置 在 struct vfsmount 的 末尾 ， 
* 以 便 让 这 些 频繁 修改 的 字段 与 结构 的 主体 处 于 两 个 不 同 的 缓存 行 中 
* 〔 这 样 在 SMP 机 器 上 读 取 mnt_f1ags 不 会 造成 高 速 缓 存 的 磊 艇 ) 
bai 
atomic t mnt_count; 
int mnt_expiry_mark; /* 如 果 标 记 为 到 期 ， 则 其 值 为 Lrue */ 


ys 
前 文件 系统 上 


mnt_mntpoint 是 当 


录 所 对 应 的 dentry 保 存 








在 mnt_root 中 。 

















为 装载 点 在 其 0 DDU 











Ph 的 gentry 结 构 。 文 件 系统 本 映 的 相对 根 
































两 个 gentry 实 例 表示 同一 











录 ( 即 装载 点 )。 这 意味 着 ， 在 文 
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牛 系统 利 载 后 ， 不 必 删 除 此 前 的 装载 点 信息 。 在 我 讨论 mount 系 统 调用 时 ， 使 用 两 个 aentry 项 的 必要 
性 就 一 清二 楚 了 。 
mmnt_sb 指 针 建立 了 与 相关 的 超级 块 之 间 的 关联 (对 每 个 ]DD 文件 系统 而 言 ， 都 有 且 只 有 一 个 
超级 块 实例 )。mnt_parent 指 向 父 文件 系统 的 vEsmount 结 构 。 
文件 系统 之 间 的 父子 关系 由 上 述 结构 的 两 个 成 员 所 实现 的 链表 表示 。mnt_mounts 表 头 是 子 文件 
系统 链表 的 起 点 ， 而 mnt_childq 字 段 则 用 作 该 链表 的 链表 元 素 。 
系统 的 每 个 vfsmount 实 例 ， 都 还 可 以 通过 另外 两 种 途径 标识 。 一 个 命名 空间 的 所 有 装载 的 文件 
系统 都 保存 在 namespace->1list 链 表 中 。 使 用 vfsmount 的 mnt_list 成 员 作 为 链表 元 素 。 我 在 这 里 忽 
视 拓 扑 结构 的 问题 ， 因 为 所 有 《文件 系统 ) 的 装载 操作 是 相继 执行 的 。 
在 nmt_flags 可 以 设置 各 种 独立 于 文件 系统 的 标志 。 以 下 常数 列 出 了 所 有 可 能 的 标志 : 
















































































































































































<mount.h> 

define r_NOSUID 0x01 
define Tr_NODEV 0x02 
define rT_NOEXEC 0x04 
define r NOATIME 0x08 
define Tr_NODIRATIME Ox10 
define Tr _ RELATIME 0x20 











define Tr_SHRINKABLE 0x100 

















_SHARED 0x1000 /* 如 果 vfsmount 是 共享 装载 ， 则 该 标志 置 位 */ 
rT_UNBINDABLE 0x2000 /* 如 果 vfsmount 是 不 可 绑 定 装载 ， 则 该 标志 置 位 */ 
rT_PNODE_MASK 0x3000 /* 传播 标志 掩 码 */ 


第 一 部 分 涉及 经 典 的 性 质 ， 如 禁止 setuid 执 行 ， 或 装载 时 设备 文件 的 存在 性 或 如 何 管理 存 取 时 间 
的 处 理 。 如 果 装 载 的 文件 系统 是 虚拟 的 ， 即 没有 物理 后 端 设备 ， 则 设置 MNT_NODEV。MNT_SHRINKABLE 
专用 于 NFS 和 AFS 的 ， 用 来 标记 子 装载 。 设 置 了 该 标记 的 装载 允许 自动 移 除 。 

最 后 一 部 分 包含 的 标志 ， 涉 及 共享 装载 和 不 可 绑 定 的 装载 。 更 多 相关 的 细节 ， 请 参考 8.4.1 市 。 

还 使 用 了 一 个 散 列表 ， 称 作 mount_hashtable， 且 定义 在 fs/namespace.c 中 。 溢 出 链表 以 链表 
形式 实现 , 链表 元 素 是 mnt_hash。vfsmount 实 例 的 地 址 和 相关 的 dentry 对 象 的 地 址 用 来 计算 散 列 和 。 
mnt_namespace 是 装载 的 文件 系统 所 属 的 命名 空间 。 

mt_count 实 现 了 一 个 使 用 计数 器 。 每 当 一 个 vfsmount 实 例 不 再 需要 时 ， 都 必须 用 mntput 将 计 
数 器 减 1。mntget 与 mntput 相 对 ， 在 获取 vfsmount 实 例 使 用 时 ， 必 须 调 用 mntget。 

剩余 字段 用 来 实现 几 个 新 的 装载 类 型 ， 这 些 主要 是 在 内 核 版 本 2.6 开 发 期 间 引 入 的 。mnt_slave、 
mnt_slave_l1ist 和 mnt_master 用 来 实现 从 属 装载 (slave mount)。 主 装载 (master mount) 将 所 有 从 
属 装载 保存 在 一 个 链表 上 , mnt_slave_list 用 作 表 头 ， 而 mnt_slave 作 为 链表 元 素 。 所 有 从 属 装载 都 
通过 mnt_master 指 向 其 主 装载 。 
享 装 载 更 容易 表示 。 内 核 所 需 做 的 就 是 将 所 有 共享 装载 保存 在 一 个 循环 链表 上 。mnt_share 作 
为 链表 元 素 。 
装载 过 期 用 mmt_expiry_mark 处 理 。 该 成 员 用 来 表示 装载 的 文件 系统 是 否 已 经 不 再 使 用 。 
mnt_expire 用 作 链 表 元 素 ， 用 于 将 所 有 可 能 自动 过 期 的 装载 放置 在 一 个 链表 上 。8.4.1 节 讨论 了 装载 
过 期 的 实现 。 

最 后 ，mnt_ns 指 向 该 装载 所 属 的 命名 空间 。 

eUU000 

在 装载 新 的 文件 系统 时 ，vfsmount 并 不 是 唯一 需要 在 内 存 中 创建 的 结构 。 装 载 操 作 开 始 于 吕 0 
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define 
define 
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0 的 读 取 。 我 在 上 文 提 到 过 几 次 这 个 结构 ， 但 没有 严格 地 定义 它 。 现 在 是 定义 该 结构 的 时 候 了 。 
file_system_type 对 和 象 中 保存 的 read_super 了 水 数 指针 返回 一 个 类 型 为 super_block 的 对 象 ， 用 
于 在 内 存 中 表示 一 个 超级 块 。 它 是 借助 于 底层 实现 产生 的 。 
该 结构 的 定义 非常 兄长 。 因此 我 在 下 面 给 出 的 是 一 个 简化 的 版 本 。 




























































































<fs.h> 

struct Super_block { 
struct list_ head s_list; /* 将 该 成 员 置 于 起 始 处 */ 
dev_t s_dev; /* 搜索 索引 ， 不 是 kdev_t */ 
unsigned long s_blocksize; 
unsigned char s_blocksize bits; 
unsigned char SA1tS 
unsigned long long s_maxbytes; /* 最 大 的 文件 长 度 */ 
struct file system type *s_type; 
struct super_operations *s_op; 
unsigned long s_flags; 
unsigned long s_magic,; 
struct dentry *s_ root; 
struct xattr_handler WS XAttr; 
struct list_head s_inodes; /* 所 有 inode 的 链表 */ 
struct list_head s_dirty; /* 脏 inode 的 链表 */ 
struct list_head s_io; /* 等 待 回 写 */ 
struct list_head s_more_io; /* 等 待 回 写 ， 另 一 个 链表 */ 
struct list_head s_files; 
struct block_device *Ss_bdev; 
struct list_head s_instances; 
char sc id[32]> /* 有 意义 的 名 字 */ 
void *s_ fs info; /* 文件 系统 私有 信息 */ 
/* 创建 /修改 /访问 时 间 的 粒度 ， 单 位 为 ns 〈 纳 秒 ) 。 
粒度 不 能 大 于 1 秒 */ 
u32 s_time_gran; 

上 











口 s_blocksize 和 s_blocksize_bits 指 定 了 文件 系统 的 块 长 度 〈 这 对 于 硬盘 上 的 数据 组 织 特别 
有 用 ， 将 在 第 9 章 讨 论 )。 本 质 上 ， 这 两 个 变量 以 不 同 的 方式 表示 了 相同 信息 。s_blocksize 

的 单位 是 字 节 ， 而 s_blocksize_pbits 则 是 对 前 一 个 值 取 以 2 为 底 的 对 数 。" 

口 s_maxbytes 保 存 了 文件 系统 可 以 处 理 的 最 大 文件 长 度 ， 因 实现 而 异 。 

口 s_type 指 向 file_system_type 实 例 ( 在 8.4.1 节 讨论 )， 其 中 保存 了 与 文件 系统 有 关 的 一 般 类 

型 的 信息 。 

口 s_root 将 超级 块 与 全 局 根 目录 的 dentry 项 关联 起 来 。 


as 
OOO 
| 


处 理 文件 系统 对 象 的 代码 经 常 需 要 检查 文件 系统 是 否 已 经 装载 ， 而 s_root 可 用 于 该 目的 。 如 果 




























































































































































































Q@ 标准 的 Ext2 文 件 系统 使 用 的 块 长 度 为 1 024 字 节 ， 因 此 s_blocksize 保 存 的 值 是 1 024， 而 s_blocksize_bits 为 
10〈 因 为 2" =1 024)。 
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它 为 NULL， 则 该 文件 系统 是 一 个 伪 文 件 系 统 ， 只 在 内 核 内 部 可 见 。 否 则 ， 该 文件 系统 在 用 户 空间 中 是 
可 见 的 。 
口 xattr_handler 是 一 个 指向 结构 的 指针 ， 该 结构 包含 了 一 些 用 于 处 理 扩展 属性 的 函数 指针 。 
口 s_dev 和 s_bdev 指 定 了 底层 文件 系统 的 数据 所 在 的 块 设备 。 前 者 使 用 了 内 核 内 部 的 编号 , 而 后 
者 是 一 个 指向 内 存 中 的 block_dqevice 结 构 的 指针 ， 该 结构 用 于 更 详细 地 定义 设备 操作 和 功能 
(第 6 章 更 仔细 地 讲解 了 这 两 种 类 型 的 表示 方法 )。 
s_dev 项 总 是 一 个 数字 (即使 对 于 不 需要 块 设备 的 虚拟 文件 系统 , 也 是 如 此 )。 与 此 相反 , s_bdev 
可 以 为 NULL 指 针 。 
口 s_fs_info 是 一 个 指向 文件 系统 实现 的 私有 数据 的 指针 ，VFS 不 操作 该 数据 。 
口 s_time_gran 指 定 了 文件 系统 支持 的 各 种 时 间 戳 的 最 大 可 能 的 粒度 。 该 值 对 所 有 时 间 惟 都 是 相 
同 的 ， 单 位 为 8， 即 1 秒 的 10 分 之 一 。 
结构 包含 了 两 个 表 头 ， 用 于 建立 与 超级 块 相 关 的 inode 和 文件 的 集 
口 s_qirty 是 一 个 表 头 ， 用 于 脏 inode 的 链表 《〈 在 8.3.2 节 讨论 过 )， 在 司 步 内 存 内 容 与 底层 存储 介 
质 上 的 数据 时 ， 使 用 该 链表 会 更 加 高 效 。 该 链表 只 包含 已 经 修改 的 inode， 因 此 回 写 数据 时 并 
不 需要 扫描 全 部 inode。 该 字段 不 能 与 s_dirt 混 浠 ， 后 者 不 是 表 头 ,而 是 一 个 简单 的 整 型 变量 。 
如 果 以 任 i oe 需要 向 磁盘 回 写 ， 都 会 将 s_airt 设 置 为 1。 否 则 ， 其 值 为 0。 
口 s_files 链 表 包 含 了 一 系列 file 结 构 , 列 出 了 该 超级 块 表示 的 文件 系统 上 所 有 打开 的 文件 。 内 
0 参考 该 链表 。 如 果 其 中 仍然 包含 为 写 入 而 打开 的 文件 ， 则 文件 系统 仍 
然 处 于 使 用 中 ， 印 载 操作 失败 ， 并 将 返回 适当 的 错误 信息 。 
结构 的 第 一 个 成 员 s_list 是 一 个 链表 元 素 ， 用 于 将 系统 中 所 有 的 超级 块 聚 集 到 一 个 链表 中 。 该 
链表 的 表 头 是 全 程 变量 蛙 Ssuper_blocks,， 定义 在 fs/super. c 中 。 
最 后 ， 各 个 超级 块 都 连接 到 另 一 个 链表 中 ,表示 0 0 0 0 文件 系统 的 所 有 超级 块 实例 ， 这 里 不 考 
虑 底层 的 块 设备 ， 但 链表 中 的 超级 块 的 文件 系统 类 型 都 是 相同 的 。 表 头 是 file_system_type 结 构 的 
fs_supers 成 员 ， 该 结构 在 8.4.1 节 讨论 。s_instances 用 作 链 表 元 素 。 
s_op 指 向 一 个 包含 了 函数 指针 的 结构 ， 该 结构 按 熟悉 的 VFS 方 式 ， 提 供 了 一 个 一 般 性 的 接口 ， 用 
于 处 理 超级 块 相关 操作 。 操 作 的 实现 必须 由 底层 文件 系统 的 代码 提供 。 
该 结构 定义 如 下 : 


<fs.h> 

struct super_operations { 
struct inode *(*alloc inode) (struct super block *sb); 
void (*destroy_inode) (struct inode *); 










































































































































































































































































































































































void (*read_ inode) (struct inode *); 


void (*dirty_ inode) (struct inode *); 


int (*write_ inode) (struct inode *, int); 
void (*put_inode) (struct inode *); 
void (*drop_inode) (struct inode *);，; 


void put_super) (struct super_ block *);} 

void (*write super) (struct super block *); 

int (*sync_fs) (struct super block *sb, int wait); 

void (*write_ super_lockfs) (struct super block *); 

void (*unlockfs) (struct super_ block *); 

int (*statfs) (struct super block *, struct kstatfs *); 
int (*remount_fs) (struct super block *, int *, char *); 


( 
void (*delete_ inode) (struct inode *); 
( 






























































































































































442 0U80 000000 
void (*clear inode) (struct inode *); 
void (*umount begin) (struct super block *); 
int (*show_ options) (struct seq file *, struct vfsmount *); 
int (*show_stats) (struct seq file *, struct vfsmount *); 
}; 
该 结构 中 的 操作 并 不 改变 inode 的 内 容 ， 但 会 控制 从 底层 文件 系统 实现 获取 和 返回 inode 数 据 的 方 
式 。 该 结构 还 包括 一 些 方 法 ， 用 于 执行 其 他 操作 ， 如 重新 装载 文件 系统 。 由 于 这 些 函 数 指针 的 名 称 清 
楚 地 表示 了 函数 的 作用 ， 我 在 下 面 只 是 简单 讲述 一 下 。 
口 read_inoge 读 取 inode 数 据 。 奇怪 的 是 ， 除 了 一 个 指向 inode 结 构 的 指针 之 外 ， 它 不 需要 其 他 参 
数 。 函 数 接 下 来 如 何 知道 读 取 哪 个 inode? 答案 相对 简单 。 传 递 进来 的 inode 的 i_ino 字 段 ， 保 
存 了 一 个 inode 编 号 ， 唯 一 标识 了 文件 系统 中 需要 读 取 的 inode。 底 层 实 现 的 例 程 将 读 取 该 值 ， 
从 存储 介质 取出 有 关 数 据 ， 并 填充 inode 对 象 剩余 的 字段 。 
D dirty_inoqe 将 传递 的 mode 结 构 标 记 为 “ 脏 的 ” 因为 其 数据 已 经 修改 。 
D delete_inoqe 将 inode 从 内 存 和 底层 存储 介质 删除 。 
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口 在 进程 结束 数据 的 使 用 时 ，put_inode 将 inode 使 用 计数 器 减 1。 

国人 

中 OO 

口 当 某 个 inode 不 再 使 用 时 ， 由 VFS 在 内 部 调用 clear_inode。 它 释放 仍然 包含 数据 的 所 有 相关 
的 内 存 页 面 。 并 非 所 有 文件 系统 都 实现 了 clear_inode, 未 实现 该 接口 的 文件 系统 能 够 以 其 他 
方式 释放 内 存 。 

口 write_super 和 write_super_lockfs 将 超级 块 写 入 存储 介质 。 两 个 函数 之 间 的 差别 在 于 其 使 
用 内 核 锁 机 制 的 方式 。 内 核 必须 根据 当前 情况 选择 适当 的 函数 。 我 不 会 详细 讨论 代码 中 的 细 
节 差 别 ， 因 为 二 者 本 质 上 完成 的 工作 是 相同 的 。 

口 unlockfs 用 于 Ext3 和 Reiserfs 日 志文 件 系统 ， 以 确保 与 设备 映射 器 代码 (Device Mapper Code ) 
的 正确 交互 。 

口 xemount_fs 重 新 装载 一 个 已 经 装载 的 文件 系统 ， 选 项 可 能 有 所 改变 〈 这 发 生 在 启动 时 ， 例 如 
允许 对 root 文 件 系统 的 写 访问 ， 而 此 前 root 文 件 系统 是 以 只 读 访 问 方式 装载 的 )。 

口 put_supezr 将 超级 块 的 私有 信息 从 内 存 移 除 ， 这 发 生 在 文件 系统 秋 载 、 该 数据 不 再 需要 时 。 

口 statfs 给 出 有 关 文 件 系 统 的 统计 信息 ， 例 如 使 用 和 未 使 用 的 数据 块 的 数目 ， 或 文件 名 的 最 大 
长 度 。 它 与 同名 的 系统 调用 有 密切 的 协作 。 

口 unmount_begin 仅 用 于 网 络 文件 系统 (NFS、CIFS 和 9%A) 和 用 户 空 间 文 件 系统 FUSE)。 它 允 
许 在 外 载 操作 开始 0 口 ， 与 远程 的 文件 系统 提供 者 通信 。 仅 在 文件 系统 强制 卸载 时 调用 该 方 
法 。 换 句 话 说 ， 它 仅 用 于 MNT_FORCE 强 制 内 核 执 行 wmount 操 作 时 ， 此 时 可 能 仍然 有 对 该 文件 








系统 的 引 
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口 sync_fs 将 文件 系统 数据 与 底层 块 设备 上 的 数据 同步 。 
口 show_options 用 于 proc 文 件 系 统 ， 用 以 显示 文件 系统 装载 的 选项 。show_stats 提 供 了 文件 
系统 的 统计 信息 ， 同 样 用 于 proc 文 件 系 统 。 
@ mount0 [DDO 
mount 系 统 调用 的 入 口 点 是 sys_mount 函 数 ， 其 定义 在 fs/namespace.c 中 。 图 8-5 给 出 了 相关 的 
代码 流程 图 。 
























































Sys_mount 























根据 标志 调用 相应 的 装载 函数 | 
图 8-5 ”sys_mount 的 代码 流程 图 


这 里 讲述 的 方法 仅 用 于 在 现存 的 root 文 件 系统 中 装载 一 个 新 文件 系统 。 上 述 算 法 的 改进 版 本 可 以 
装载 root 文 件 系统 本 身 , 但 不 太 值得 单独 讲述 (其 代码 可 以 参看 init/do_mounts.c 中 的 mount_root)。 
在 装载 选项 〈 类 型 、 设 备 和 选项 ) 已 经 由 sys_mount 从 用 户 空 间 复制 到 内 核 空 间 之 后 ， 内 核 将 探 
制 转移 给 do_mount， 该 函数 将 分 析 传 递 的 信息 ， 并 设置 相应 的 标志 。 其 中 还 将 使 用 下 文 讨论 的 
path_1lookup 函 数 ， 找 到 装载 点 的 dentry 项 。 
do_mount 充 当 一 个 多 路 分 解 器 ， 将 仍然 需要 完成 的 工作 委派 给 与 装载 类 型 相关 的 各 个 函数 。 
口 do_remount 修 改 已 经 装载 的 文件 系统 的 选项 (MS_REMOUNT)。 
口 do_loopback 用 于 通过 环 回 接口 (loopback interface ) 装载 一 个 文件 系统 〈 完 成 该 操作 需要 
MS_BIND 标 志 )。" 
口 do_move_mount (MS_MOVE) 用 来 移动 一 个 已 经 装载 的 文件 系统 。 
口 do_change_type 负 责 人 处 理 共享 、 从 属 和 不 可 绑 定 装载 ， 它 可 以 改变 装载 标志 或 在 涉及 的 各 个 
vfsmount 实 例 之 间 建 立 所 需 的 数据 结构 的 关联 。 
口 do_new_mount 处 理 普 通 装载 操作 。 这 是 默认 情况 ， 因 此 不 需要 特殊 标志 。 
do_new_mount 值 得 仔细 讨论 一 番 ， 因 为 它 使 用 很 是 频繁 。 其 代码 流程 图 如 图 8-6 所 示 。 
do_new_mount 分 为 两 个 部 分 : do_kern_mount 和 do_adq_mount。 
口 dao_kern_mount 的 初始 任务 是 使 用 get_fs_type 找 到 匹配 的 file_system_type 实 例 。 该 辅助 
函数 扫描 已 注册 文件 系统 的 链表 (如 上 所 述 ), 返回 正确 的 项 。 如 果 没 有 找到 匹配 的 文件 系统 ， 
该 例 程 就 自动 加 载 对 应 的 模块 〈 参 见 第 7 章 )。 
此 后 ，vfs_kern_mount 调 用 特定 于 文件 系统 的 get_sb 函 数 读 取 相关 的 超级 块 ， 并 
super_block 的 实例 。 
口 do_aqd_mount 处 理 一 些 必需 的 锁定 操作 ， 并 确保 一 个 文件 系统 不 会 重复 装载 到 同一 位 置 〈 当 
然 , 将 同一 文件 系统 多 次 装载 到 [0 D 位 置 是 可 能 的 )。 主 要 工作 委托 给 graft_tree。 新 装载 的 






















































































































































































































































































回 struct 





二 






























































G) 环 回 装载 涉及 的 文件 系统 ， 其 数据 保存 在 文件 中 ， 而 非 普 通 的 块 设备 上 。 这 对 于 快速 测试 新 文件 系统 ， 或 将 光盘 
文件 系统 写 入 光盘 之 前 进行 检查 ， 都 十 分 有 用 。 
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do_new_mount 
do_kern mount 























防止 


图 8-6 ”do_new_mount 的 代码 流程 图 










































文件 系统 通过 调用 attach_recursive_mnt 添 加 到 父 文件 系统 的 命名 空间 。 该 函数 定义 如 下 。 





fs/namespace.c 


static int attach recursive mnt(struct vfsmount *source mnt, 


{ 
struct vfsmount *dest mnt = nd->mnt; 
struct dentry *dest_ dentry = nd->dentry; 
mt_set mountpoint (dest _ mnt, dest_ dentry, source _ mnt); 
commit_tree(source mnt); 
} 














nameidata 结 构 用 于 将 一 个 vfsmount 实 例 和 一 个 qentry 实 例 聚 集 起 来 。 在 这 里 ， 该 














struct nameidata *nd, struct nameidata *parent _ nd) 





结构 保存 了 


装载 点 的 dentry 实 例 和 该 目录 口 口 ( 即 新 的 装载 操作 执行 之 前 〉 所 在 文件 系统 的 vfEsmount 实 例 。 


mnt_set_mountpoint 确 保 口 口 vfsmount 实 例 的 mnt_parent 成 员 指 向 父 文 伯 
例 ， 而 mnt_mountpoint 成 员 指 向 装载 点 在 父 文件 系统 中 的 aenty 实 例 。 

fs/namespace.c 

void mnt_set mountpoint (struct v 








fsmount *mnt, struct dentry *dentry, 
struct vfsmount *child mnt) 


{ 
child mt->mnt _ parent = mntget (mnt); 
child mnt->mnt mountpoint = dget (dentry); 
dentry->d_ mounted++; 

} 





这 使 得 在 内 核 印 载 文 件 系 统 时 ， 能 够 
da_mounteq 值 加 1， 这 样 内 核能 够 识别 出 有 一 个 文件 系统 装载 在 这 里 。 
此 外 ， 新 的 vfsmount 实 例 还 添加 到 全 








Il 中 















































表 ， 使 用 的 链表 元 素 如 上 所 述 。 这 些 工 作 由 commit_tree 执 行 : 


系统 的 vfEsmount 实 


建 该 文件 系统 装载 之 前 的 情形 。0 0 dentry 实 例 的 


全 局 散 列 表 以 及 父 文件 系统 vfsmount 实 例 中 的 子 文 件 系 统 链 
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fs/namespace.c 
static void commit_ tree(struct vfsmount *mnt) 


{ 
struct vfsmount *parent = mt->mnt_ parent; 
list adqd tail(&mnt->mnt_hash, mount_ hashtable + 
hash(parent, mnt->mnt mountpoint)); 
list add tail(&mnt->mnt_ child, &parent->mnt mounts); 
} 
e0000 














到 现在 为 止 我 讨论 过 的 机 制 涵 盖 了 任何 UNIX 系 统 上 都 可 用 的 标准 装载 情况 。 但 Linux 支 持 一 些 更 
高 级 的 特性 ， 可 以 更 好 地 利用 命名 空间 机 制 。 由 于 这 些 特性 是 在 内 核 版 本 2.6( 确 切 地 说 ， 是 内 核 版 本 
2.6.16) 开发 期 间 引 入 的 ， 其 使 用 仍然 多 少 有 些 限制 。 因 此 在 讨论 其 实现 之 前 ， 我 先 简 要 解释 一 下 基 
本 原理 。 对 于 实际 应 用 的 有 具体 细节 和 mount 工 具 的 共享 子 树 语义 的 详细 描述 ， 读 者 可 以 参见 手册 页 
mount (8)。 男 外 ， 有 关 共 享 子 树 的 详细 特性 ， 可 以 在 http://lwn.net/Articles/159077/ 网 页 找到 。 

这 些 扩展 装载 选项 〈 我 将 其 集合 称 之 为 0 口 口 口 〉 对 装载 操作 实现 了 几 个 新 的 属性 。 

口 共享 装载 : 一 组 已 经 装载 的 文件 系统 ， 装 载 事件 将 在 这 些 文件 系统 之 间 传 播 。 如 果 一 个 新 的 

文件 系统 装载 到 该 集合 的 某 个 成 员 中 ， 则 装载 的 文件 系统 就 将 复制 到 集合 的 所 有 其 他 成 员 中 。 

口 从 属 装载 : 相 比 共享 装载 ， 它 只 是 去 掉 了 集合 的 所 有 成 员 之 间 的 对 称 性 。 集 合 中 有 一 个 文件 

系统 称 之 为 主 装 载 。 主 装载 中 的 所 有 装载 操作 都 会 传播 到 从 属 装载 中 ， 但 从 属 装 载 中 的 装载 
操作 不 会 反 向 传播 到 主 装 载 中 。 

口 不 可 绑 定 的 装载 : 不 能 通过 绑 定 操作 复制 。 

口 私有 装载 ， 本 质 上 就 是 为 经 典 的 UNIX 装 载 类 型 取 了 个 新 名 字 ， 它 们 可 以 装载 到 文件 系统 中 多 

个 位 置 ， 但 装载 事件 不 会 传播 到 这 种 文件 系统 ， 也 不 会 从 这 种 文件 系统 向 外 传播 。 

考虑 一 个 装载 到 文件 系统 中 多 个 位 置 的 文件 系统 。 这 是 UNIX 和 Linux 的 标准 特性 ， 用 到 目前 为 止 
讨论 过 的 旧 框 架 即 可 做 到 。 设 想 图 8-7 左 上 部 分 描述 的 情形 : 目录 /virtual 包 含 了 root 文 件 系 统 3 个 相 
同 的 绑 定 装载 ， 分 别 是 /virtual/a、/virtual/b 和 /virtual/c。 但 我 们 还 希望 任何 装载 在 /media 
中 的 媒介 都 还 能 在 /virtual/user/media 中 可 见 ， 即 使 该 媒介 是 在 装载 结构 建立 后 添加 的 。 解决 方 案 
是 用 共享 装载 替换 绑 定 装 载 。 在 这 种 情况 下 ， 任 何 装载 在 /media 中 的 文件 系统 ， 都 可 以 在 其 共享 装载 
集合 的 其 他 成 员 (/、/file/virtual/a/、/file/virtual/b/ 和 /file/virtual/c/) 中 看 到 。 图 8-7 
右上 部 分 给 出 了 这 种 情况 下 的 目录 树 。 

如 果 上 文 介绍 的 文件 系统 结构 用 作 容 器 的 基础 ， 一 个 容器 的 每 个 用 户 都 可 以 看 到 所 有 其 他 容器 ， 
只 需要 查看 /virtual/name/virtual 的 内 容 即 可 ! 通常 ， 这 不 是 我 们 想 要 的 。" 对 该 问题 的 一 个 补救 
音 施 是 将 /viztual 转 换 为 不 可 绑 定 子 树 。 其 内 容 接 下 来 不 能 被 绑 定 装载 看 到 ,而 容器 中 的 用 户 也 无 法 
看 到 外 部 的 情况 。 图 8-7 左 下 部 分 说 明了 这 种 情况 。 

在 所 有 容器 的 用 户 都 应 该 看 到 装载 在 /media 的 设备 时 例如， 装载 到 /media/usbstick 的 USB 
存储 棒 ),， 会 引发 男 一 个 问题 。 如 果 /media 在 各 个 容器 之 间 共 享 ， 显然 是 可 以 工作 的 ,但 有 一 个 缺点 ， 
即 任何 容器 的 用 户 都 会 看 到 由 任何 其 他 容器 装载 的 媒介 。 将 /media 转 换 为 从 属 装载 ， 则 能 够 保持 我 们 
想 要 的 特性 《装载 事件 会 从 /传播 过 来 )， 而 且 将 各 个 容器 彼此 隔离 开 来 。 如 图 8-7 右 下 部 分 所 示 ， 
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Q 请 注意 ， 这 里 介绍 的 许多 问题 ， 在 某 种 程度 上 还 可 以 使 用 绑 定 装载 的 改进 形式 或 适当 的 访问 控制 解决 ， 但 这 些 角 
决 方案 通常 有 一 些 缺 点 或 限制 。 共 享 子 树 提 供 的 特性 通常 更 为 强大 。 
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用 户 A 装 载 的 摄像 机 不 能 被 其 他 任何 容器 看 到 ， 而 USB 存 储 棒 的 装载 点 则 会 向 下 传播 到 /vizrtual 的 所 














有 子 目 录 中 。 
GD， | 1 I | 1 © 
USr media virtual usr media virtual 
usbstick USbstick 
a b C a b C 
一 -一 上 一 一 一 一 一 一 王 一 上 -一 
usr media virtual usr media virtual 7 media 
一 | 一 | 一 一 
abc USbstick a bc usbstick 
一 一 一 一 一 Tm 
oT media virtual Usr media virtual © 
USbstick 
a b C a b C 
usr media virtual virtual usr media virtual usr Wi virtual 
usbstick eaera usbstick oboy 


























想 一 下 ， 我们 在 8.4.1 节 讲述 的 数据 结构 ， 这 是 


图 8-7 ”共享 子 树 的 特性 
< 亭子 树 的 基础 。 因 而 我 们 现在 把 注意 力 转向 对 






































装载 实现 需要 进行 的 扩展 。 如 果 MS_SHARED、MS_PRIVATE、MS_SLAVE 或 MS_UNBINDABLE 其 中 某 个 标 




















志 传 递 到 mount 系 统 调 
如 下 : 


fs/namespace.c 








用 ， 那 么 ao_mount 将 调用 do_change_type 改 变 给 定 装 载 的 类 型 。 该 函数 定义 


static int dqo_change_type(struct nameidata *nd, int flag) 


{ 


struct vfsmount *m, 
flag & MS_REC; 
flag & ~MS_REC; 


int recurse = 
int type = 


for (m = mnt; m; m = (recurse ? next_mnt(m, mnt) 


*mnt = nd->mnt; 


: NULL)) 


change_mnt_ propagation(m, type); 


return 0; 


} 
ng 中 给 出 的 路 径 的 装载 类 型 ， 




















可 使 用 change_mnt_propagation 改 变 。 如 果 设 置 了 MS_REC 标 志 ， 





则 所 有 子 装 载 的 装载 类 型 都 将 递归 地 改变 。next_mnt 提 供 了 一 个 迭代 器 ,能 够 遍历 给 定 装 载 的 所 有 子 


change_mnt_propagation 负 责 对 struct vfsmount 的 实例 设置 适当 的 传播 标志 。 


fs/pnode.c 











void change_mnt_pPropagation(struct vfsmount *mnt, int type) 


{ 
半 医 


(type == MS_SHARED) { 
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set_mnt_shared (mnt); 


return; 
} 
do_make_slave (mnt); 
if (type != MS_SLAVE) { 


list_ del init(&mnt->mnt _ slave); 

mt->mnt_master = NULL; 

if (type == MS_UNBINDABLE) 
mnt->mnt_flags 性 MNT_UNBINDABLE; 





} 
} 


这 对 于 共享 装载 是 很 简单 的 ， 用 辅助 函数 set_mnt_shared 设 置 MNT_SHARED 标 志 就 是 够 了 。 

如 果 必 须 建立 从 属 装 载 、 私 有 装载 或 不 可 绑 定 装 载 ， 内 核 必 须 重 排 装载 相关 的 数据 结构 ， 使 得 目 
标 vfsmount 实 例 转化 为 从 属 装载 。 这 是 通过 ao_make_slave 完 成 的 。 该 函数 执行 以 下 几 个 步骤 。 

(1) 需要 对 指定 的 vfsmount 实 例 ， 找 到 一 个 主 装 载 和 任何 可 能 的 从 属 装载 。 首 先 ， 内 核 搜 索 共 享 
装载 集合 的 各 个 成 员 。 电 历 到 的 各 个 vfsmount 实 例 中 ，mnt_root 成 员 与 指定 的 vfsmount 实 例 的 
mnt_root 成 员 相同 的 第 一 个 vfsmount 实 例 ， 将 指定 为 新 的 主 装 载 。 如 果 共 享 装载 集合 中 不 存在 这 样 
的 成 员 ， 则 将 成 员 链表 中 第 一 个 vfsmount 实 例 用 作 主 装载 。 

(2) 如 果 已 经 发 现 一 个 新 的 主 装 载 ， 那 么 将 所 述 vfsmount 实 例 以 及 所 有 从 属 装载 的 实例 ， 都 设置 
为 新 的 主 装载 的 从 属 装载 。 

(3) 如 果 内 核 找 不 到 一 个 新 的 主 装 载 ， 所 述 装载 的 所 有 从 属 装载 现在 都 是 自由 的 ， 它 们 不 再 有 主 
装载 了 。 

无 论 如 何 ， 都 会 移 除 MNT_SHARED 标 志 。 

在 ao_make_slave 执 行 了 这 些 调整 之 后 ，change_mnt_propagation 还 需要 一 些 步骤 来 处 理 不 可 
绑 定 装载 和 私有 装载 。 "对 于 这 两 种 情况 ， 如 果 所 述 装载 是 从 属 装 载 ， 则 将 其 从 从 属 装载 链表 中 删除 ， 
并 将 其 mnt_master 设 置 为 NULL， 这 两 种 装载 类 型 都 没有 主 装载 。 对 于 不 可 绑 定 的 装载 ， 将 设置 
MNT_UNBINDABLE 标 志 ， 以 便 识别 。 
在 向 系统 装载 新 的 文件 系统 时 ， 共 享 子 树 显 然 也 影响 到 内 核 的 行为 。 决 定性 的 步骤 在 
attach_recursive_rmt 中 进行 。 我 们 在 此 前 接触 过 该 函数 ， 但 介绍 得 比较 简单 。 这 一 次 ， 我 将 与 共 
享 子 树 的 作用 一 同 讨 论 。 首先， 该 函数 需要 调查 ， 读 取 装 载 事件 应 该 传播 到 哪些 装载 。 
fs/namespace.c 
static int attach recursive mnt(struct vfsmount *source mnt, 


struct nameidata *nd, struct nameidata *parent_nd) 


{ 






















































































































































































































































































LIST HEAD(tree_ list); 

struct vfsmount *dest_ mnt = nd->mnt; 
struct dentry *dest_ dentry = nd->detnry; 
struct vfsmount *child, *p; 





if (propagate mnt (dest mnt, dest dentry, source mnt, &tree list)) 
return -EINVAL; 





























@ 由 于 该 函数 在 共享 装载 的 情况 下 已 经 返回 到 调用 者 ， 在 if 条 件 语句 中 只 需要 处 理 这 些 不 同 于 Ms_sLavE 的 装载 类 
型 。 

加 请 注意 ， 这 一 次 我 们 也 进行 了 一 些 轻微 的 简化 ， 我 们 只 考虑 增加 装载 的 情况 ， 不 考虑 将 现存 装载 从 文件 系统 层次 
结构 中 的 一 个 位 置 移动 到 另 一 个 位 置 的 情况 。 
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propagate_mnt 裔 历 装 载 目标 的 所 有 从 属 装载 和 共 
































文件 系统 装载 到 这 些 文件 系统 中 。 所 有 受 该 操作 影响 的 装载 点 都 在 tree_ 





























list 中 返回 。 
如 果 目 标 装载 点 是 一 个 共享 装载 ， 那 么 新 的 装载 及 其 所 有 子 装载 都 会 变 为 共享 的 : 


fs/namespace.c 
if (IS_MNT_ SHARED(dest mnt)) { 


for (p = source mnt; p; p = next mnt(p, source_ mnt)) 
set_mnt_shared (p); 





} 











最 后 ， 内 核 需 要 调 
讨论 的 普通 装载 的 数据 结构 中 。 但 要 沪 















































commit_tree (mnt_set_mountpoint 已 经 在 propagate_mnt 中 对 这 些 装 载 调用 过 )。 








fs/namespace.c 


mnt_set_mountpoint (daest_mnt，dqest_dqentry，sSsource_rmnt) : 
commit_tree(source mnt); 


list_for each entry_safe(child, p, 
list del init(&child->mnt hash); 
commit_ tree(child); 





&tree list, mnt hash) { 


} 

return 0; 
} 
@ umount[| [DDO 











文件 系统 通过 umount 系 统 调用 外 载 ， 其 入 














共享 装载 , 并 分 别 使 用 mnt_set_montpoint 将 


新 





jmnt_set_mountpoint 和 commit_tree 结 束 装载 过 程 ， 并 将 修改 引入 到 前 文 
E 意 ， 需 要 对 共享 装载 集合 的 每 个 成 员 或 每 个 从 属 装载 分 别 调用 


口 点 是 fs/mnamespbace.c 中 的 sys_umount。 图 8-8 给 出 
了 相关 的 代码 流程 图 。 





sys_umount 
__user walk 


do_umount 













sb->s_op->umount_begin 


设置 了 MNT_DETACH 或 所 
述 装载 项 不 再 被 使 用 ? 


耕 





汗 


umount_tree 


release mounts 



































一 >| 返回 -EBUSY 





图 8-8 ”sys_umount 的 代码 流程 图 


























和 和 完 ， user_walk 找 到 装载 点 的 vfsmount 实 例 和 qentry 实 例 ， 二 者 包装 丰 


构 中 。? 
实际 工作 委托 给 do_umount。 
口 如 果 定 义 了 特定 于 超级 块 的 umount_begin 函 数 ， 则 调用 该 函数 。 举 例 来 说 ， 这 容 询 


系统 在 强制 外 载 之 前 ， 终 止 与 远程 文件 系统 提供 者 的 通信 。 













































































@ user_walk 在 路 径 名 复制 到 内 核 空 间 之 后 调用 path_walk 函 数 。 


FE 一 个 nameidata 结 


网络 文 件 





证 
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口 如 果 装 载 的 文件 系统 不 再 需要 (通过 使 用 计数 器 判断 ), 或 者 指定 了 MNT_DETAcH 来 强制 卸载 文 
件 系统 ， 则 调用 umount_tree。 实 际 工作 委托 给 umount_tree 和 release_mounts。 本 质 上 ， 
前 一 个 函数 负责 将 计数 器 a_mounted 减 1， 而 后 者 使 用 保存 在 mnt_mountpoint 和 mnt_parent 
中 的 数据 ， 将 环境 恢复 到 所 述 文 件 系 统 装 载 之 前 的 原始 状态 。 被 卸载 文件 系统 的 数据 结构 ， 
也 从 内 核 链表 中 移 除 。 
eUU00 
内 核 也 提供 了 一 些 基础 设施 ， 允 许 装载 自动 过 期 。 在 任何 进程 或 内 核 本 身 都 未 使 用 某 个 装载 时 ， 
如 果 使 用 了 自动 过 期 机 制 ， 那 么 该 装载 将 自动 从 vfsmount 树 中 移 除 。 当 前 NFS 和 AFS 网 络 文件 系统 使 
用 了 该 机 制 。 所 有 子 装载 的 vfEsmount 实 例 ， 如 果 被 认为 将 自动 到 期 ， 都 需要 使 用 vfsmount->mnt_ 
expire 链 表 元 素 ， 将 其 添加 到 链表 中 。 
那么 接 下 来 对 链表 周期 性 地 应 用 mark_mounts_for_expiry 即 可 。 该 函数 扫描 所 有 链表 项 。 如 果 
装载 的 使 用 计数 为 1， 即 它 只 被 父 装 载 引 用 ， 那 么 它 处 于 未 使 用 状态 。 在 找到 这 样 的 未 使 用 装载 时 ， 
将 设置 mnt_expiry_ mark。 在 mark mounts_for_expiry 下 一 次 过 历 链 表 时 ， 如 果 发 现 未 使 用 项 设置 
了 mnt_expiry_mark， 那 么 将 该 装载 从 命名 空间 移 除 。 
要 注意 ，mntput 负 责 清 除 mnt_expiry_mark。 这 确保 以 下 情形 : 如 果 一 个 装载 已 经 处 于 过 期 链 
表 中 ， 然 后 又 再 次 使 用 ， 那 么 在 接 下 来 调用 mntput 将 计数 器 减 1 时 ， 不 会 立即 过 期 而 被 移 除 。 代 码 流 
程 如 下 所 示 。 
(1) mark_mounts_for_expiry 将 未 使 用 的 装载 标记 为 到 期 。 
(2) 此 后 ， 该 装载 再 次 被 使 用 ， 因 此 其 mnt_count 加 1。 这 防止 了 mark mounts_for_expiry 将 该 
装载 从 命名 空间 移 除 ， 尽 管 此 时 仍然 设置 着 过 期 标记 。 































































































































































































































































































































































































(3) 在 用 mntput 将 使 用 计数 减 1 时 ， 该 函数 也 会 确认 移 除 过 期 标记 。 下 一 周期 的 
mark_mounts_for_expiry 将 照常 开始 工作 。 
euU0000 














文件 系统 未 必需 要 底层 块 设备 文 持 。 它 们 可 以 使 用 内 存 作为 后 备 存 储 器 〈 如 ramfs 和 tmpfs)， 或 根 
本 不 需要 后 备 存 储 器 《〈 如 procgs 和 sysfs)， 其 内 容 是 从 内 核 数据 结 构 包 含 的 信息 生成 的 。 虽 然 此 类 文件 
系统 已 经 与 传统 观念 有 很 大 不 同 ， 但 仍然 可 以 更 进一步 。 如 何 进 行 呢 ? 所 有 文件 系统 ， 无 论 是 否 是 虚 
拟 的 ， 都 有 一 个 共性 ， 即 它们 在 用 户 空 间 中 是 可 见 的 ， 以 文件 和 目录 的 形式 出 现 。 但 该 性 质 并 非 是 神 
圣 不 可 侵犯 的 .DODDODOD 是 不 能 装载 的 文件 系统 ， 因 而 不 可 能 从 用 户 层 直接 看 到 。 

初 看 起 来 ， 该 特性 似乎 不 怎么 有 用 。 如 果 文 件 系 统 无 法 向 用 户 层 导出 任何 东西 ， 那么 它 能 做 什么 
呢 ? 虽然 文件 和 目录 的 确 是 文件 系统 内 容 的 一 种 可 能 且 无 疑 很 有 用 的 表示 ， 但 它们 不 是 唯一 的 表示 。 
纯粹 从 inode 的 角度 来 考虑 一 个 文件 系统 ， 也 是 完全 可 行 的 。 在 这 种 图 景 中 ,文件 和 目录 仅仅 是 前 端 而 
已 ， 忽 略 文件 或 目录 不 会 带 来 任何 信息 损失 。 

当然 ， 这 牺牲 了 用 户 层 的 可 见 性 ， 但 内 核实 际 上 并 不 关注 这 一 点 。 在 一 些 场合 ， 可 能 需要 在 内 核 
内 部 将 inode 群 集 起 来 ， 而 用 户 层 无 须 了 解 这 一 点 。 但 以 文件 系统 的 形式 建立 这 样 的 集合 ， 内 核 可 以 从 
中 收益 ， 因 为 所 有 的 标准 辅助 函数 都 能 够 处 理 通 常 的 文件 系统 ， 现 在 当然 也 可 以 处 理 这 样 的 集合 。 

伪 文 件 系统 的 例子 包括 : 负责 管理 表示 块 设备 的 inode 的 pdev， 处 理 管道 的 pipefs， 处 理 套 接 字 
的 sockfs。 所 有 这 些 都 出 现在 /proc/filesystems 中 ， 但 不 能 装载 : 


root@meitner # cat /proc/filesystems 






















































































































































































































































































































































































nodev bdev 
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nodev sockfs 
nodev pipefs 


root@meitner 
mount: wrong fs type, 





统 机 制 ， 者 


mount -t bdev bdev /mnt/bdev 
bad option, bad superblock on bdqev， 


missing codepage or helper program, or other error 
In some cases useful info is found in syslog - try 


dmesg tail or so 


内 核 提供 了 装载 标志 Ms_NOUSER， 防 1 




















适用 于 伪 文 件 系统 。 内 核 可 以 
这 两 个 函数 最 后 会 调 




















在 从 用 户 层 装载 


{ 


: 


尽管 如 此 ， 伪 文件 



































jvfs_kern mount, 
一 个 文件 系统 时 ， 只 有 
可 见 的 表示 中 ， 该 工作 由 graft_tree 处 理 。 

fs/namespace.c 


static int graft_ tree(struct vfsmount *mnt, struct nameidata *nd) 




















上 此 类 文件 系统 被 装载 。 除 此 之 外 ， 本 章 讨论 的 所 有 文件 系 
jkern_mount 或 kern_mount_data 装 载 一 个 伪 文 件 系 统 。 

将 文件 系统 数据 ee 吉 构 中 。 
do_kern_mount 并 不 够 。 要 将 文件 和 目录 集成 到 用 户 






























































1 sd i 




















IE (mt->mnt_sb->s_flags & MS_NOUSER) 
return -EINVAL; 








8.4.2 ”文件 操作 


操作 


件 系统 都 是 在 启动 过 程 中 装载 ， 在 关机 时 全 
执行 此 类 操作 。 
F 对 文件 的 通用 存 取 ， 而 无 需 考 虑 所 


为 容 讨 

















再 讲解 。 











系统 的 结构 内 容 对 内 核 都 是 可 用 的 。 文 件 系 统 库 提供 了 一 些 方法 ， 可 以 毫 不 费 
力 地 向 伪 文 件 系统 写 入 数据 ， 我 将 在 10.2.4 节 








整个 文件 系统 是 VFS 一 个 重要 的 方面 ， 
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文件 处 理 的 接口 








1. 查找 inode 


一 个 主要 操作 是 根据 给 定 的 文件 名 查找 inode， 这 
来 向 查找 函数 传递 参数 ， 


nameidata 结 构 
































义 它 ， 我 们 现在 看 一 下 它 的 定义 。 


<fs.h> 





struct nameidata { 


: 








符 串 本 身 ， 还 包括 字符 串 的 长 度 和 一 个 散 列 值 。 


口 flags 保 存 了 标志 ， 


struct dentry 
struct vfsmount 
struct qstr 
unsigned int 














函数 ， 如 前 文 所 述 。 本 节 重 点 革 


*dentry; 
i 
last; 
flags; 




















口 查找 完成 后 ，gdentry 和 mnt 包 含 了 找到 的 文件 系统 项 的 数据 。 
于 微调 查找 操作 。 在 我 讲述 查找 算法 时 ， 会 返回 来 讲解 这 些 标 志 。 
口 last 包 含 了 需要 查找 的 名 称 。 它 是 一 个 口 口 口 口 口 《quick string)， 如 前 文 所 述 ， 不 仅 包 含 字 





并 保存 查找 结果 。 我 们 在 上 文 遇 到 过 该 结构 

















晶 相 对 而 言 很 少 发 生 ， 因 为 除了 可 移动 设备 之 外 ， 文 
H 载 。 更 常见 的 是 对 文件 的 频繁 操作 ， 所 有 系统 进程 都 需要 


用 的 文件 系统 ，VFS 以 各 种 系统 调用 的 形式 提供 了 用 于 
4H 解 进 程 处 理 文件 时 执行 的 常见 操作 。 
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这 使 得 我 们 首先 需要 了 解 有 关 查 找 该 信息 的 机 制 。 
但 没有 定 
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内 核 使 用 path_lookup 函 数 查找 路 径 或 文件 名 。 


fs/namei.c 
int fastcall path lookup (const char *name, unsigned int flags, 
struct nameidata *nd) 


除了 所 需 的 名 称 name 和 查找 标志 flags 之 外 ， 该 函数 需要 一 个 指向 nameidata 实 例 的 指针 ， 用 作 
临时 结果 的 “ 暂 存 器 ” 
首先 , 内 核 使 用 nameidqata 实 例 规 定 查找 的 起 点 。 如 果 名 称 以 /开始 , 则 使 用 当前 根 目录 的 dentry 
和 vfsmount 实 例 〈 要 注意 ， 必 须 考虑 到 chroot 的 效应 ); 和 否则， 从 当前 进程 的 task_struct 获 得 当前 
工作 目录 的 数据 。 

1ink_path_walk 是 _1ink _ path walk 函数 的 前 端 ， 后 者 的 流程 是 一 个 不 断 穿 过 目录 层次 的 过 
程 。 该 函数 大 约 有 200 行 ， 是 内 核 中 最 长 的 部 分 之 一 。 图 8-9 给 出 了 其 代码 流程 图 ， 图 比 实 际 代码 简化 
了 很 多 ， 我 省 去 了 许多 次 要 的 方面 。 





































































































检查 权限 


计算 路 径 中 下 一 个 部 分 的 散 列 值 











处 理 . 和 .. 
do_lookup | 
下 一 项 是 链接 ? 
图 8-9”__1link_path_walk 的 代码 流程 图 


该 函数 由 一 个 大 的 循环 组 成 ， 逐 分 量 处 理 文 件 名 或 路 径 名 。 名 称 在 循环 内 部 分 解 为 各 个 分 量 〈 各 
分 量 通过 一 个 或 多 个 斜 线 分 隔 )。 每 个 分 量 表示 一 个 目录 名 ， 最 后 一 个 分 量 例外 ， 总 是 文件 名 。 
为 什么 _ link_path_walk 的 代码 如 此 元 长 ?” 令 人 遗憾 的 是 ， 碍 找 与 给 定 文件 名 相关 的 inode 比 初 
看 起 来 复杂 得 多 ， 而 由 于 必须 考虑 下 列 因 素 ， 造 成 了 更 多 的 困难 。 
口 一 个 文件 可 能 通过 符号 链接 引用 男 一 个 文件 ， 查 找 代 码 必须 考虑 到 这 种 可 能 性 
链接 ， 并 在 相应 的 处 理 后 跳出 循环 。 
口 必须 检测 装载 点 ， 而 后 据 此 重 定向 查找 操作 。 
口 在 通 向 目标 文件 名 的 路 径 上 ， 必 须 检查 所 有 目录 的 访问 权限 。 进 程 必须 有 适当 的 权限 ， 和 否则 
操作 将 终止 ， 并 给 出 错误 信息 。 
口 格式 奇怪 但 正确 的 名 称 , 如 / . /usr/bin/../1local/././bin//emacs", 必须 能 够 正确 地 解析 。 
我 们 看 一 下 每 个 循环 周期 中 执行 的 操作 ， 直 至 指定 的 文件 或 目录 名 已 经 处 理 完毕 ， 并 找到 匹配 的 
inode。 为 此 ， 首 先 将 nameigdata 实 例 的 mt 和 dentry 成 员 设 置 为 根 目录 或 工作 目录 对 应 的 数据 项 。 
口 根据 所 查看 的 inode 是 否定 义 了 permission 方 法 , 来 采用 不 同 的 方法 判断 当前 进程 是 否 允 许 进 
入 该 目录 。 如 果 inode_operations 实 例 中 没有 定义 permission 方 法 ， 则 调用 exec_ 
permission_1ite 进 行 判 断 。 根 据 进 程 的 凭据 ， 该 函数 选择 文件 的 权限 掩 码 中 适当 的 部 分 ， 并 












































































































































能 够 识别 出 















































































































































































































































GD 该 路 径 通 常 写 为 /usr/1local/bin/emacs。 
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检查 是 否 设置 了 MAy_EXEc 标 志 位 〈 也 会 考虑 进程 的 能 力 ， 在 这 里 为 简单 起 见 我 忽略 了 这 一 点 )。 
如 果 inode 定 义 了 具体 的 permission 方 法 ， 那 么 exec_permission_1it 返 回 -EAGAIN, 将 此 信 
息 告 知 调用 者 。 在 这 种 情况 下 , 使 用 vfs_permission 判 断 进程 是 否 有 权限 切换 到 指定 的 目录 。 
vfs_permission 仅 调用 permission 困 数 ， 该 函数 依次 调用 了 inoqe_operations 结 构 中 保存 
的 permission 方 法 。8.5.3 节 将 进一步 详细 讨论 权限 检查 。 
口 在 内 核 遇 到 一 个 (或 多 个 ) 斜 线 (7/) 之 前 ，name 是 逐 字符 扫描 的 。 斜 线 会 跳 过 ， 因 为 我 们 只 
对 文件 名 称 本 身 感 兴趣 。 例如， 如 果 文件 名 为 /home/wolfgang/test.txt， 那么 只 有 路 径 的 3 
分 量 home、wolfgang 利 test .txt 是 相关 的 ， 斜 线 应 该 与 路 径 分 量 分 离开 来 。 每 个 循环 中 处 
理 一 个 路 径 分 量 。 
路 径 分 量 的 每 个 字符 都 传递 给 partial_name_hash 函 数 ， 用 于 计算 一 个 递增 的 散 列 和 。 当 路 
径 分 量 的 所 有 字符 都 已 经 计算 ， 则 将 该 散 列 和 转换 为 最 后 的 散 列 值 ， 并 保存 到 一 个 qstr 实 例 中 。 
一 个 点 .) 作为 路 径 分 量 表示 当前 目录 ， 非 常 易于 处 理 。 内 核 将 直接 跳 过 查找 循环 的 下 一 个 
期 ， 因 为 在 目录 层次 结构 中 的 位 置 没 有 改变 。 
口 两 个 点 《〈. .) 稍微 困难 一 点 ， 因 此 该 任务 委托 给 fo011ow_gdotqdot 函 数 。 当 查找 操作 处 理 进程 
的 根 目录 时 ，. .是 没有 效果 的 ， 因 为 无 法 切换 到 根 目 录 的 父 目录 。 
否则 ， 有 两 个 可 用 的 选项 。 如 果 当 前 目录 [0 0 一 个 装载 点 的 根 目录 ， 则 将 当前 dentry 对 象 的 
gd_parent 成 员 用 作 新 的 目录 ， 因 为 它 总 是 表示 父 目录 。 但 如 果 当 前 目录 是 一 个 已 装载 文件 系 
统 的 根 目 录 ， 保 存在 mnt_mountpoint 和 mnt_parent 中 的 信息 用 于 定义 新 的 aentry 和 
vfsmount 对 象 。 ee ee 
口 如 果 路 径 分 量 是 普通 的 文件 ， 则 内 核 可 以 通过 两 种 方法 查找 对 应 的 aentry 实 例 〈 以 及 对 
想 要 的 信息 妃 可 能 位 于 dentry 绥 存 中 , 访问 它 仅 需要 很 小 的 延迟 。 该 信息 也 有 可 能 
要 通过 文件 系统 的 ) ee 因而 必须 构建 适当 的 数据 结构 。do_lookup 负 责 区 别 
这 两 种 情况 〈 稍 后 讨论 )， 并 返回 所 需 的 aentry 实 例 。 请 注意 ， 该 步骤 还 需要 检测 装载 点 。 
口 处 理 路 径 分 量 的 最 后 a 内 核 判 断 该 分 量 是 否 为 符号 链接 。 
内 核 如 何 确认 某 个 dentry 实 例 是 否 代表 符号 链接 ? 只 有 用 于 表示 符号 链接 "的 inode， 其 
inode_operations 中 才 包 含 lookup 冰 数 。 天 则 该 字段 为 NULL 指 针 。 
do_follow_1ink 用 作 一 个 VFS 层 的 前 端 ， 用 于 跟踪 逻辑 连接 ， 将 在 下 文 讨论 。 
循环 一 直 重 复 下 去 ， 直 至 到 达 文 件 名 的 末尾 。 如 果 内 核发 现 文件 名 不 再 出 现 /， 则 确认 已 经 到 达 
文件 名 末尾 。 使 用 如 上 所 述 的 方法 ， 最 后 一 个 分 量 也 可 以 对 应 到 一 个 dentry 实 例 ， 并 将 其 返回 ， 作 为 
link_path_walk 操 作 的 结果 。 
@ do lookup[| 0DD 
do_lookup 起 始 于 一 个 路 径 分 量 ， 并 且 包 含 最 初 目录 数据 的 nameigdata 实 例 ， 最 终 返 回 与 之 相关 
的 inode。 
内 核 首 先 试图 在 dentry 绥 存 中 查找 inode， 使 用 的 是 8.3.5 节 讲述 的 _ gq_lookup 函 数 。 即 使 找到 匹 
配 的 数据 ， 也 并 不 意味 着 它 st 的 ， 必 须 调 用 底层 文件 系统 的 dentry_operations 中 的 
d_revalidate 孙 数 ， 来 检查 缓存 项 是 否 仍 然 有 效 。 如 果 有 效 ， 则 将 其 作为 缓存 搜索 的 结果 返回 ， 否 
则 ， 必 须 在 底层 文 从 | 系统 中 发 起 一 个 查找 操作 ， 如 果 在 缓存 中 没有 找到 ， 也 必须 进行 同样 的 操作 。 
real_1lookup 执 行 特定 于 文件 系统 的 查找 操作 。 其 工作 包括 在 内 存 中 分 配 数据 结构 (用 于 保存 查 



























































































































































































































































































































































































































































































































































































































































































































































































































































































































































Q 查找 代码 不 需要 对 硬 链接 进行 特殊 的 处 理 ， 因 为 它们 与 普通 文件 是 不 能 区 分 的 。 


8.4 00 VFSODO 453 














找 结果 )， 并 首先 调用 inodqe_operations 结 构 中 特定 于 文件 系统 的 1ookup 函 数 。 

如 果 存 在 所 需 的 目录 ， 内 核 将 接收 到 一 个 填充 了 数据 的 dentry 实 例 ; 否则 返回 一 个 NULL 指 针 。 
请 注意 ， 第 9 章 非常 详细 地 讲述 了 文件 系统 执行 底层 查找 的 方式 。 

do_lookup 也 需要 处 理 跟踪 装载 点 的 工作 。 如 果 在 缓存 中 找到 一 个 有 效 的 dentry 实 例 ， 则 
__follow_mount 负 责 处 理 此 事 。 按 照 8.4.1 节 的 讨论 ， 内 核 在 记录 文件 系统 装载 事件 时 ， 会 将 相关 的 
dentry 实 例 的 ga_mount 加 1。 为 确保 装载 操作 达到 预期 效果 ， 内 核 在 裔 历 目录 结构 时 必须 考虑 到 这 个 
事实 。 该 工作 通过 调用 __follow_mount 完 成 ， 其 实现 非常 简单 (用 作 参 数 的 path 结 构 收 集 了 所 需 也 
指向 装载 点 的 vfsmount 和 dentry 实 例 的 指针 )。? 


fs/namei.c 
static :int __ follow _ mount (struct path *path) 
{ 






























































































































































int res = 0; 
while (d mountpoint (path->dentry)) { 
struct vfsmount *mounted = lookup_ mnt (path->mnt, path->dentry); 
if (!mounted) 
break; 
path->mnt = mounted; 
path->dentry = mounted->mnt_root; 
res = 1; 
} 


return res; 


} 

该 循环 是 如 何 工 作 的 ?首先 检查 判断 当前 的 dentry 实 例 是 否 是 装载 点 。 在 这 里 ，qd_mountpoint 
宏 只 需 判 断 q_mounted 的 值 是 否 大 于 0。1ookup_mount 函 数 从 8.4.1 节 讨论 的 mount_hashtable 散 列表 
获取 装载 的 文件 系统 对 应 的 vfsmount 实 例 。 该 文件 系统 的 vfsmount 实 例 的 mnt_root 字 段 用 作 dentry 
结构 的 新 值 。 所 有 这 些 都 意味 着 , 已 装载 文件 系统 的 根 目录 用 作 装 载 点 , 这 也 是 我 们 想 要 达到 的 目标 。 

while 循 环 表 明 ， 可 能 有 几 个 文件 系统 相继 装载 到 前 一 个 文件 系统 中 ， 除 了 最 后 一 个 文件 系统 ， 
所 有 其 他 文件 系统 都 被 相 邻 的 后 一 个 文件 系统 隐藏 了 一 部 分 。 

@ do_ follow link0 DUO 
在 内 核 跟 踪 符 号 链接 时 ， 它 必须 要 注意 用 户 可 能 构造 出 的 环 状 结构 有意 或 无 意 )， 如 下 例 所 示 ; 


wolfgang@meitner> ls -1 a b c 
























































































































































lrwxrwxrwx 1 wolfgang users 1 Mar 8 22:18 a -> bp 

lrwxrwxrwx 1 wolfgang users 1 Mar 8 22:18 b -> c 

lrwxrwxrwx 1 wolfgang users 1 Mar 8 22:18 C ->a 

a、b 和 c 形 成 了 一 个 无 限 循 环 。 如 果 内 核 不 采取 适当 的 预防 措施 ， 这 可 能 被 利用 ， 致 使 系统 变 得 
不 可 用 。 











实际 上 ， 内 核能 够 识别 这 种 情况 ， 并 放弃 处 理 。 


wolfgang@meitner> cat a 
cat: a: Too many levels of symbolic links 


与 符号 链接 相关 的 男 一 个 问题 是 ， 链接 的 目标 与 链接 的 源 ， 可 能 位 于 不 同 的 文件 系统 上 。 这 导致 
了 特定 于 文件 系统 的 代码 和 VEFS 层 函数 之 间 的 关联 ， 通 常 这 是 不 会 发 生 的 。 用 于 跟踪 链接 的 底层 代码 
需要 引用 VFS 的 函数 ， 通 常 都 是 反 过 来 《VFS 调用 底层 各 个 文件 系统 实现 的 函数 )。 

图 8-10 给 出 了 do_follow_1link 的 代码 流程 
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中 我 略 去 了 锁 和 引用 计数 操作 ， 这 些 操作 使 得 代码 不 容易 理解 。 
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广 守 检查 链接 限制 ? 
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task_struct 结 构 包 含 两 个 计数 变量 ， 


<sched.h> 
struct task_ struct { 


/* 文件 系统 信息 */ 


int link_ count, 

















站 








link_count 用 于 防止 递归 循环 ,而 total_1ink_count 限 人 























total_link_ count; 








| current->link_count++, current-> total_link_count++ 
link i_op->follow link] 


current->link_count-- 
图 8-10 ”qdo_follow_link 的 代码 流程 图 


] 于 跟踪 连接 。 


由 路 径 名 中 连接 的 最 大 数目 。 默认 情 况 


下 ， 内核 允许 MAX_NESTED_LINKS (通常 设置 为 8) 个 递归 和 40 个 连续 的 链接 , 后 一 个 常数 是 硬 编码 的 ， 























并 非 通过 预 处 理 器 符号 定义 























在 do_follow_1link 例 程 的 











否则 ， 将 两 个 计数 器 都 加 1 


该 链接 并 不 指向 男 一 个 链接 ( 因 





述 代码 片段 所 示 : 


fs/namei.c 


static inline int do follow link(struct dentry *dentry, 


{ 





























头 ， 内 核 首 多 
则 终止 ao_follow_link， 并 返回 错误 码 -ELOOP。 








检查 是 否 超出 了 所 述 两 个 计数 器 的 最 大 值 。 倘 若 如 此 ， 


， 并 且 调 用 特定 于 文件 系统 的 follow_link 例 程 跟踪 当前 链接 。 如 果 














current->link count++; 
Current->total_link count++; 

err = __do_follow link(path, nd); 
current->link_ count--; 


中 


何 时 重 置 total_1ink_count 的 值 ? 该 计数 器 根本 不 习 
日 链接 的 0 0 口 



































1 于 该 计数 器 用 于 限制 所 使 月 







































































2. 打开 文件 








到 的 吕 口 符号 链接 (不 仅仅 是 递归 链接 》 都 会 增加 其 值 。 




















E 置 , 至 少 在 查找 单个 路 
(不 见得 是 递归 链接 )， 在 path_walk (该 函数 由 
do_path_lookup 调 用 ) 中 开始 查找 一 个 全 路 径 名 或 文件 名 时 ,会 将 该 计数 器 重 置 





为 0。 碍 找 操作 中 遇 









































struct nameidata *nd) 


径 分 量 期 间 是 这 样 。 


而 该 函数 只 需 返 回 新 的 dentry 项 即 可 )， 则 将 link_count 减 1， 如 下 








在 读 和 写 文 件 之 前 , 我 们 必须 先 打开 文件 。 从 应 用 程序 的 角度 来 看 ， 这 是 通过 标准 库 的 open 函 数 


完成 的 ， 该 函数 返回 一 个 文件 描述 符 。 





























GD 还 可 以 使 用 openat， 该 函数 打 
述 ， 或 多 或 少 都 是 相同 的 。 











9 该 函数 使 用 了 同名 的 open 系 统 调用 ， 调 











文件 时 ， 对 路 径 名 的 解释 是 相对 于 指定 的 目录 























行 。 但 使 




















的 机 制 ， 





E 








与 这 里 


了 fs/open.c 中 的 


的 描 


8.4 00 VFSOD OO 455 





sys_open 了 半数 。 相 关 的 代码 流程 图 如 图 8-11 所 示 。 












force o_ largefile 


md get_unused fqd_ flags | 
do_flip_open 


nameidata to_filp 
fdq_instal1 


图 8-11 ”sys_open 的 代码 流程 图 


第 一 步 ，force_o_largefile 检 查 是 否 应 该 不 考虑 用 户 层 传 递 的 标志 、 总 是 强行 设置 
O 〇 LARGEFILE。 如 果 底 层 处 理 器 的 字 长 不 是 32 位 ( 即 64 位 系统 )， 就 会 是 这 样 。 此 类 系统 使 用 64 位 二 
址 ， 大 文件 是 唯一 切合 实际 的 默认 选项 。 接 下 来 打开 文件 的 实际 工作 委托 给 do_sys_open。 
在 内 核 中 ,每 个 打开 的 文件 个 文件 描述 符 表示 ， 该 描述 符 在 特定 于 进程 的 数组 中 充当 位 置 索 
引 (数组 是 task_struct->files->fq_array)。 该 数组 的 元 素 包 含 了 前 述 的 file 结 构 ， 其 中 包括 每 
个 打开 文件 的 所 有 必要 信息 。 因 此 ， 首 先 调 用 get_unuseq_fq_flags 碍 找 一 个 未 使 用 的 文件 描述 符 。 
于 为 系统 调用 的 参数 包括 了 表示 文件 名 称 的 字符 串 ， 所 以 主要 的 问题 是 查找 匹配 的 inode。 上 述 
刚好 完成 了 此 工作 。 

do_filp_open 借 助 两 个 辅助 函数 来 查找 文件 的 inode。 

(1) open_namei 调 用 path_lookup 函 数 查找 inode 并 执行 几 个 额外 的 检查 (例如 ,确定 应 用 程序 是 
否 试图 打开 目录 ， 然 后 像 普通 文件 一 样 处 理 )。 如 果 需 要 创建 新 的 文件 系统 项 ， 该 函数 还 需要 应 用 存 
储 在 进程 umask (current->fs->umask) 中 的 权限 位 的 默认 设置 。 

(2) nameidata_to_filp 初 始 化 预 读 结 构 ， 将 新 创建 的 file 实 例 放置 到 超级 块 的 s_files 链 表 上 
(参见 8.4.1 节 )， 并 调用 底层 文件 系统 的 file_operations 结 构 中 的 open 函 数 。 

接 下 来 ， 在 控制 权 转 回 用 户 进程 、 返 回 文件 描述 符 之 前 ，fa_instal1 必 须 将 file 实 例 放置 到 进 
程 task_struct 的 files->fd 数 组 中 。 

3. 读 取 和 写 入 

在 文件 成 功 打 开 之 后 , 进程 将 使 用 内 核 提 供 的 read 或 write 系 统 调用 , 来 读 取 或 修改 文件 的 数据 。 
照例 ， 入 口 例 程 是 sys_read 和 sys_write， 二 者 都 在 fs/reagd_write.c 中 实现 。 

@@ read 

read 函 数 需 要 3 个 参数 ， 文件 描述 符 、 保 存 数据 的 缓冲 区 和 指定 读 取 字符 数目 的 长 度 参数 。 这 些 
参数 直接 传递 到 内 核 中 。 

对 于 VFS 层 ， 从 文件 读 取 数据 并 不 困难 ， 如 图 8-12 所 示 。 

根据 文件 描述 符 编写， 内 核 ( 使 用 fs/file_table.c 中 的 fget_light 消 数 ) 能 够 从 进程 的 
task_struct 中 找到 与 之 相关 的 file 实 例 。 
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456 [080 000000 
是 file->f_op->read 
图 8-12 ”sys_reagd 的 代码 流程 图 

在 用 file_pos_read 找 到 文件 中 当前 读 写 位 置 之 后 (该 例 程 仅 需 要 返回 file->f_pos 的 值 )， 读 
取 操 作 本 身 委 托 给 vfs_read 进 行 。 该 例 程 或 者 调用 特定 于 文件 的 读 取 例 程 file->E_op->read， 或 者 
如 果 该 例 程 不 存在 ， 则 调用 一 般 的 辅助 函数 do_sync_read。 此 后 ， 用 file_pos_write 记 录 文 件 内 部 
新 的 读 写 位 置 。 当 然 ， 该 例 程 仍然 只 需要 将 file->f_ops 设 置 为 当前 读 写 位 置 。 

读 取 数据 涉及 一 个 精致 复杂 的 缓冲 区 和 缓存 系统 ， 这 些 用 于 提高 系统 性 能 。 该 主题 将 在 第 16 章 全 
面前 述 。 第 9 章 将 讲解 文件 系统 如 何 实现 读 取 例 程 。 

@ write 

write 系统 调用 的 结构 与 readq 同 样 简单 。 除 了 用 E_op->write 和 do_sync_write 替 换 了 read 中 对 
应 的 例 程 之 外 ， 二 者 的 代码 流程 图 几乎 完全 相同 。 

从 形式 上 看 来 ，sys_write 与 sys_read 的 参数 相同 : 一 个 文件 描述 符 、 一 个 指针 变量 、 一 个 长 度 
指示 (表示 为 整数 )。 显 然 ， 其 语义 稍 有 不 同 。 指 针 并 非 指 向 存储 读 取 数据 的 缓冲 区 ， 而 是 指向 需要 





写 入 文件 的 数据 。 长 度 
写 操作 同样 需要 通 


8.5 标准 函数 















































过 内 核 的 缓存 系统 〈 我 们 将 在 多 




















参数 指定 了 数据 的 字 节 长 度 。 









































VEFS 层 提供 的 有 用 资源 是 用 于 读 写 数据 的 标 ;# 
上 都 是 相同 的 。 如 果 数 据 所 在 的 块 是 已 知 的 ， 则 首 多 
应 的 块 设备 发 出 读 请 求 。 如 果 对 每 个 
该 不 惜 代价 防止 这 种 情况 发 生 。 








大 多 数 文 伯 





do_sync_write 标 准 例 程 。 


1 

















这 些 例 程 与 内 核 的 其 人 
此 ， 其 实现 # 








殊 情况 。 因 
讨论 的 是 简 
现 必须 引用 





GD 在 此 前 的 内 核 版 本 中 ,标准 








替代 了 。 








其 


-~ 


电子 系统 密切 相关 〈 特 别 
并 不 总 是 清晰 纯粹 (内核 
化 版 。 这 些 简化 版 突出 了 那些 主要 代码 路 径 ， 这 档 
其 他 章节 《和 
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他 子 系统 ) 




















有 16 章 全 国 


查询 页 缓存 。 如 果 数 据 
每 个 文件 系统 都 需要 实现 这 些 操作 ， 则 会 导致 代码 大 量 复 制 ， 我 们 应 














全 函数 。 这 些 操作 对 所 有 文 从 





讨论 该 主题 )。 


系统 来 说 ， 在 一 定 程度 











未 保存 在 其 中 ， 则 向 对 














是 块 层 和 页 缓存 )， 必 须 处 理 








的 例 程 。 





PP 的 诗 











f 才 不 会 舍 本 求 末 。 








EF 系统 在 其 Efile_operations 实 例 中 ， 都 将 read 和 write 分 别 指向 do_sync_read" 和 





六 


许多 潜在 的 标志 和 特 
)。 为 此 ， 我 在 下 文中 
尽管 如 此 ， 我 仍然 发 





























E 的 读 写 操作 分 别 是 generic_file_read 和 generic_file_write, 但 已 经 被 现在 的 版 本 
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8.5.1 通用 读 取 例 程 


几乎 所 有 的 文件 系统 都 使 用 库 程序 generic_file_read 来 读 取 数 据 。 它 0DD 读 取 数据 。 换 句 话 
说 ， 它 保证 在 函数 返回 到 调用 者 时 ， 记 需 数据 已 经 在 内 存 中 。 实 现 中 ， 实 际 的 读 取 操作 委托 给 一 个 异 
步 例 程 ， 然 后 等 待 该 例 程 结束 。 经 过 简化 后 ， 该 函数 的 实现 如 下 : 


mm/filemap.c 
ssize _t do_sync_read(struct file *filp, char _ user *buf, size t len, loff t xppos) 


{ 
































struct iovec iov = { .iov_ base = buf, .iov_ len = len }; 
struct kiocb kiocb; 
ssize_t ret; 


init_ sync kiocb(&kiocb, filp); 
kiocb.ki_pos = *ppos; 
kiocb.ki_ left = len; 


ret = filp->f_op->aio read(&kiocb, &iov, 1, kiocb.ki pos); 


if (-EIOCBQOUEUED == ret) 

ret = wait_on sync_ kiocb(&kiocb); 
*ppos = kiocb.ki_ pos; 
return ret; 


} 

init_sync_kiocb 初 始 化 一 个 kiocb 实 例 , 用 于 控制 异步 输入 /输出 操作 , 在 这 里 我 们 不 过 多 讨论 。 
"实际 工作 委托 给 特定 于 文件 系统 的 异步 读 取 操作 ， 且 保存 在 struct file_operations 的 aio_read 
成 员 中 。 该 函数 指针 通常 指向 generic_file_aio_read, 我 稍 后 讨论 该 函数 。 但 该 例 程 执 行 任务 是 异 
步 的 ， 因 此 在 例 程 返回 到 调用 者 时 ， 无 法 保证 数据 已 经 读 取 完毕 。 

返回 值 -EIOCBQUEUED 表 示 读 请 求 正在 排队 ， 尚 未 处 理 。 在 这 种 情况 下 ，wait_on_sync_kiocb 
将 一 直 等 待 ， 直至 数据 进入 内 存 。 该 函数 可 以 根据 创建 的 控制 块 , 来 检查 请 求 的 完成 情况 。 在 等 待 时 ， 
进程 进入 睡眠 状态 ， 使 得 其 他 进程 可 以 利用 CPU。 为 简单 起 见 ， 我 在 以 下 的 讲述 中 ， 并 不 区 分 读 操作 
的 同步 结束 和 异步 结束 。 

1. 异步 读 取 

mm/filemap.c 中 的 generic_file_aio_read 异 步 读 取 数 据 。 相 关 的 代码 流程 图 在 图 8-13 给 
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generic_file_ aio read 








generic_segnent_checks] 
是 
设置 了 0_DIRECT? eeneric file direct_ro] 
不 


如 一 |ao_generic_file_ read “|ao_generic mapping read] 


图 8-13 ”generic_file_aio_read 的 代码 流程 图 















































@ 异步 1O 操 作用 于 向 内 核发 出 一 个 读 或 写 请 求 。 这些 请 求 并 非 立 即 执行 ， 而 是 在 链表 中 排队 。 控 制 流 将 立即 返回 到 

调用 者 (与 这 里 实现 的 普通 1/O 操 作 相 反 )。 在 这 种 情况 下 ， 调 用 者 不 会 注意 到 执行 操作 的 延迟 ， 而 是 感觉 结果 是 
立即 返回 的 。 在 请 求 的 异步 处 理 完成 后 ， 可 以 查询 数据 。 异 步 操 作 不 是 对 文件 句柄 执行 ， 而 是 对 1/O 控 制 块 执行 。 
妹 此 ， 必 须 用 init_sync_kiocb 首 先 产 生 一 个 对 应 数据 类 型 的 实例 。 当 前 ， 只 有 个 别 应 用 程序 例如， 大 型 数据 
库 ) 使 用 异步 WO， 因 此 不 值得 过 多 讨论 。 
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在 generic_segment_checks 确 认 读 请 求 包含 的 参数 有 效 之 后 ， 有 两 种 不 同 的 读 模式 需要 区 分 。 

















(1) 如 果 设 置 了 0_DIRECT 标 志 ， 则 数据 直接 读 取 ， 不 使 用 页 缓存 。 这 时 必须 使 


























file direct IO。 

















和 有 generic_ 


(2) 否则 调用 do_generic_file_read， 这 是 do_generic_mapping_reagd 的 一 个 前 端 。 该 函数 将 








对 文件 的 读 操作 转换 为 对 映射 的 读 操作 。 
2. 从 映射 读 取 
图 8-14 给 出 了 do_generic_mapping_reagd 的 代码 流程 图 。 


do_generic mapping read 
find get_page 





















































循环 , 直至 所 
需 的 页 都 已 
经 读 入 内 存 


mark_page_accessed 


图 8-14 ”do_generic_mapping_reag 的 代码 流程 图 





























该 函数 使 用 第 3 章 讲述 的 映射 机 制 ， 将 文件 中 需要 读 取 的 部 分 映射 到 内 存 页 中 。 它 由 




















循环 组 成 ,持续 向 内 存 页 读 入 数据 ,直至 所 有 文件 数据 〈 不 在 任何 缓存 中 的 文件 数据 ) 都 传输 到 内 存 中 








每 个 循环 执行 下 述 操作 。 









































readahead 发 出 一 个 同步 预 读 请 求 。 












































一 个 大 的 无 限 





o 


口 首先 , fing_get_page 检 查 页 是 否 已 经 包含 在 页 缓存 中 。 如果 没有 , 则 调用 page_cache_sync_ 


口 由 于 预 读 机 制 在 很 大 程度 上 能 够 保证 数据 现在 已 经 进入 缓存 ， 因 此 再 次 使 用 find_get_page 








查找 该 页 。 这 次 仍然 有 




















定 的 几率 〈 很 小 ) 失败 ， 那 么 就 必须 直接 进行 读 取 操 作 ， 这 需要 跳 








转 到 标签 no_cached_page〔 下 文 会 讨论 )。 但 通常 来 说 ， 此 时 页 已 经 读 入 内 存 。 
口 如 果 设 置 了 页 标志 PG_readahead， 内 核 可 以 用 ReadaheadPage 检 查 






































必须 用 page_cache_ 


async_readahead 启 动 一 个 异步 预 读 操 作 。 请 注意 ， 这 与 此 前 的 同步 预 读 操 作 不 同 。 这 里 内 























核 并 不 等 待 预 读 操作 结束 ， 只 要 找到 时 间 ， 就 会 执行 读 操 作 。 在 16.4.5 节 将 更 详细 地 














机 制 。 
口 虽然 页 在 页 缓存 中 ， 但 其 数据 未 必 是 最 新 的 ， 这 需要 使 用 page_Uptodate 检 查 。 
























































mpage_readpage。 在 该 调用 之 后 ， 内 核 可 以 确认 页 中 填充 的 数据 是 最 新 的 。 









































如 果 页 不 是 最 新 的 , 则 必须 使 用 mapping->a_ops->readpage 再 次 读 取 。 该 函数 指针 通常 











解 预 读 


指向 
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对 页 的 访问 必须 用 mark_page_accessed 标 记 。 在 需要 从 物 弄 

























































































内 存 换 出 数据 时 ， 需 要 判断 页 的 
活动 程度 ， 这 个 标记 就 很 重要 了 。 页 交换 将 在 第 18 章 讨论 。actor 例 程 (通常 指向 file_read_ 
actor) 将 适当 的 页 映射 到 用 户 地 址 空间 。 

如 果 预 读 机 制 尚未 将 所 需 的 页 读 入 内 存 ， 


那么 该 函数 必须 自行 完成 这 项 工作 。qdo_generic_ 
ng_read 的 no_cached_page 标 签 部 分 即 用 于 此 。 其 代码 流程 图 如 图 8-15 所 示 。 
在 page_cache_alloc_cold 分 配 了 一 个 缓存 冷 页 


S$ 页 之 后 ， 通 过 第 16 章 时 
cache_lru 将 该 页 插入 到 页 缓存 的 LRU 链 表 中 。 映 射 提供 的 mapping->a_ops->readpage 用 于 读 取 数 
据 。 通 常 ， 该 函数 指针 指 问 mpage_readpage， 后 者 将 在 第 16 章 讨论 。 最 后 ，mark_page_accessed 
告诉 统计 系统 该 页 已 经 访问 过 。 


mappi 


















































LF 述 的 adq_to_page_ 














no_cached page 
page_cache alloc cold | 














mark page accessed 


图 8-15”no_cached_page 的 代码 流程 图 


8.5.2 ”失效 机 制 


内 存 映 射 通常 调用 由 VFS 层 提供 的 filemap_fault 标 准 例 程 来 读 取 未 保存 在 缓存 中 的 页 。 图 8-16 
给 出 了 该 函数 的 代码 流程 图 。 


filemap_fault 




























































RT 


顺序 读 取 提 示 ? 使 用 通用 预 读 逻 辑 


没有 找到 页 ? 


>| 调用 通用 预 读 凶 和 辑 。 | 






























































mapping->a_ops->readpage 











从 fing_lock_page 























mark page accessed 





图 8-16 ”filemap_fault 的 代码 流程 图 
如 图 所 示 ， 该 实现 与 刚 讨论 过 的 generic_file_read 机 制 有 几 个 相似 之 处 。 








460 0U80 000000 














首先 ， 该 函数 检查 页 所 在 的 虚拟 内 存 区 域 是 否 
的 , 其 顺序 不 可 预测 。 这 通过 检查 VM_RAND_READ 是 否 置 位 来 判断 , 即 利 用 辅助 宏 vM_RandomReadHint 
来 检查 。 请 注意 ， 可 以 调用 madvise 系 统 调用 (这 里 没有 讨论 )， 癌 内 存 管理 子 系统 告知 最 可 能 的 访问 
模式 。 如 果 预 期 访问 模式 是 随机 读 取 ， 则 内 核 直接 调用 page_cache_read 在 页 缓存 中 分 配 一 个 新 页 ， 
并 发 出 一 个 读 请 求 。 
find_get_page 函 数 不 受 预期 读 取 模 式 的 影响 ， 它 用 于 检查 该 页 是 否 已 经 在 页 缓存 中 。 然 后 ， 内 
核 处 理 与 页 所 在 的 虚拟 内 存 区 域 相关 的 顺序 读 取 提 示 。" 在 这 种 情况 下 ， 将 使 用 通用 的 预 读 逻 辑 ， 代 
码 如 下 所 示 : 


mm/filemap.c 
if (VM SequentialReadHint (vma)) { 
if (!page) { 
page_cache_sync_readahead (mapping, ra, file, 
vmf->pgoff, 1); 
page = find_ lock page (mapping, vmf->pgoff); 
if (!page) 
goto no_cached page; 




























































































































































































(PageReadahead(page)) { 
page_cache_async_readahead (mapping, ra, file, page, 
vmf->pgoff, 1); 

} 

该 机 制 与 do_generic_mapping_read 中 使 用 的 机 制 相同 。 在 无 法 通过 同步 预 读 找到 页 时 ， 则 跳 转 
到 no_cacheq_page， 调 用 page_cache_readq 在 页 缓存 中 分 配 一 个 新 页 并 发 出 一 个 读 请 求 。 然 后 ， 代 码 
从 对 find_lock page 的 第 一 次 调用 开始 ， 重 试 查 找 页 的 操作 。 显 然 ， 这 需要 使 用 C 语 言 的 goto 语 句 。 

我 们 返回 到 上 述 的 代码 片段 。 如 果 页 已 经 在 系统 中 ， 则 必定 来 源 于 此 前 的 预 读 操作 。16.4.5 节 将 
讨论 到 ， 预 读 机 制 会 标记 出 接近 预 读 窗口 末尾 的 一 页 。 也 就 是 说 ， 在 进程 实际 请 求 之 前 ， 已 经 读 入 了 
一 些 文件 的 内 容 。 在 找到 该 页 之 后 ， 将 启动 异步 预 读 ， 并 按照 预测 读 取 一 些 页 。 所 需 的 标记 是 
PG_readahead 标 志 位 (可 以 用 PageReadahead 检 查 )， 负 责 执 行 异步 预 读 的 是 page_cache_async_ 
readqaheadq 函 数 。 有 关 该 机 制 的 更 多 细节 请 参见 16.4.5 节 。 

如 果 没 有 给 出 顺序 预 读 提 示 ， 而 且 页 缓存 中 无 法 找到 该 页 ， 则 需要 调用 通用 预 读 机 制 。 其 实现 如 
下 《〈 稍 有 简化 ): 

mm/filemap.c 


if (!page) { 
unsigned long ra pages; 






































































































































ra_pages = max_ sane readahead (file->f_ ra.ra pages); 
if (ra pages) { 
pgoff_t start = 0; 


if (vmf->pgoff > ra pages / 2) 
start = vmf->pgoff -ra pages / 2; 
do_page_cache readahead (mapping, file, start, ra pages); 











Q 即使 在 之 前 找到 了 随机 读 取 提示 ， 内 核 仍然 会 检查 顺序 读 取 提示 ， 这 听 起 来 很 古怪 。 而 这 里 的 检查 ， 实 际 上 ， 是 
可 以 避免 的 。 但 代码 的 编写 受到 filemap_fault 结 构 的 影响 ， 其 中 使 用 了 很 多 goto 语 句 ， 而 这 有 可 能 会 导致 这 种 
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page = find_ lock_page (mapping, vmf->pgoff); 
if (!page) 
goto no_cached page; 


} 


max_sane_readahead 对 需要 预 读 的 页 数 ， 计 算出 一 个 切合 实际 的 上 界 。 如 果 数 目 大 于 0， 则 调用 
do_page_cache_readahead 在 页 缓存 中 分 配 页 并 读 入 数据 。 由 于 接 下 来 所 需 的 页 很 有 可 能 已 经 在 页 绥 
存 中 ， 因 此 再 次 调用 finq_lock_page 来 定位 页 。 如 果 这 一 次 又 失败 ， 那 么 内 核 会 跳 转 到 no_cacheda__. 
page， 如 前 所 述 。 
如 果 页 现在 已 经 在 页 缓存 中 ， 则 必须 确保 页 是 最 新 的 。 如果 不 是 这 样 , 需要 使 用 映射 的 readpage 
方法 再 次 读 取 页 的 数据 ， 并 从 上 文 对 fing_lock_page 调 用 开始 ， 重 新 尝试 访问 页 。 如 果 页 已 经 是 最 
新 的 ， 那 么 就 可 以 调用 mark_page_accessed， 将 页 标记 为 活动 的 。 
8.5.3 ”权限 检查 


vfs_permission 是 VFS 层 的 标准 函数 ， 用 于 检查 是 否 允 许 以 指定 的 某 种 权限 访问 给 定 的 inode。 
该 权限 可 以 是 MAY_READ、MAY_WRITE 或 MAY_EXEC。vVfs_permission 内 是 一 个 包装 函数 ， 用 于 参数 转 
换 ， 实 际 工作 委托 给 permission 函 数 。 该 函数 首先 要 禁止 对 只 读 文件 系统 和 不 可 修改 文件 的 写 访问 。 

fs/namei.c 

int permission(struct inode *inode, int mask, struct nameidata *nd) 


{ 

















































































































































































































int retval, submask; 


if (mask & MAY WRITE) { 
umode_t mode = inode->i_mode; 


/* 没 和 人 能 以 写 模式 访问 只 读 文件 系统 。 */ 
if (IS_RDONLY (inode) && 
(S_ISREG(mode) || S_ISDIR(mode) || S_ISLNK (mode))) 
return =EROPSS 


/* 没 人 能 以 写 模式 访问 不 可 修改 的 文件 。 */ 
if (IS_IMMUTABLE (inode)) 
return -EACCES; 








} 


























接 下 来 , 实际 工作 委托 给 特定 于 文件 系统 的 权限 检查 例 程 (如 果 存 在 的 话 ), 或 者 委托 给 generic_ 
permission: 
fs/namei.c 


/* 通常 的 permission 例 程 并 不 理解 MAY_APPEND。 */ 
submask = mask & ~MAY_APPEND; 


if (inode->i_op && inode->i_op->permission) 
retval = inode->i_op->permission(inode, submask, nd); 








else 
retval = generic permission(inode, submask, NULL); 


if (retval) 
return retval; 


return security_ inode permission(inode, mask, nd); 


} 
如 果 上 述 某 个 检查 拒绝 了 以 指定 方式 访问 对 象 ， 那么 会 立即 返回 错误 码 。 如 果 这 两 个 函数 授予 了 
访问 权限 ， 即 返回 值 为 0。 不 过 仍然 需要 通过 security_inodqe_permission 调 用 适当 的 安全 挂钩 ， 作 





























五 
IT 
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出 最 后 裁决 。 


请 注意 ， 大 多 数 文 伯 
执行 基于 ACL 的 权限 检查 。 因 























系统 依赖 generic_permission， 但 可 以 传递 一 个 专门 的 处 理 程 序 函 数 ， 以 
而 ，generic_permission 不 仅 需要 将 所 述 的 inode 和 请 求 的 权限 作为 参 









































数 ， 还 需要 一 个 回调 函数 check_ac1， 用 于 检查 ACL。 首 先 ， 内 核 需要 判断 应 该 使 用 用 户 、 组 的 inode 
权限 ， 还 是 其 他 人 的 inode 权 限 。 





















































其 实现 如 下 : 


fs/namei.c 




















口 如 果 当 前 进程 的 文件 系统 UID 与 inode 的 UID 相 同 ， 则 需要 使 用 对 所 有 者 设置 的 权限 。 





























口 如 果 inode 的 GID 包 含 在 当前 进程 所 属 组 的 列表 中 ， 那 么 需要 使 用 组 权限 。 




















口 如 果 并 非 上 述 轧 








种 情况 ， 则 需要 “其 他 用 户 ” 对 inode 的 权限 。 





int generic permission(struct inode *inode, int mask, 
(*check_ acl) (struct inode *inode, int mask)) 


{ 


umode_t 


int 


mode = inode->i_mode; 


if (current->fsuid == inode->i uid) 


else { 


} 


检查 fsuid 很 简单 。 如 果 fsuid 与 文件 的 UID 相 同 ， 那 么 需要 将 mode 值 右 移 6 位 ， 使 得 对 应 于 “所 有 


mode >>= 6; 


if (IS_POSIXACL (inode) && (mode & S_IRWXG) && check acl) { 
int error = check acl (inode, mask); 


} 


主 乓 











(error == -EACCES) 
goto check capabilities; 


else if (error != -EAGAIN) 





return error; 


If (in group_p(inode->i gid)) 
mode >>= 3; 


者 ”的 权限 位 移动 到 最 低位 上 。 





对 fsgid 的 检查 稍 

















in_group_p (这 里 没有 讨论 )。 如 果 
用 户 ” 的 权限 位 移动 到 最 低位 上 。 另 外 要 注意 ， 内 核 还 可 能 需要 执行 ACL 检 查 ， 如 下 所 述 。 








因为 需要 考虑 检查 所 属 的 所 有 组 ， 因 此 实际 工作 委托 给 了 辅助 函数 







































































对 组 ID 的 检查 成 功 ， 则 moae 值 需要 右 移 3 位 ， 以 便 将 对 应 于 “组 



































如 果 UID 和 GID 的 检查 都 失败 ， 那 么 不 需要 将 mode 做 移 位 操作 ， 因 为 对 应 于 “其 他 用 户 ” 的 权限 











位 本 来 就 在 最 低位 上 。 


























接 下 来 ， 对 选 定 的 权限 位 进行 自主 访问 控制 (discretionary access control， 简 称 DAC) 检查 ， 如 


下 所 示 : 


fs/namei.c 





if (((mode & mask & (MAY_ READ|MAY_WRITE|MAY_EXEC)) == mask) ) 


如 果 moge 权 限 位 的 设置 允 询 





return 


0; 


Dt 




















量 
人 








所 请 求 的 权限 mask， 那 么 返回 9。 这 意味 着 允许 相应 的 操作 。 








DAC 检 查 失败 ， 并 不 意味 着 禁止 所 要 求 的 操作 ， 因 为 对 能 力 的 检查 可 能 允许 该 操作 。 内 核对 能 力 





的 测试 如 下 : 


fs/namei.c 
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check_ capabilities: 


/* 
* 读 写 的 DAC 权 限 设置 总 是 可 撤销 的 。 | 
* 如 果 至 少 设置 了 一 个 执行 标志 位 ， 那 么 执行 的 DAC 权 限 设置 也 是 可 撤销 的 。 
A 















































if (!(mask & MAY_ EXEC) || 
(inode->i_mode & S_IXUGO) || S_ISDIR(inode->i_mode)) 
if (capable (CAP_DAC_ OVERRIDE)) 
return 0; 
/* 
* 检查 中 允许 对 目录 的 执行 ， 其 他 情况 只 允许 读 取 。 
二 
if (mask == MAY _READ || (S_ISDIR(inode->i mode) && !(mask & MAY WRITE) ) ) 
if (capable(CAP_DAC_READ_SEARCH) ) 
return 0; 


return -EACCES; 





} 

如 果 进 程 有 DAC_CAP_OVERRIDE 能 力 ， 那 么 对 以 下 情形 ， 都 可 以 授予 所 请 求 的 权限 : 

口 读 或 写 访问 ,0 D 请 求 执行 访问 ; 

口 设置 了 3 个 可 能 的 执行 位 中 的 一 个 或 多 个 ; 

口 inode 表 示 目 录 。 

男 一 个 发 挥 作用 的 能 力 是 cAP_DAC_READ_SEARCH， 该 能 力 允 许 在 读 取 文件 和 搜索 目录 时 ， 撤 销 
DAC 权 限 的 设置 。 如 果 有 该 能 力 ， 那 么 对 以 下 情形 ， 可 以 允许 访问 : 
口 请 求 读 操 作 ，; 
口 所 述 inode 是 一 个 目录 ， 没 有 请 求 写 访问 。 

最 后 , 如 何 处 理 ACL 的 问题 , 仍然 没有 解决 。 如 果 所 述 inode 有 一 个 相关 的 ACL (通过 Is_POSIXACL 
检查 )， 并 且 向 generic_permission 传 递 了 一 个 用 于 ACL 的 权限 检查 回调 函数 ， 那 么 在 将 当前 进程 的 
fsuid 与 所 述 文 件 的 UID 比 较 之 后 ， 将 调用 该 回调 函数 。 即 使 拒绝 了 所 要 求 的 访问 ， 进 程 能 力 的 设置 仍 
然 可 能 允许 该 操作 。 请 注意 ， 如 果 给 出 了 ACL 回 调 函 数 ， 那 么 DAC 检 查 是 可 以 跳 过 的 ， 因 为 ACL 检 查 
中 包含 了 标准 的 DAC 检 查 。 和 否则 ， 将 直接 返回 ACL 检 查 的 结果 。 


8.6 小 结 


UNIX 操 作 系 统 的 核心 概念 之 一 就 是 ， 几 乎 每 个 资源 都 可 以 表示 为 一 个 文件 ， 并 且 Linux 继 承 了 这 
种 观点 。 因 此 ， 文 件 是 内 核 世界 中 非常 重要 的 成 员 ， 文 件 的 表示 涉及 了 相当 多 的 工作 量 。 本 章 介 绍 了 
虚拟 文件 系统 ， 这 是 一 个 胶水 层 ， 位 于 内 核 的 底层 和 用 户 层 之 间 。 它 提供 了 各 种 抽象 数据 结构 来 表示 
文件 和 inode， 而 真实 文件 系统 的 实现 必须 填充 这 些 结构 ， 使 得 应 用 程序 无 需 考虑 底层 文件 系统 ， 总 是 
可 以 使 用 同样 的 接口 访问 和 操作 文件 。 

我 讨论 了 文件 系统 如 何 装载 到 用 户 层 应 用 程序 可 见 的 文件 系统 树 中 , 并 且说 明了 可 使 用 共享 子 树 
来 根据 命名 空间 创建 “全 局 ”文件 系统 的 不 同 视图 。 读 者 还 了 解 到 ， 内 核 采 用 了 许多 用 户 层 不 可 见 的 
伪 文 件 系统 ， 但 这 些 文件 系统 包含 了 一 些 信息 ， 用 于 内 核 内 部 。 

打开 文件 需要 穿 过 文件 系统 树 ， 读 者 已 经 看 到 了 VFS 层 对 该 问题 的 解决 方法 。 在 一 个 文件 已 经 打 
开 后 ， 可 以 读 写 数据 ， 读 者 也 看 到 了 VFS 层 在 这 些 操 作 中 发 挥 的 作用 。 
最 后 ， 读 者 还 了 解 到 ， 内 核 提供 了 一 些 通用 的 标准 函数 ， 使 得 真实 文件 系统 (如 Ext3， 在 下 一 章 
讨论 ) 的 实现 能 够 简单 一 些 。 男 外 内 核 还 确保 只 有 拥有 适当 权限 的 用 户 才能 够 访问 文件 系统 中 的 对 象 。 
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第 9 章 
Ext 文 件 系统 族 














借入 8 章 讨论 的 虚拟 文件 系统 接口 和 数据 结构 构成 了 一 个 框架 , 各 个 文件 系统 实现 都 必须 在 框架 

内 运转 。 但 这 并 不 要 求 每 个 文件 系统 在 持久 存储 其 内 容 的 块 设备 上 组 织 文件 时 ， 需 要 采用 

同样 的 思想 、 方 法 和 概念 。 完 全 相反 : Linux 支 持 多 种 文件 系统 概念 ， 包 括 那些 易于 实现 和 理解 但 功 

能 并 不 特别 强大 的 文件 系统 (例如 Minix 文 件 系 统 ); 经 过 验证 的 Ext2 文 件 系统 ， 其 使 用 者 数 以 百 万 计 ; 

特别 设计 的 文件 系统 ， 以 支持 基于 RAM 和 ROM 的 存储 ， 高 可 用 性 的 集群 文件 系统 ， 还 有 现代 的 、 基 

于 树 的 文件 系统 ， 能 够 通过 事务 日 志 快 速 恢 复 一 致 性 。 没 有 其 他 的 操作 系统 能 够 提供 如 此 多 的 功能 。 

即使 由 于 虚拟 文件 系统 的 存在 , 使 得 这 些 文件 系统 从 用 户 空 间 和 内 核 空 间 都 可 以 通过 相同 的 接 

访问 ， 但 各 个 文件 系统 实现 使 用 的 方法 颇 有 不 同 。 由 于 Linux 支 持 大 量 文件 系统 ， 一 一 讨论 每 个 文件 

系统 的 实现 是 不 现实 的 ， 即 使 简要 讨论 也 不 行 。 因 此 ， 本 章 重 点 讲解 Ext 文 件 系 统 族 ， 即 Ext2 和 Ext3 
文件 系统 。 它 们 说 明了 文件 系统 开发 中 的 关键 概念 。 


9.1 简介 


Ext2 和 Ext3 的 特征 可 以 简要 地 如 下 描述 。 

口 Ext2 文 件 系统 : 该 文件 系统 一 直 伴随 着 Linux， 它 已 经 成 为 许多 服务 器 和 桌面 系统 的 支柱 ， 工 
作 极其 出 色 。Ext2 文 件 系 统 的 设计 利用 了 与 虚拟 文件 系统 非常 类 似 的 结构 ， 因 为 开发 Ext2 时 ， 
目标 就 是 要 优化 与 Linux 的 互 操作 ， 但 它 也 可 以 用 于 其 他 的 操作 系统 。 

口 Ext3 文 件 系 统 : 这 是 Ext2 的 演化 和 发 展 。 它 仍然 与 Ext2 兼 容 ， 但 提供 了 扩展 日 志 功 能 ， 这 对 系 
统 骨 溃 的 恢复 特别 有 用 。 本 章 还 将 简要 讲解 Ext3 的 日 志 机 制 。 与 Ext2 相 比 ，Ext3 多 了 几 个 有 趣 

的 选项 ， 但 文件 系统 的 基本 原理 一 样 。 

虽然 现在 大 部 分 Linux 安 装 都 优先 使 用 Ext3 而 不 是 Ext2, 但 首先 讨论 Ext2 仍 然 是 有 意义 的 。 由 于 其 

代码 无 须 实现 任何 日 志 功 能 ， 与 Ext3 实 现 相 比 通常 简单 些 ， 因 而 更 容易 理解 它们 的 基本 原理 。 除 了 日 

志 外 ， 两 种 文件 系统 几乎 完全 相同 ， 许 多 起 源 于 Ext3 的 一 般 性 改进 已 经 反 向 移植 到 Ext2 。 

在 管理 基于 磁盘 文件 系统 的 存储 空间 时 ， 会 遇 到 一 个 特殊 的 问题 : 碎片 。 随 着 文件 的 移动 和 新 文 
件 增加 ,可 用 空间 变 得 越 来 越 支 离 破 碎 , 特别 是 在 文件 很 小 的 情况 下 。 由 于 这 对 访问 速度 有 负面 影响 ， 
文件 系统 必须 尽 可 能 减少 碎片 产生 。 
另 一 个 重要 的 需求 是 有 效 利用 存储 空间 ， 在 这 里 文件 系统 必须 1 

将 大 量 管 理 数据 存储 在 磁盘 上 。 这 抵消 了 更 紧凑 的 数据 存储 带 来 的 好 

外 ， 我 们 还 要 避免 浪费 磁盘 容量 。 如 果 空 间 未 能 有 效 使 用 ， 那 么 就 失 到 

各 个 文件 系统 实现 处 理 该 问题 的 方法 均 有 所 不 同 。 通 常会 引入 由 管理 

使 用 模式 来 优化 文件 系统 〈 例 如 ， 预 期 使 用 大 量 的 大 文件 或 小 文件 )。 

维护 文件 内 容 的 一 致 性 也 是 一 个 关键 问题 ， 需 要 在 规划 和 实现 文件 系统 期 间 审 慎 考 虑 。 即 使 最 稳 
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依 正 











折 中 。 要 完全 利用 空间 ， 必 须 
甚至 可 能 使 情况 更 糟糕 。 此 
减少 管理 数据 带 来 的 好 处 。 
置 的 参数 ， 以 便 针 对 预期 的 
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还 原 到 一 个 可 用 状态 。 





的 内 核 也 可 能 狸 然 停工 ， 可 能 是 











定 
造成 不 可 恢复 的 错误 例如， 如 果 修 改 被 缓存 在 物理 内 存 中 ， 没 有 写 回 磁盘 ， 那 么 修改 会 丢失 )， 文 
件 系 统 的 实现 必须 尽 可 能 快速 、 全 面 地 纠正 可 能 出 现 的 损坏 。 在 最 低 限度 上 ， 它 必须 能 够 将 文件 系统 























软件 错误 ， 也 可 能 由 于 断 电 、 硬 件 故 障 等 其 他 原因 。 即 使 此 类 事故 






























































最 后 ， 在 评价 文件 系统 的 质量 时 ， 速 度 也 是 一 个 重要 的 
































9.2 “Ext2 文件 系统 


其 很 慢 ， 但 糟糕 的 文件 系统 会 进 




















By 

















素 。 即 使 硬盘 与 CPU 或 物理 内 存 相 比 极 








步 降低 系统 的 速度 。 























即使 Linux 既 不 是 教育 版 Minix 的 复制 ， 也 不 是 其 进一步 的 发 展 版 本 ， 但 早期 Linux 内 核 的 许多 部 
分 很 明显 反映 出 了 它 从 Minix 继 承 的 东西 。Linux 内 核 处 理 的 第 一 个 文件 系统 是 Minix 文 件 系统 的 直接 改 

















编 版 。 这 主要 是 由 一 些 现实 的 原因 


























原本 是 在 Minix 系 统 上 开发 的 。 从 习 







































































造成 的 ， 因 为 在 Linux 本 身 能 够 作为 宿主 机 支撑 内 核 开发 之 前 ， 它 








了 时 起 ， 我 们 已 经 取得 了 巨大 进步 。 


























Minix 文 件 系统 的 代码 也 许 从 教育 的 角度 来 看 很 有 价值 ， 但 从 性 能 来 看 ， 它 还 有 很 多 有 符 改 进 之 
处 "。 商 业 UNIX 系 统 的 许多 标准 特性 ，Minix 文 件 系统 根本 不 支持 。 例 如 文件 名 的 长 度 仍然 限制 为 14 





个 字符 ， 这 相当 短 ， 但 仍然 好 于 同 























时 代 的 另 一 个 操作 系统 〈 非 常 普及 的 DOS) 支持 的 8.3 方 案 。 











该 事实 促进 了 Ext0 0 口 口 的 开发 ， 该 文件 系统 尽管 在 Minix 文 件 系 统 上 进行 了 很 大 的 改进 ,但 与 
商业 文件 系统 的 性 能 和 功能 比较 ， 仍 然 有 很 明显 的 不 足 。“ 只 有 在 该 文件 系统 的 第 三 版 开发 之 后 (也 

































































就 是 Ext20 0 0 0 ,或 简称 Ex 纪 ), 才 成 为 一 个 极其 强大 的 文件 系统 , 从 此 不 再 害怕 与 商业 产品 比较 了 。 
其 设计 主要 受到 BSD 的 0D 0DOODOD (FastFile System， 简 称 FFS)〉 的 影响 ， 上 基体 请 参见 [MBKQ96]。 
Ext2 文 件 系统 专注 于 高 性 能 ， 




















以 及 下 面 列 出 和 由 文件 系统 作者 在 [CTT] 中 规定 的 目标 。 


















































中 )。 








口 将 扩展 能 力 集成 到 设计 中 ， 使 得 从 旧版 本 迁移 到 新 版 本 时 ， 无 需 重新 格式 化 和 重新 加 载 便 盘 。 
时 采用 了 一 种 精巧 复杂 的 策略 ， 使 得 系统 骨 泪 可 能 造成 的 影响 最 小 。 











口 在 存储 介质 上 操作 数据 














口 支持 可 变 块 长 ， 使 得 文件 系统 能 够 处 理 预 期 的 应 用 《许多 大 文件 或 许多 小 文件 )。 
口 快速 符号 链接 ， 如 果 链 接 目 标的 路 径 足 够 短 ， 则 将 其 存储 在 inode 自 身 中 (不 是 存储 在 数据 





























[Xl 

































































文件 系统 通常 可 以 恢复 到 一 种 状态 ， 在 该 状态 下 辅助 工具 fsck 至 少 能 够 修复 它 ， 使 得 文件 系 











统 能 够 再 次 使 用 。 这 并 不 排除 数据 丢失 的 可 能 性 。 





























口 使 用 特殊 的 属性 “经 典 的 UNIX 文 件 系统 不 具备 该 特性 ) 将 文件 标记 为 不 可 改变 的 。 例 如 ， 这 












































可 以 防止 对 重要 配置 文件 的 无 意 修改 ， 即 使 超级 用 户 也 不 行 。 























当今 ， 对 用 于 生产 环境 的 计算 机 上 的 文件 系统 ， 这 些 特 性 都 是 标准 的 需求 。 在 Ext2 之 后 的 许多 文 














件 系统 提供 了 更 多 的 功能 。 尽 管 如 此 ， 对 很 大 范围 内 的 应 用 程序 ，Ext 文 件 系统 族 仍然 非常 适 
一 个 很 大 的 优点 不 能 低估 : 与 更 为 现代 的 文件 系统 相 比 ，Ext2 文 件 系统 的 代码 非常 紧凑 。 与 JFS 的 直 








右 

















ml 
o 








他 3 : 











过 30 000 行 代码 、XFS 的 大 约 90 000 行 代码 相 比 ，Ext2 用 不 超过 10 000 行 代码 就 足以 实现 。 


9.2.1 物理 结构 
必须 建立 各 种 结 

















为 《在 内 核 中 定义 为 C 语 言 数据 类 型 )， 来 存放 文件 系统 的 数据 ， 包 括 文件 内 容 、 








Q@ 请 注意 ， 这 种 情况 从 Minix 3 



































台 发 生 了 一 些 变化 ， 该 版 本 有 明确 的 设计 目标 ， 要 确保 在 嵌入 式 设 备 和 类 似 的 计算 





























能 力 有 限 的 系统 上 可 用 。 但 为 了 达到 上 述 目的 ， 大 多 数 人 看 来 仍然 更 喜欢 能 入 式 Linux 发 行 版 。 
@ 当时 的 男 一 个 文件 系统 Xia 现 在 已 经 废弃 (内 核 很 久 前 就 撤销 了 对 该 文件 系统 的 支持 ), 它 是 Minix 文 件 系统 的 增强 





版 。 我 最 初 安装 的 Linux 系 统 别 








i 使 


























过 该 文件 系统 ， 现 在 对 此 仍然 有 美好 的 回忆 ， 这 可 不 是 虚无 绿 绢 的 空想 。 
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目录 层次 结构 的 表示 、 相 关 的 管理 数据 (如 访问 权限 或 与 用 户 和 组 的 关联 )， 以 及 用 于 管理 文件 系统 
0 这 上 旦 对 从 走 设 备 读 取 数 据 进行 分 析 而 吾 ， 都 是 必要 的 。 这 些 结构 的 持久 副本 显然 
要 存储 在 便 盘 上 ， 这 样 数据 在 两 次 会 话 之 间 不 会 丢失 。 下 一 次 局 动 重新 激活 内 核 时 ， 数 据 仍然 是 可 












































un 










































































用 的 。 因为 硬盘 和 物理 内 存世 A 同一 数据 结构 通常 会 有 两 个 版 本 。 
存储 ， 劝 一 个 用 于 在 内 存 中 的 处 理 
在 以 下 各 节 中 ， 经 常 使 用 的 名 词 《block) 有 两 个 不 同 的 含义 。 
















































































不 会 传输 单个 字符 ， 如 第 6 章 所 述 。 





























一 个 用 于 在 磁盘 上 的 持久 








口 一 方面 ， 有 些 文件 系统 存储 在 面向 块 的 设备 上 ， 与 设备 之 间 的 数据 传输 都 以 块 为 单位 进行 ， 


口 男 一 方面 ，Ex 纪 文件 系统 是 一 种 0 口 口 的 文件 系统 ， 它 将 硬盘 划分 为 若干 块 ， 每 个 块 的 长 度 都 


相同 ， 按 块 管理 元 数据 和 文件 内 容 。 这 意味 着 底层 存储 介质 的 结构 影响 到 了 文件 系统 的 结构 ， 
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这 很 自然 也 会 影响 到 所 用 的 算法 和 数据 结构 的 设计 。 本 章 将 详细 讲解 这 些 景 





























影响 。 








在 将 硬盘 划分 为 固定 长 度 的 块 时 , 特别 重要 的 一 个 方面 是 文件 占用 的 存储 空间 只 能 是 块 长 度 的 整 












































数 倍 。 我 们 根据 图 9-1 来 讲解 这 些 ; 尖 况 的 影 啊 ， 为 简单 起 见 ， 我 们 假定 块 长 为 5 个 和 
个 文件 ， 长 度 分 别 为 2>、4 和 11 个 单位 。 
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图 9-1 在 基于 块 的 文件 系统 中 文件 数据 的 分 布 








下 





















































地 分 布 到 可 用 的 块 上 。 但 实际 上 没有 使 用 该 方法 ,因为 它 有 一 个 严重 的 缺点 。 由 
不 同 的 文件 ， 因 此 需要 一 部 分 数据 来 管理 各 个 块 内 部 的 文件 边界 ， 这 部 分 数据 的 


























位 。 我 们 需要 存储 3 





很 显然 ,上 半 部 给 出 的 方法 在 划分 现存 存储 空间 时 效率 更 高 ， 其 中 将 各 个 文件 的 内 容 尽 可 能 紧凑 


于 同一 块 可 能 分 配给 


量 是 如 此 之 大 ， 以 至 

















于 迅即 抵消 了 该 方法 节省 文件 存储 空间 的 好 处 《与 图 中 下 半 部 相 比 )。 最 终 ， 每 个 文件 占用 的 存储 空 















































间 的 长 度 不 仅仅 包括 其 数据 的 长 度 ， 而 且 需 要 将 数据 长 度 向 上 售 入 到 块 长 的 整数 
1. 结构 概观 
我 们 首先 了 解 一 下 用 于 管理 数据 的 C 语 言 结构 ， 以 获得 一 个 清晰 的 图 景 。 其 



























































Ho 


中 涵盖 了 各 部 分 的 功 














能 及 其 之 间 的 交互 。 图 9-2 给 出 了 一 个 0 0 (block group) 的 内 容 ， 块 组 是 Ext2 文 件 系统 的 核心 要 素 





























在 人 硬盘 上 相继 排 布 ， 如 图 9-3 所 示 。 














块 组 是 该 文件 系统 的 基本 成 分 ， 容 纳 了 文件 系统 的 其 他 结构 。 每 个 文件 系统 都 由 大 量 块 组 组 成 ， 











1 个 块 Kk 个 块 1 个 块 ”1 个 块 n 个 块 m 个 二 
图 9-2” Ext2 文 件 系 统 的 块 组 

















中 “没有 使 用 ”严格 来 说 是 不 准确 的 ， 这 种 方案 的 一 种 弱化 形式 〈 在 某 种 程度 上 ) 允许 使 用 









































个 块 来 保存 儿 个 小 文 
村 此 类 “碎片 ”的 基本 的 



































件 ， 此 方案 正在 开发 中 ， 有 可 能 成 为 Ext2/3 文 件 系统 未 来 版 本 的 标准 特性 。 尽 管用 于 支 
基础 设施 已 经 包含 在 代码 中 ， 但 特性 本 身 尚未 实现 。 
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启动 块 块 组 0 有 1 块 组 n 














图 9-3 ”硬盘 上 的 启动 扇 区 和 块 组 


启动 局 区 是 人 硬盘 上 的 一 个 区 域 ， 在 系统 加 电 启 动 时 ， 其 内 容 由 BIOS 自 动 装 载 并 执行 。 它 包含 一 
个 启动 装载 程序 "， 用 于 从 计算 机 安装 的 操作 系统 中 选择 一 个 启动 ， 还 负责 继续 启动 过 程 。 显 然 ， 该 
区 域 不 可 能 填充 文件 系统 的 数据 。 局 动 装载 程序 并 非 在 所 有 系统 上 都 是 必需 的 。 在 需要 启动 装载 程序 
的 系统 上 ， 它 们 通常 位 于 人 硬盘 的 起 始 处 ， 以 避免 影响 其 后 的 分 区 。 

磁 竹 上 剩余 的 空间 由 连续 的 许多 块 组 占用 , 存储 了 文件 系统 元 数据 和 各 个 文件 的 有 用 数据 。 图 9-2 
清楚 地 说 明了 ， 每 个 块 组 包含 许多 元 余 信 息 。 为 什么 Ext2 文 件 系统 允许 这 样 浪费 空间 ”有 两 个 原因 ， 
可 以 证 明 提 供 额外 空间 的 做 法 是 正确 的 。 

口 如 果 系统 骨 误 破坏 了 超级 块 ， 有 关 文 件 系统 结构 和 内 容 的 所 有 信息 都 会 丢失 。 如 果 有 宛 余 的 
副本 ， 该 信息 是 可 能 恢复 的 《难度 极 高 ， 大 多 数 用 户 可 能 一 点 也 恢复 不 了 )。 

口 通过 使 文件 和 管理 数据 尽 可 能 接近 ， 减 少 了 磁头 寻 道 和 旋转 ， 这 可 以 提高 文件 系统 的 性 能 。 

实际 上 , 数据 并 非 在 每 个 块 组 中 都 复制 , 内 核 也 只 用 超级 块 的 第 一 个 副本 工作 , 通常 这 就 足够 了 。 
在 进行 文件 系统 检查 时 ， 会 将 第 一 个 超级 块 的 数据 传播 到 剩余 的 超级 块 ， 供 紧急 情况 下 读 取 。 因 为 该 
方法 也 会 消耗 大 量 的 存储 空间 ，Ext2 的 后 续 版 本 采用 了 0 DUO0DD 《sparse superblock) 技术 。 该 做 法 
中 ,超级 块 不 再 存储 到 文件 系统 的 每 个 块 组 中 ,而 是 只 写 入 到 块 组 0、 块 组 1 和 其 他 ID 可 以 表示 为 3、5、 
7 的 容 的 块 组 中 。 
超级 块 的 数据 缓存 在 内 存 中 ,使 得 内 核 不 必 重 复 地 从 硬盘 读 取 该 数据 (内存 当 然 比 人 硬盘 快 得 多 )。 
上 文中 ， 为 块 组 的 元 余 信息 辩解 的 第 二 个 原因 现在 也 不 成 立 了 ， 现 在 已 经 不 必 在 各 个 超级 块 之 间 进 行 
磁头 寻 道 了 。 
尽管 在 设计 Ext2 文 件 系统 时 假定 上 述 两 个 问题 对 文件 系统 的 性 能 和 安全 有 很 大 影响 ,但 后 来 发 现 
情况 不 是 这 样 。 因 此 做 出 了 上 述 修改 。 

块 组 中 各 个 结构 的 作用 都 是 什么 呢 ? 在 回答 该 问题 之 前 ， 最 好 简要 概述 其 语义 。 

口 吕 OO 是 用 于 存储 文件 系统 自身 元 数据 的 核心 结构 。 其 中 的 信息 包括 空 闪 与 已 使 用 块 的 数目 、 
块 长 度 、 当 前 文件 系统 状态 《在 启动 时 用 于 检测 前 一 次 骨 演 )、 各 种 时 间 惟 (例如 ， 上 一 次 装 
ee 它 还 包括 一 个 表示 文件 系统 类 型 的 魔 数 ， 这 
样 mount 例 程 能 够 确认 文件 系统 的 类 型 是 否 正确 
内 核 上 只 使 用 第 一 个 块 组 的 超级 块 读 取 文件 i 即使 在 几 个 超级 块 中 都 有 超级 块 ， 
出 是 如 此 。 
口 口 0OD 包含 的 信息 反映 了 文件 系统 中 各 个 块 组 的 状态 , 例如 , 块 组 中 空闲 块 和 inode 的 数目 。 
D0 块 组 都 包含 了 文件 系统 中 口 口 块 组 的 组 描述 符 信息 。 

口 口 吕 DODD 和 inodeD 0 用 于 保存 长 的 比特 位 串 。 人 个 数据 
块 或 inode， 用 于 表示 对 应 的 数据 块 或 inode 是 空闲 的 ， 还 是 被 使 用 中 。 

口 inode[ 包含 了 块 组 中 所 有 的 inode，inode 用 于 保存 文件 系统 中 与 各 个 文件 和 目录 相关 的 所 有 元 

口 顾名思义 , 0D DODDOD0 包含 了 文件 系统 中 的 文件 的 有 用 数据 。 















































































































































































































































































































































































































































































































































































































































































































































Q@ IA-32 上 的 LILO，Alpha 上 的 MILO，Sparc 上 的 SILO， 等 等 。 






































468 0 90 ExtD0000 

尽管 inode 位 图 和 数据 块 位 图 总 是 占用 一 个 数据 块 ， 其 余 的 数据 项 都 由 几 个 块 组 成 。 确 切 的 块 数 
不 仅 依 赖 创 建文 件 系统 时 的 选项 ， 也 依赖 存储 介质 的 容量 。 

这 些 结构 与 虚拟 文件 系统 各 要 素 (以 及 UNIX 文 件 系 统一 般 概念 ， 如 第 8 章 所 述 ) 的 相似 性 是 无 可 


怀疑 的 。 


手 的 问题 。 
文件 系统 实 ] 
媒体 内 容 〈 例 如 视频 ) 或 大 型 数据 库 很 容易 消耗 数 百 兆 甚至 上 
还 有 不 同类 型 的 元 信息 。 
如 果 文 














尽管 采 





] 这 种 结构 解决 了 访 








现 的 一 个 关键 问题 是 ， 











例如 ， 为 设备 文件 


F 系 统 内 容 只 在 内 存 





二 


























在 高 速 的 物理 
多 ， 代 价 
在 设计 用 了 














内 存 建 立 、 扫 
也 更 为 高 昂 。 





田 








存储 数据 的 结 








事 ， 特 


决 。 





别 
2. 间接 

即使 Ext2 文 
硬盘 划分 为 块 ， 


E 考 虑 到 介质 容量 的 利 





[a 
碟 亿 























牛 系统 采 




















] 了 经 典 
文件 使 用 。 特 定 文 件 














各 个 文人 


存储 的 
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之 





已 





守 息 


/LE 





F 多 问题 ， 例 如 目录 的 表示 ， 但 Ext2 文 伯 


的 差别 可 能 非常 大 , 无 
小 的 配置 文件 通常 


-二 


百子 -m， 


与 








目录 、 普 通 文 
FP 操作 ， 而 不 是 存储 到 慢 速 的 外 部 介质 上 ， 这 些 问题 计 


























度 本 喘 有 关系 )。 


在 系统 内 存 
与 内 存 类 似 , 块 也 通过 编号 唯 





PhP， 从 内 核 




















的 角度 来 看 ， 内 存 划 分 为 长 度 相 同上 
标识 。 这 使 得 存储 在 inode 结 构 吕 
数据 块 部 分 的 文件 内 容 。 二 者 之 间 的 关联 ， 是 通过 将 数据 块 的 划 


、 修 改 所 需 的 结构 几乎 不 花费 时 间 ， 而 在 硬盘 上 执行 


构 时 ,必须 最 优 地 满足 所 有 的 文件 系统 需求 ， 对 
用 和 访问 速度 时 。Ext2 文 件 系 统 因 





的 UNIX 方 案 ， 借 助 于 inode 来 实现 文件 ， 但 
占用 的 块 数目 ， 取 # 











文人 


| 





此 借 


的 页 ， 按 唯 


PP 的 文件 元 数据 ， 
也 址 存储 在 inode 中 建立 的 。 








系统 仍然 需要 解决 几 个 再 





HH 
论 是 上 











] 途 。 尺 管 多 
字 节 数 很 少 。 
都 是 不 同上 
不 那么 严重 。 
同样 的 操作 要 慢 得 


度 还 是 
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牛 、 已 命名 第 


we 
已 坦 


beay 
o 
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TL 


硬盘 来 说 这 未 必 是 容易 
助 于 技巧 来 解决 ， 如 下 所 述 。 




















仍然 有 一 些 问题 需要 解 
内 容 的 长 度 〈 当 然 ， 也 与 块 长 











的 页 号 或 指针 寻 址 。 硬 盘 


能 够 关联 到 位 于 人 硬盘 


到 位 本 
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UUOUDU0OUD0D0 
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不 





更 仔细 地 考察 这 个 概念 ， 很 快 会 揭 








制 了 文 从 














也 只 能 够 表示 长 
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加 inode 结 
4KiB。 如 
过 一 个 4 字 节 





不 日 





F 的 最 大 长 度 。 如 果 这 个 数目 太 小 ， 旺 











管 乔 


tH 一 个 问题 。 





inode 结 构 














度 较 小 的 文件 。 
构 中 块 号 的 数 












































TY 


不 能 解决 该 问题 ， 

















在 储 一 个 700 MiB 的 文 伯 
数字 唯一 标识 ， 


不 














为 这 需要 耗费 大 量 的 磁盘 
大 多 数 文件 

当然 ， 这 是 
对 此 都 使 








空间 来 存储 inode 信 
F 的 平均 长 度 远 小 于 700 MiB。 

个 古老 的 问题 ， 
了 一 种 经 过 证 实 的 解决 方案 ， 





















































使 








间接 ， 在 inode 中 仪 需 要 耗费 少 





件 。 对 





较 大 的 文件 ， 指 向 各 个 数据 块 
这 种 方法 容 记 
变化 而 动态 变化 ， 即 前 者 实际 上 是 后 者 的 一 个 函数 。inode 本 身长 度 是 


是 











不 是 Linux 特 有 


四 .性 z 十 


旦 子 站 





息 。 





的 。 


存储 块 号 ， 办 
的 指针 《〈 块 号 ) 是 间接 存储 的 ， 如 


Binode 结 构 所 需 的 空间 较 小 ， 但 在 同时 ， 文 们 


以 下 的 计算 可 以 














更 重要 的 是 ， 大 多 数 文件 都 不 需要 存储 这 人 么 多 志 


Es 


三 





吕 





FP 能 够 存放 的 块 号 的 数目 ， 限 
系统 








证 明 这 一 点 。 数 据 块 的 长 度 是 

















F， 文 件 系统 需要 大 约 175 000 个 数据 块 。 如 果 每 个 数据 块 都 可 以 通 
inode 需 要 175 000x4 个 字 节 来 存储 所 有 的 块 号 信 
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LE》 








这 是 不 切实 际 的 ， 因 


与， 





运 的 是 ， 所 有 UNIX 文 件 系统 〈 包 括 Ext2 ) 
称 之 为 0] D (indirection) ©。 








1 好 够 











F 对 大 /小 文人 





F 的 灵活 存储 ， 





是 动态 分 配 的 。 





@ 即使 相对 原始 的 Minix 文 件 系统 也 支持 间接 。 





因 





为 用 了 


存储 块 号 的 区 域 








十 





来 表示 平均 意义 上 长 度 较 小 的 文 


图 9-4 所 示 。 
的 长 度 ， 将 随 文 件 实际 长 度 的 








定 的 ， 用 于 间接 的 其 他 数据 块 
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inode 数据 块 
间接 块 
































图 9-4 ”简单 间接 和 二 次 间接 




















我 们 首先 考察 该 方法 用 于 小 文件 的 情形 。inode 中 直接 存储 的 块 号 即 足够 标识 所 有 数据 块 ， 因 为 
inode 只 包含 少量 块 号 ， 因 此 inode 结 构 占 用 的 人 硬盘 空间 很 少 。 

如 果 文 件 较 大 ，inode 中 的 块 号 不 足以 标识 所 有 的 数据 块 ， 则 会 使 用 间接 。 文 件 系 统 在 硬盘 上 分 
配 一 个 数据 天 ， 不 存储 文件 数据 ， 专 门 用 于 存储 块 号 。 该 块 称 为 DD DDD (single indirect block)， 
可 以 容纳 数 百 个 块 号 (实际 数目 与 块 长 有 关 ， 表 9-1 列 出 了 Ext2 文 件 系 统 的 可 能 值 )。inode 必 须 存 储 第 
一 个 间接 块 的 块 号 ， 以 便 访问 。 图 9-4 给 出 的 例子 中 ， 该 块 号 紧 接 着 直接 块 的 块 号 存储 。inode 的 长 度 
总 是 固定 的 。 间接 块 占用 的 空间 , 对 于 支持 大 文件 来 说 是 必然 的 , 但 对 于 小 文件 不 会 带 来 额外 的 开销 。 


表 9-1 ”Ext2 文 件 系 统 中 的 块 长 度 和 文件 长 度 











































































































































































































块 长 度 最 大 文件 长 度 
1 024 16 GiB 
2 048 256 GiB 
4 096 2 TiB 








从 图 中 ， 可 以 很 明显 地 看 到 间接 的 其 他 情况 。 在 文件 变 得 越 来 越 大 时 ， 借 助 于 间接 来 增加 可 用 空 
间 必 然 会 遇 到 极限 。 因 而 ， 下 一 个 合乎 逻辑 的 步骤 是 使 用 二 次 间接 。 这 一 次 ， 仍 然 需要 分 配 一 个 便 盘 
块 ， 来 存储 数据 块 的 块 号 。 但 这 里 的 数据 块 并 不 存储 有 用 的 文件 数据 ， 而 是 存储 其 他 数据 块 的 块 号 ， 
后 者 才 存储 有 用 的 文件 数据 。 
使 用 二 次 间接 显著 地 增加 了 各 个 文件 的 可 管理 空间 。 如 果 一 个 数据 块 可 以 容纳 1 000 个 块 号 ， 那 
么 二 次 间接 可 以 寻 址 1 000x1 000 个 数据 块 。 当 然 该 方法 有 一 个 负面 效应 ， 它 使 得 对 大 文件 的 访问 代价 
更 高 。 文 件 系 统 首先 必须 查找 间接 块 的 地 址 ， 读 取 下 一 个 间接 项 ， 查 找 对 应 的 间接 块 ， 并 从 中 查找 数 
据 块 的 块 号 。 因 而 在 管理 可 变 长 度 的 文件 的 能 力 方面 ， 与 访问 速度 相应 的 下 降 方面 ( 越 大 的 文件 ， 速 
度 越 慢 )， 必 然 存在 一 个 折 中 。 
如 图 9-4 所 示 ， 一 次 间接 并 不 是 最 终结 局 。 内 核 提 供 了 三 次 间接 来 表示 真正 的 0D 0 文件 。 这 是 简 
单间 接 和 二 次 间接 的 原理 的 扩展 ， 在 这 里 不 讨论 了 。 
三 次 间接 将 最 大 文件 长 度 提高 到 一 个 空前 的 高 度 ， 使 得 内 核 中 与 之 相关 的 其 他 问题 突然 出 现 ， 特 
别 是 在 32 位 体系 结构 上 。 由 于 标准 库 使 用 32 位 宽 的 long 类 型 变量 表示 文件 内 的 位 置 ， 这 将 文件 的 最 大 
长 度 限制 到 2 字 节 ， 即 2 GiB, 小 于 Ext2 文 件 系统 使 用 三 次 间接 所 能 管理 的 文件 长 度 。 为 处 理 这 个 缺点 ， 
内 核 中 引入 了 一 个 专门 的 方案 来 访问 大 文件 。 这 不 仪 影响 到 标准 库 的 例 程 ， 也 影响 到 了 内 核 源 代码 。 
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碎片 





站 站 机 庆 区 不 全 本 天 
过 。 随 着 时 间 的 变化 ， 文 件 系统 的 许 




















它们 也 会 有 碎片 问题 ， 章 
增加 了 许多 新 文件 。 这 人 




















人 代位 
































闲 磁盘 空间 变 成 长 度 不 同 的 存储 区 




















到 9-$ 所 示 。 














尽管 图 示 可 能 有 所 夸张 ， 




















续 存 储 区 是 5 块 。 在 程序 要 据 

























































































不 相关 的 事情 。 





























答案 很 明显 。 数 据 将 散布 到 磁盘 世 
的 。 进 程 访问 文件 时 看 到 的 0 口 一 个 连续 
想起 处 理 器 向 进程 提供 内 存 的 方式 ， 其 差别 在 于 ， 没 和 有 
牛 系统 自身 的 代码 负责 完成 该 任务 。 

当然 ， 在 使 用 直接 英 或 一 次 、 到 A 
的 信息 ， 总 是 可 以 唯一 地 识别 出 






















































































到 整个 磁盘 上 上， 磁头 读 取 数 据 时 
因此 ，Ext2 文 件 系 统 尽力 防止 碎片 。 在 无 法 避免 碎片 时 ， 臣 
组 中 ”"。 如 果 文 件 系统 尚 未 满载 ， 尚 有 适当 勾 i 
文件 存储 选项 可 用 ， 这 自动 减少 了 对 碎片 的 敏感 程度 。 




















9.2.2 ”数据 结构 


在 学 习 完 Ext2 文 件 系统 底层 
现 文件 系统 和 在 优盘 上 存储 数据 。 针 和 大 
应 结构 。 这 些 与 虚拟 文件 系统 定义 的 结 
的 管理 ， 其 次 用 于 缓存 元 数据 ， 加 速 对 文件 





























1. 超级 块 


DOD 是 文件 系统 的 核心 纪 
看 到 的 就 是 超级 块 的 内 容 。 超 级 块 的 数据 使 
内 核 通 常 借助 file_system_type 结 构 ( 

















但 两 种 情况 在 访问 速度 方 再 
的 情况 )， 磁 头 读 取 数 据 时 的 移动 将 降 到 最 低 ， 因 











之 件 抉 在 硬盘 上 都 是 连 
1 o 相反 ， 丸 





,起 














， 又 会 怎么 样 呢 ? 











网 已 使 
加 空 亲 


























性 质 。 硬盘 上 仍然 有 12 个 空闲 块 , 但 最 长 的 连 
]7 据 的 数据 时 ， 会 发生 什么 情况 呢 ? 另 外， 如何 必须 向 现 丰 
文人 了 加 数据 ， 页 文人 未 居 之 后 的 所 记忆 经 其 他所 上 








座 。 午 要 的 是 ， 这 些 对 
， 而 不 会 考虑 到 人 硬盘 上 数 
机 制 来 蔡 文 件 








居 块 时 ， 都 没什么 困难 。 通 过 指针 中 
昌 块 是 顺序 的 ， 还 是 散布 到 这 个 硬盘 上 ， 是 











户 进程 是 透明 











局 健 片 


续 





的 程度 。 这 使 人 
系统 保证 线性 化 。 文 





























的 〈 这 是 我 们 希望 















































就 需要 不 停 地 寻 道 ， 








度 


了 访问 速度 。 
将 同一 文件 的 
































oad 






























































吉 构 ， 保 存 了 文件 系统 所 有 的 特征 数据 。 









































Ef。 我 们 在 这 里 关注 的 是 超级 块 在 便 盘 上 





























例 程 执行 的 操作 将 在 9.2.4 节 
使 用 得 相对 广泛 的 ext2_super_block 




















CD defrag.ext2 系 统 工 具 可 上 








连续 的 结构 中 。 














与 文件 系统 的 通 信 








结构 用 于 定义 超级 块 ， 如 下 所 示 : 








改 法 就 很 有 用 。 





昌 关 的 数据 结 





I 果 文件 的 块 散布 





维持 在 同一 个 块 





因为 有 更 多 的 











构 ， 它 们 用 于 实 
， 都 有 针对 内 存 访问 定义 的 对 
并 简化 重要 数据 





内 核 在 装载 文件 系统 时 ， 最 先 
jext2_read_supezr 例 程 读 取 (位 于 fs/ext2/super.c)， 
FP 的 reag_super 函 数 指针 来 调用 该 函数 。 该 
的 结构 和 布局 。 
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<ext2_fs.h> 
struct ext2_Ssuper_block { 
le32 s_inodes_count; /* inode 数 目 */ 
le32 s_blocks_count; /* 抉 数目 */ 
le32 s_r blocks_ count; /* 已 分 配 块 的 数目 */ 
le32 s_free_blocks_count; /* 空闲 块 数 尖 冰 
le32 s_free inodes_count; /* 空闲 inoqe 数 目 */ 
le32 s_first_data_block;  /* 第 一 个 数据 块 */ 
le32 s_log block size; /* 块 长 度 */ 
le32 s_log frag size; /* 碎片 长 度 */ 
le32 s_blocks_per_group;  /* 每 个 块 组 包含 的 块 数 */ 
le32 s_frags_per_group; /* 每 个 块 组 包含 的 碎片 */ 
le32 s_inodes_per_group;  ”/* 每 个 块 组 的 ijnode 数 目 */ 
_ le32 s_mtime; /* 装载 时 间 */ 
_ le32 s_wtime; /* 写 入 时 间 */ 
_ lel6 s mnt count; /* 装载 计数 */ 
le16 s max mnt count; /* 最 大 装载 计数 * 
_ lel6 s magic; /* 魔 数 ， 标记 文件 系统 类 型 */ 
le16 s_state; /* 文件 系统 状态 */ 
_ le16 s_errors; /* 检测 到 错误 时 的 行为 #7 
le16 s minor rev_ level; /* 副 修订 号 */ 
_ le32 s_lastcheck; /* 上 一 次 检查 的 时 间 */ 
_ le32 s_checkinterval; /* 两 次 检查 允许 间隔 的 最 长 时 间 */ 
le32 s_creator os; /* 创建 广 牛 系统 的 操作 系统 */ 
_ le32 s_rev_ level; /* 修订 号 */ 
le16 s_def resuid; /* 能 够 使 保留 块 的 默认 UID */ 
_ le16 s_def resgid; /* 能 够 使 用 保留 块 的 默认 GID */ 
/* 
* 这 些 字 段 只 用 于 EXT2_DYNAMIC_REV 超 级 块 。 
大 
* 请 注意 ,3 容 特 性 集 与 不 兼容 特性 集 的 差别 在 于 : 如 果 不 兼 容 特性 中 某 个 置 位 的 比特 位 内 核 不 了 解 ， 
中 则 应 该 拒绝 装载 该 去 文件 系统 。 
大 
* e2fsck 的 要 求 更 为 严格 。 如 果 它 不 了 解 某 个 特性 ， 不 管 是 兼容 特性 还 是 不 兼容 特性 ， 
* 它 都 必须 放弃 工作 ， 而 不 是 去 尽力 去 弄 乱 不 了 解 的 东西 。 
le32 s_first_ino; /* 第 一 个 非 保留 的 inode */ 
1e16 s_inode size; /* inode 结 构 的 长 度 */ 
le16 s_block group_nr; /* 当前 超级 块 所 在 的 块 组 编号 */ 
le32 s_feature compat; /* 兼容 特性 集 */ 
le32 s_feature_ incompat; /* 不 兼容 特性 集 */ 
le32 s_feature ro_compat; /* 只 读 兼 容 特 性 集 */ 
_u8 suuid[16]; /* 卷 的 128 位 uuiqd */ 
char s_volume name[16]; /* 卷 名 */ 
char s_last mounted[64]; /* 上 一 次 装载 的 目录 */ 
_ 1e32 s_algorithm usage_bitmap; /* 用 于 压缩 */ 
天灾 
* 性 能 提示 。 仅 当 设 置 了 EXT2_COMPAT_PREALLOC 标 志 时 ， 才 能 进行 目录 的 预 分 配 。 
_u8 s_prealloc blocks; /* 试图 预 分 配 的 块 数 */ 
_ u8 s_prealloc dir blocks; /* 试图 为 目录 预 分 配 的 块 数 */ 
_ ul6 s_ paddingl; 
7 类 
* 如 果 设置 了 EXT3_FEATURE_COMPAT_HAS_JOURNAL, 日 志 支 持 才 是 有 效 的 。 
Eh 
__ u32 s_reserved[190]; /* 填充 字 节 ， 补 齐 到 块 结尾 */ 
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结构 末 


尾 的 成 员 没 有 给 出 ， 
在 定义 各 个 字段 的 语义 之 前 


因为 Ext2 不 使 用 这 些 成 员 , 它们 仅 用 于 Ext3 。 相 关 原 因 





























部 分 字段 的 数据 类 型 都 是 _1e32、_1le16， 等 等 。 毫 无 例外 ， 这 些 都 是 指定 了 


字 节 序 是 小 端 序 。” 

















为 什么 没有 使 
型 。 因 此 ， 使 用 基 
间 切 换 可 移动 介质 上 














内 核 的 其 他 部 分 , 也 需要 位 
types.h 中 包含 的 特定 于 体系 结构 
类 型 的 正确 基本 数据 类 型 

但 只 使 用 口 正确 的 














jC 语 言 的 基本 类 型 ? 回想 一 下 ， 








会 在 9.3 节 解释 。 








青 与 成 员 的 数据 类 型 有 关 的 各 种 问题 。 我 们 可 以 看 到 ， 大 


位 长 的 整数 ， 采 用 的 











我 们 知道 不 同 处 到 

















本 类 型 将 导致 超级 块 格式 依赖 处 理 





J， 元 数据 必 
长 可 以 保证 且 不 随处 
的 文件 , 定义 了 一 系列 
特定 于 字 节 序 的 类 型 
数据 类 型 还 是 不 够 的 。 第 1 章 中 


须 总 是 以 相同 的 格式 存 








器 类 型 ， 这 显然 是 不 好 的 。 








器 以 不 同 的 位 长 来 表示 基本 类 


在 不 同 计算 机 系统 之 














嵌 ， 不 管 什么 类 型 的 处 理 






































理 器 改变 的 数据 类 型 为 此 ， 


类 型 (从 _s8 到 _u64)， 








的 映射 。 











列 同 样 与 CPU 类 型 相关 ， 


统 帮 


超级 块 结构 的 所 有 数值 时 ， 都 采 


为 确保 文件 系 


























接 基 于 这 些 定义 。 




















因此 我 们 又 过 到 














小 端 请 











的 本 机 格式 。 
byteorder/1i 


存储 ， 在 IA-32 和 
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EE 

















超级 块 结构 自 








le_endian 











这 是 通过 在 结构 末 
于 



































书 3 个 值 








所 














定义， 


民 据 其 名 称 和 相关 的 注释 ， 我 介 
那些 我 们 感 兴趣 的 成 员 ， 或 者 语义 不 是 很 清楚 
口 s_log_block_size 是 这 样 
0、 
分 别 限定 为 1 024 和 4 096， 


在 不 同 CPU 类 型 之 间 
.h 两 个 文件 











[sel 








据 类 型 ， 痢 需要 切换 字 节 序 ， 这 显然 能 够 为 I[A-32 和 AMD64 系 统 带 来 一 定 的 特 
身 包括 很 多 数值 ， 体 现 出 了 文 伯 
尾 增加 一 个 填充 成 员 来 解决 的 〈s_reserved)。 





了 大 端 序 和 小 端 序 的 问题 。 
E 不 同 计算 机 系统 之 间 的 可 移动 性 ，Ext2 文 件 系统 的 设计 者 决定 ， 在 硬 
格式 。 在 数据 读 入 内 存 时 ， 内 核 负 责 ; 
转换 字 节 序 的 例 程 ， 


F 系 统 






































~、 





的 块 长 


1、2， 对 应 上 




















] 就 可 以 很 清楚 
一 个 指 : 将 块 长 度 除 以 1024 之 后 , 蜂 
度 分 别 是 1024、2 048、4 096 字 节 。 
由 内 核 常数 EXT2_MIN 1 
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> 
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我 们 想 要 的 
改 ， 因 





为 它 表示 了 一 个 基本 站 
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块 长 度 必须 在 





用 


























确定 
这 不 是 


AP 
个 简 


个 合 至 


里 的 块 长 度 。 

















而 





降低 了 管 到 
口 s_blocks_per_group 和 s 
件 系统 时 ， 这 些 值 
选择 的 默认 设置 。 











E 员 的 负担 。 














必须 区 
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大 端 序 和 小 端 序 的 区 别 ， 并 不 影 
码 的 逻辑 不 出 现 相 关 的 | 


mke2fs 创 建文 件 系统 
的 文 件 系统 常数 。 系 统管 理 员 必须 根据 文件 
决定 该 值 时 ， 必 须 在 浪费 存储 空间 和 增加 管理 工作 量 


单 的 事情 。 然 而 ， 几 乎 所 有 的 发 布 版 都 根据 启发 式 经 验 提供 了 合理 的 默认 信 





期 间 指 定 。 文 件 系统 




















有 断 出 大 多 数 成 员 的 语义 ， 所 以 这 里 只 讨论 
下 取 以 二 为 底 的 对 数 。 当 前 ， 只 
最 小 和 最 大 的 块 长 度 当前 


LOCK_SIZE 和 EXT2_MAX_BLOCK_SIZE 


创建 以 后 ， 该 


句 。 
include/asm-arch/ 


以 便 控 制 到 所 用 CPU 


讲 过 多 字 节 数据 类 型 中 ， 最 高 和 最 低位 的 排 








得 上 存储 


各 这 种 格式 转换 为 CPU 
定义 在 byteorder/big_endian.h 和 
。 因 为 Ext2 文 件 系 统 的 这 些 数据 在 默认 情况 下 以 小 端 序 格式 
AMD64 类 型 的 CPU 上 无 需 转 换 。 而 在 诸如 Sparc 之 类 的 系统 上 ， 超 出 8 个 比特 位 的 数 
:能 优势 

的 一 般 性 质 。 超 级 块 的 长 度 总 是 1 024 字 节 。 



































日 








值 不 能 修 
的 预期 用 途 ， 来 














系统 






































之 间 进 行 平衡 ， 
， 从 












































_inodes_per_group 定 义 了 每 个 块 组 中 块 和 inode 的 数目 。 在 创建 文 
定 下 来 ， 其 后 就 不 能 再 修改 。 在 大 多 数 情况 下 ， 建 议 使 用 











mke2fs 

















向 数据 类 型 的 位 长 。 








动 化 的 源 代码 分 析 工 具 可 以 利用 











加 


I 题 。 例 如 ， 在 对 相关 的 类 型 进行 按 位 操作 时 。 














@ 如 果 文件 内 容 逐 字 节 解释 〈 通 常 就 是 这 样 )，CPU 的 字 贡 


中 ， 数 字 存 储 为 








文本 串 ， 避 免 了 字 节 序 的 问题 )。 而 在 











这 对 文件 内 容 没有 影响 ， 例 如 对 

















这 里 的 类 型 信息 ， 确 保 代 





于 文本 文件 (在 此 类 文件 

















男 一 方面 ， 声 音 文件 通常 必须 使 








适当 的 工具 (如 sox) 在 






































不 同 的 表示 之 间 转 换 ， 因 为 比特 位 的 排列 对 数据 的 二 进 制 解释 是 有 影响 的 。 
@) 请 注意 ， 内 核 当 前 没有 检查 上 限 。 
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口 s_magic 字 段 存 储 了 一 个 魔 数 。 该 数值 用 于 确认 装载 的 文件 系统 确实 是 Ext2 类 型 。 其 中 存储 的 
值 是 0xEF53 ， Ext2_SUPER_MAGIC 定义 (在 ext2_fs.h 中 )。 s_rev_level 和 
s_minor_rev_leve1 字 段 是 修订 号 ， 用 于 区 分 文件 系统 的 不 同 版 本 。 


UUUUOUUOUUWDO0OU0O0OU0O0O0O0OU0OO0OU0OU0O0OU0O0OU0OU0O0OU0U000 


口 s_qef_resuid 和 s_dqef_resgiq 字 段 指定 了 一 个 系统 用 户 的 用 户 ID 和 组 ID， 对 该 用 户 已 经 专 
] 分 配 了 一 定数 目的 块 。 对 应 的 块 数 存储 在 s_r_blocks_count 中 。 

这 些 块 其 他 用 户 无 法 使 用 。 该 特性 用 于 什么 目的 呢 ? 默认 情况 下 , s_gdef_resuid 和 和 s_ref_gid 
都 设置 为 0。 这 对 应 于 系统 的 超级 用 户 ( 或 root 用 户 )。 对 于 普通 用 户 看 来 空间 已 经 用 尽 的 文件 
系统 上 ， 该 用 0 这 种 额外 的 空闲 空间 通常 称 之 为 ] 口 口 (root reserve)。 

如 果 不 提供 这 种 保护， 能 发 生 一 些 情况 ， 例 如 ， 某 些 以 root ID 运行 的 守护 进程 或 服务 器 都 
不 能 再 启动 ， 2 3) 例如 ， 以 ssh 服 务 器 为 例 ， 它 在 进行 登录 时 必须 创建 一 个 状态 
文件 。 如 果 硬 盘 是 全 满 的 ， 则 没有 用 户 能 够 登录 ， 即 使 系统 管理 员 也 不 行 。 这 会 造成 严重 的 
事故 ， 特 别 是 对 于 远程 系统 ， 如 因特网 服务 器 。 
根 储备 (通常 在 创建 文件 系统 时 ， 留 出 可 用 空间 约 5%) 有 助 于 防止 这 样 的 事故 ， 并 向 超级 用 

户 (如 果 上 述 变 量 中 的 UID/GID 进 行 相应 的 修改 , 也 可 以 是 其 他 用 户 ) 提供 了 一 定 的 安全 裕 度 ， 
确保 在 硬盘 接近 全 满 时 能 够 采取 对 应 的 措施 。 

口 文件 系统 一 致 性 检查 借助 于 3 个 变量 执行 : s_state、s_lastcheck 和 s_checkinterval。 第 
一 个 用 于 指定 文件 系统 的 当前 状态 。 在 分 区 正确 地 卸载 时 ， 其 状态 设置 为 ExT2_VALID_FS (和 定 
义 在 ext2_fs.h 中 )， 向 mount 程 序 表 明 该 分 区 没有 问题 。 如 果 文 件 系统 未 能 正确 地 卸载 〈 例 
如 , 由 于 通过 切断 电源 来 关闭 计算 机 ) 该 变量 仍然 保持 在 文件 系统 上 次 装载 后 设置 的 状态 值 ， 
即 EXT2_ERROR_FS。 在 这 种 情况 下 , 下 一 次 闭 载 文件 系统 时 , 将 自动 触发 一 致 性 检验 , 由 e2fsck 
进行 。 
不 正确 的 缀 载 不 是 发 起 一 致 性 检验 的 唯一 原因 。 上 一 次 检查 的 日 期 记录 在 s_lastcheck。 如 
果 在 该 日 期 之 后 ， 时 间 已 经 过 了 一 定 的 阔 值 (s_checkinterval)， 那 么 即使 文件 系统 的 状态 
是 干净 的 ， 也 会 执行 一 次 检查 。 
第 三 种 (也 是 最 常用 的 ) 强制 执行 一 致 性 检验 的 方法 ， 是 借助 s_max_mnt_count 和 
s_mnt_count 计 数 器 实现 的 。 后 者 计 算 了 上 一 次 检查 以 来 装载 操作 的 次 数 ， 而 前 者 是 两 次 检查 
之 间 可 以 执行 的 装载 操作 的 最 大 数目 。 当 后 者 超过 前 者 时 ， 则 发 起 一 致 性 检验 。 

口 Ext2 文 件 系统 在 最 初 引入 时 当然 是 不 完美 的 (类 似 于 任何 其 他 软件 )， 而 且 永 远 也 不 会 完美 。 技 
术 的 发 展 使 得 系统 不 断 改 变 和 修改 ， 我 们 都 可 以 理解 ， 这 些 改变 应 该 尽 可 能 容易 地 集 成 到 现 
存 的 方案 中 。 毕 竞 ， 没 人 会 为 了 一 个 新 函数 带 来 的 好 处 ， 而 每 隔 两 星期 就 完全 重 构 系统 。 因 | 
此 ，Ext2 文 件 系 统 的 设计 是 非常 谨慎 的 ， 确 保 了 能 够 比较 容易 地 将 新 特性 集成 到 旧 的 设计 中 。 
为 此 ， 超 级 块 结构 中 有 3 个 成 员 专 用 于 描述 额外 的 特性 : s_feature compat、s_feature_ 
incompat 和 s_ feature_ro_compat。 这 些 变量 的 名 称 表 明 ， 新 的 函数 将 分 为 3 个 不 同 的 类 别 。 
和 兼容 特性 (Compatible Feature): 由 s_feature_compat 指 定 ， 可 以 用 于 文件 系统 代码 的 新 版 

本 ,对 旧版 本 没有 负面 影响 (或 功能 损伤 )。 此 类 增强 的 例子 包括 ，Ext3( 在 9.3 节 全 面 讨论 ) 
引入 的 日 志 特 性 ， 用 ACL (0D0O0ODOD0 )， 来 文 持 细 粒 度 的 权限 分 配 ， 这 比 经 典 UNIX 系 统 对 
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用 户 / 组 /其 他 指定 读 / 写 /执行 权限 的 做 法 要 强大 ,每 个 内 核 版 本 所 知 的 所 有 增强 的 完整 列表 位 
于 ext2_fs.h， 且 以 预 处 理 器 名 称 EXT2_FEATURFE_COMPAT_FEATURE 定 义 。 
内 核 2.6.24 包 含 以 下 兼容 特性 : 

































































<ext2_fs.h> 

define EXT2_FEATURE COMPAT_ DIR_ PREALLOC 0x0001 
define EXT2_FEATURE COMPAT IMAGIC_ INODES 0x0002 
define EXT3_FEATURE COMPAT_ HAS_JOURNAL 0x0004 
define EXT2_FEATURE_COMPAT_EXT_ATTR 0x0008 
define EXT2_FEATURE COMPAT RESIZE_INO 0x0010 
define EXT2_FEATURE COMPAT DIR_INDEX 0x0020 
define EXT2_FEATURE COMPAT_ANY 区 下 于 下 于 于 于 下 于 






































EXT2_FEATURE_COMPAT_ANY 常 数 可 用 于 测试 是 否 提 供 了 此 类 别 的 0 D 特性 。 
只 读 特性 (Read-Only Feature): 在 使 用 旧版 本 的 文件 系统 代码 时 ， 此 类 增强 不 会 损害 对 文 
件 系 统 的 读 访 问 。 但 写 访问 可 能 导致 错误 和 文件 系统 的 不 一 致 。 如 果 用 s_feature_ro_ 
ompat 设 置 了 只 读 特 性 ， 该 分 区 就 可 以 用 只 读 方式 装载 ， 禁止 写 访问 。 
读 特 性 的 一 个 例子 是 ID DODD (sparse superblock) 特性 ， 它 通过 不 在 分 区 的 每 个 块 组 中 
存储 超级 块 的 做 法 ,来 节省 空间 。 因 为 内 核 通 常 只 使 用 第 一 个 块 组 中 的 超级 块 (在 稀 纹 超 
块 特性 启用 时 ， 该 超级 块 仍然 存在 )， 从 读 访 问 的 角度 来 看 是 没有 问题 的 。 如 果 发 生 了 写 
作 ， 旧 版 本 的 文件 系统 代码 将 在 文件 系统 卸载 时 修改 其 余 的 超级 块 副本 《〈 现 在 已 经 不 存 
因而 履 盖 了 重要 的 数据 。 
类 似 于 兼容 特性 ，ext2_fs .h 提 供 了 当前 内 核 版 本 已 知 的 所 有 此 类 特性 的 一 个 列表 。 同 样 定 
义 了 预 处 理 器 变量 EXT2_FEATURE_RO_COMPAT_FEATURE, 可 用 于 为 每 个 增强 或 扩展 分 配 一 个 
一 的 数值 。 

<ext2_fs.h> 
#define ExT2 
#define EXT2 


#define EXT2 
#define EXT2 


不 兼容 特性 〈Incompatible Feature): 由 s_incompat_features 指 定 ， 如 果 使 用 了 旧版 本 的 
代码 , 则 将 导致 文件 系统 不 可 用 。 如果 存在 此 类 内 核 不 了 解 的 增强 , 那么 不 能 装载 文件 系统 。 
EXT2_FEATURE_INCOMPAT_FEATURE 宏 为 不 兼容 的 扩展 分 配 数 值 。 此 类 增强 的 一 个 例子 是 即 
时 压缩 ， 将 所 有 文件 以 压缩 形式 存储 。 对 于 无 法 解压 文件 内 容 的 文件 系统 代码 而 言 ， 无 论 读 
写 压 缩 过 的 文件 内 容 都 是 无 意义 的 。 

其 他 不 兼容 特性 有 : 
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滴 港 朴 六 
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RO_COMPAT_SPARSE_SUPER 0x0001 
RO_COMPAT_ LARGE_FILE 0x0002 
RO_COMPAT_BTREE DIR 0x0004 
RO_COMPAT_ANY 各 交 在 于 于 于 三 注 于 二 
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ext2_fs.h 

#define EXT2_FEATURE_INCOMPAT_COMPRESSION 0x0001 
#define EXT2_ FEATURE INCOMPAT_ FILETYPE 0x0002 
#define EXT3_FEATURE INCOMPAT RECOVER 0x0004 
#define EXT3_FEATURE_ INCOMPAT JOURNAL DEV 0x0008 
#define EXT2_FEATURE INCOMPAT META_BG 0x0010 
#define EXT2_FEATURE INCOMPAT_ANY Oxffffffff 














这 3 个 成 员 都 是 位 图 ， 各 个 比特 位 分 别 表示 特定 的 内 核 增强 。 这 使 得 内 核能 够 判断 《借助 预 
定义 的 常数 ) 哪 种 特性 是 它 所 了 解 的 ， 能 够 用 于 文件 系统 。 内 核 还 能 够 扫描 它 不 了 解 的 特性 
项 《判断 不 了 解 的 比特 位 是 否 置 位 )， 并 根据 特性 的 类 别 ， 确 定 如 何 处 理 文 件 系统 。 
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后 面 在 讨论 增加 新 特性 时 ， 会 提 到 其 中 一 些 字段 。 

2. 组 描述 符 

如 图 9-2 所 示 ， 每 个 块 组 都 一 个 组 描述 符 的 集合 ， 紧 随 超级 块 之 后 。 其 中 保存 的 信息 反映 了 文件 
系统 每 个 块 组 的 内 容 ， 因 此 不 仅 关系 到 当前 块 组 的 数据 块 ， 还 与 其 他 块 组 的 数据 块 和 inode 块 相关 。 

用 于 定义 单个 组 描述 符 的 数据 结构 比 超级 块 结构 短 得 多 ， 如 下 述 源 代码 所 示 : 

<ext2_fs.h> 


struct ext2_group_desc 


















































































































































le32 bg_block bitmap; /* 块 位 图 块 */ 
le32 bg_inode _ bitmap; /* inode 位 图 块  */ 
le32 bg_inode_ table; /* inode 表 块 */ 
le16 bg_free_blocks_count; /* 空闲 块 数 */ 
le16 bg_free inodes_count; /* 空闲 inoae 数 目 */ 
le16 bg_used dirs_count;  /* 目录 数目 天 / 














lel16 bg_pad; 
_ le32 bg_reserved[3]; 
得 


在 组 描述 符 集 合 中 ， 内 核 使 用 该 结构 的 一 个 副本 来 描述 一 个 对 应 的 块 组 。 

每 个 组 描述 符 的 内 容 不 仅 包 括 状态 项 ,表示 空闲 块 的 数目 (bg_free_blocks_count)、 空 闲 inode 
数目 (bg_free_inodqes_count) 以 及 目录 的 数目 (bg_useqd_qdirs_count)， 还 包括 (更 重要 的 ) 块 
和 inode 位 图 所 在 的 块 写 。 它 们 分 别 是 bg_block_pbitmap 和 bg_inode_pbitmap， 二 者 都 是 32 位 数字 ， 唯 
一 地 描述 了 硬盘 上 的 一 个 块 。 

bg_block bitmap 引 用 的 块 不 用 来 存储 数据 。 其 中 每 个 比特 位 都 表示 当前 块 组 中 的 一 个 数据 块 。 
如 果 一 个 比特 位 置 位 ， 则 表明 对 应 的 块 正在 由 文件 系统 使 用 ;， 否则， 该 块 是 可 用 的 。 由 于 第 一 个 数据 
块 的 位 置 是 已 知 的， 而 所 有 数据 块 是 按 线性 顺序 排列 的 ， 因 此 内 核 很 容易 在 块 位 图 中 比特 位 置 和 相关 
块 的 位 置 之 间 转换 。 

同样 的 方法 用 于 inode 位 图 bg_inode_pbitmap。 该 成 员 也 是 一 个 块 号 ， 对 应 块 的 各 个 比特 位 用 于 
描述 一 个 块 组 的 所 有 inode。 由 于 inode 结 构 所 在 的 块 和 inode 结 构 的 长 度 都 是 已 知 的 ， 因 此 内 核 很 容易 
在 位 图 中 的 比特 位 置 和 相应 的 inode 在 人 硬盘 上 的 位 置 之 间 转换 (也 参见 图 9-2)。 
每 个 块 组 中 都 包含 了 文件 系统 中 所 有 块 组 的 组 描述 符 。 因 此 从 每 个 块 组 ,都 可 以 确定 系统 中 所 有 
其 他 块 组 的 下 列 信息 : 
口 块 和 inode 位 图 的 位 置 ; 
口 inode 表 的 位 置 ; 
口 空闲 块 和 inode 的 数目 。 
书 作 块 和 inode 位 图 的 数据 块 ， 则 只 是 用 于 一 个 块 组 ， 而 不 会 复制 到 文件 系统 的 每 个 块 组 。 实 际 
上 ， 文 件 系 统 中 的 每 个 块 组 ， 都 具有 一 个 块 位 图 和 inode 位 图 。 每 个 块 组 都 有 一 个 用 于 块 位 网 的 local 
块 ， 和 一 个 用 于 inode 位 图 的 extra 块 。 但 从 D D 块 组 ， 都 可 以 访问 所 有 其 他 块 组 的 块 位 图 和 inode 位 图 。 
因为 可 以 借助 组 描述 符 中 的 数据 项 ， 来 确定 其 位 置 。 
于 为 文件 系统 的 块 长 是 可 变 的 ， 一 个 块 位 图 可 表示 的 块 的 数目 也 是 可 变 的 。 如 果 块 长 度 为 2 048 
字 节 ， 那 么 一 个 块 有 2 048x8=16384 个 比特 位 ， 可 用 于 描述 数据 块 的 状态 。 类 似 地 ， 块 长 为 1 024 和 4 096 
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时 ， 一 个 块 用 作 位 图 ， 可 管理 8 192 和 32 768 个 块 。 这 些 数据 可 参见 表 9-2。 
在 我 们 的 例子 中 ， 只 使 用 两 个 字 节 存储 块 位 图 ， 因 此 刚好 可 以 寻 址 16 个 块 。 保存 文 件 系统 文件 的 
实际 内 容 〈 和 用 作 间 接 的 数据 ) 的 数据 块 ， 位 于 块 组 的 末尾 。 
表 9-2 ” 块 组 中 最 大 的 块 数目 
块 长 度 可 管理 的 块 数 
1 024 8 192 
2 048 16 384 
4096 32 768 
将 分 区 划分 为 块 组 ， 是 经 过 系统 化 的 考虑 的 ， 这 种 做 法 显著 提高 了 速度 。 文 件 系统 总 是 试图 将 广 
个 的 内 容 存储 到 一 个 块 组 中 ， 以 最 小 化 磁头 在 inode、 块 位 图 、 数 据 块 之 间 寻 道 的 代价 。 通 常 ， 这 个 目 
的 是 可 以 达到 的 ， 当然 也 存在 一 些 情况 ， 由 于 单个 块 组 中 没有 足够 的 空间 ,致使 文件 散布 到 多 个 块 组 。 
1 于 块 长 度 的 限制 ， 一 个 块 组 只 能 管理 一 定数 目的 数据 块 ， 因 而 对 文件 长 度 有 最 大 限制 (参见 9-2)。 
如 果 超 出 限制 ， 文 件 就 必须 散布 到 几 个 块 组 ， 因 此 寻 道 的 距离 会 更 长 ， 进 而 会 降低 性 能 。 
3. inode 
每 个 块 组 都 包含 一 个 inode 位 图 和 一 个 本 地 的 inode 表 ，inode 表 可 能 延续 到 几 个 块 。 位 图 的 内 容 与 
本 地 块 组 相关 ， 不 会 复制 到 文件 系统 中 任何 其 他 位 置 。 
inode 位 图 用 于 概述 块 组 中 己 用 和 空闲 的 inode。 通 常 ， 每 个 inode 对 应 到 一 个 比特 位 ， 有 “已 用 ” 
和 “ 空 闪 ”两 种 状态 。inode 数 据 保存 在 inode 表 中 ， 包 括 了 许多 顺序 存储 的 inode 结 构 。 这 些 数据 如 何 
保存 到 存储 介质 ， 由 下 列 元 长 的 结构 定义 : 
<ext2_fs.h> 
struct ext2_inoqe { 
_ lel6 i mode; /* 文件 模式 */ 
_ 1e1l6 i uigd; /* 所 有 者 UID 的 低 16 位 */ 
_ le32 i_ size; /* 长 度 ， 按 字 节 计算 */ 
_ le32 i atime; /* 访问 时 间 */ 
_ le32 i_ctime; /* 创建 时 间 */ 
_ le32 i mtime; /* 修改 时 间 */ 
_ le32 i dtime; /* 删除 时 间 */ 
le16 1 gid; /* 组 ID 的 低 16 位 */ 
le16 i_links_count; /* 链接 计数 */ 
le32 i_blocks; /* 块 数目 */ 
le32 i_flags; /* 文件 标志 */ 
Unionm, 
struct { 
_ le32 1 i reservedl; 
} Linmuwl 
struct { 
} hural; 
struct { 
} masix1; 
} osdl; /* 特定 于 操作 系统 的 第 一 个 联合 */ 
le32 i_block[EXT2_N_BLOCKS];  /* 块 指针 ( 块 号 ) */ 
_ le32 i generation; /* 文件 版 本 ， 用 于 NFS */ 
_ le32 i _ file acl; /* 文件 ACL */ 
_ le32 i dir acl; /* 目录 ACL */ 
le32 i_faddr; /* 碎片 地 址 */ 














Linux， 而 且 也 用 于 GNU 的 HURD 内 核 ? 和 Masix 试 验 性 
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其 中 以 
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struct { 
_u8 1_i frag; /* 和 碎片 编号 */ 
_u8 1_ i fsize; /* 碎片 长 度 */ 
Wl i_padil; 
le16 1 i uiqd high; /* 这 两 个 字段 */ 
le1l6 1 i gid high; /* 此 前 定义 为 reserved2[0] */ 
32 1_i reserved2; 
} 14mux2.; 
struct { 
} hurad2; 
strucet { 
} masix2; 
} osqg2; /* 特定 于 操作 系统 的 第 二 个 联合 */ 
3 
该 结构 包含 两 个 特定 于 操作 系统 的 联合 ， 根 据 用 途 接受 不 同 的 数据 。Ext2 文 件 系 统 不 仅 用 于 
































发 )。 上 述 代 码 中 的 结构 只 给 
在 结构 开 S 

















等 等 )。 


件 ， 等 等 





头 处 ， 是 一 组 与 inode 对 应 的 文件 属 怕 
F 多 成 员 ， 第 8 章 讨论 了 一 般 虚 拟 文件 系统 的 inode 结 构 。 
口 1_mode 保 存 了 访问 权限 〈 按 照常 见 的 UNIX 方 案 ， 月 











出 了 特定 于 Linux 的 成 员 。 








口 ctime、atime、mtime 和 qtime 是 时 间 惟 ， 语 义 如 下 ; 


量 atime 给 出 了 
曙 mtime 给 出 了 


曙 ctime 给 出 了 

















一 次 访问 文件 的 时 间 ; 
一 次 修改 文件 的 时 间 ; 
上 一 次 修改 inode 的 时 间 ; 





和 dtime 给 出 了 文件 删除 的 时 间 。 


所 有 的 时 间 惟 都 以 常规 的 UNIX 格 式 存 储 ， 表 示 从 1970 年 1 月 1 日 午夜 以 来 过 去 




















操作 系统 (Ext2 的 主要 开发 者 之 一 参与 了 Masix 


























用 户 和 组 ID 由 32 位 组 成 ， 








于 历史 原因 ， 划 分 为 








部 是 1_i_uiqg high 和 1_i_giq high。 


为 什么 采用 这 种 相当 奇怪 


时 ，16 位 数字 对 于 用 户 ID 和 组 ID 已 经 足够 


这 个 数字 看 起 来 够 大 的 ， 
的 邮件 服务 器 。 为 文 持 32 








的 方法 ， 而 不 是 直接 存 


个 字段 。 低 半 部 是 1_uida 和 :1 gida， 而 高 半 

















]， 

















但 这 个 假定 被 证 











因为 这 最 多 能 够 容许 2%=65 536 个 
明 是 错 的 ， 特 别 是 在 口 
UID/GID 的 增强 而 无 需 新 的 文件 系统 ， 
中 一 个 专用 于 扩展 的 32 位 数据 项 ， 划 分 为 两 个 16 位 数据 项 。 与 现存 的 数据 成 员 联 合 使 用 ， 就 


E 有 关 的 数据 。 读 者 看 过 第 8 章 后 ， 可 能 已 经 熟悉 了 





日 户 /组 /其 他 )》 和 文件 类 型 〈 目 录 、 设 备 文 


的 秒 数 。 
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濡 两 个 简单 的 32 位 数 ? 在 构思 Ext2 文 件 系统 





Ni 











] 户 。 当 时 ， 
DD 的 系统 上 ， 例 如 商业 性 
将 osq1 特 定 于 Linux 的 字段 

















可 以 表示 32 位 宽 的 UID/GID， 可 以 支持 多 达 2”= 4 294 967 296 个 用 户 。 


i_size 和 i_blocks 分 别 以 字 节 和 块 为 单位 指 



































EE 了 文件 长 度 ， 这 里 总 是 假定 块 长 度 为 512 字 节 








(这 个 单位 总 是 常数 ， 与 文 伯 





系统 底层 使 








] 的 块 长 度 无 关 )。 初 看 起 来 ， 很 容易 假定 i_blocks 


















































化 ， 情 况 不 是 这 样 。UDDD (file hole) 























总 是 能 从 i_size 推 断 出 来 。 但 由 于 Ext2 文 件 系 统 的 优 
方法 用 来 确保 稀 疏 文件 不 浪费 空间 。 该 方法 将 空洞 占用 的 空间 降 到 最 人 








氏 ， 所 以 需要 两 个 字段 





来 存储 文件 长 度 《〈 分 别 以 字 节 和 块 为 单位 )。 





G) Hurd = Hird of UNIX replacing daemon，Hird = Hurd of interface representing depth， 这 是 个 递归 的 缩 略 词 。Hurd 为 


大 家 所 熟知 的 一 点 是 ， 
终 (或 至 少 可 


























开发 者 声称 它 就 在 








的 》 版 本 还 只 是 处 卫 














年 左右 完成 。 遗 憾 的 是 ， 这 个 传说 可 是 儿 乎 十 年 前 的 弹 


FF 地平线 状态 。 





有 情 了 ， 而 最 
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口 指向 文件 数据 块 的 指针 〈 块 号 ) 保存 在 i_block 数 组 中 ， 该 数组 有 EXT2_N_BLOCKS 个 数组 项 。 
默认 情况 下 ，EXT2_N_BLOCKS 设 置 为 12 + 3。 前 12 个 元 素 用 于 寻 址 直接 块 ， 后 3 个 用 于 实现 简 

单 、 二 次 和 三 次 间接 。 尽 管理 论 上 该 值 可 以 在 编译 时 改变 ， 但 一 般 不 建议 这 样 做 ， 因 为 这 可 
能 导致 与 所 有 其 他 Ext2 标 准 格式 的 不 兼容 。 

口 1_l1inks_count 是 一 个 计数 器 ， 指 定 了 指向 inode 的 便 链 接 的 数目 。 

口 1_file ac1 和 i aqir acl 用 于 支持 ACL (OODODODOD ) 的 实现 ACL 与 经 典 的 UNIX 方 法 相 比 ， 

能 够 细 粒 度 地 控制 访问 权限 。 

口 inode 的 一 些 成 员 已 经 定义 , 但 尚未 使 用 。 这 些 用 于 未 来 的 新 特性 。 例 如 ,i_fadgr、1_i_frag 
和 1_i_fsize 用 于 存储 人 碎片 的 数据 ， 以 便 将 儿 个 小 文件 的 内 容 分 配 到 一 个 块 上 存储 。 

每 个 块 组 有 多 少 个 inode? 答案 取决 于 文件 系统 创建 时 的 设置 。 在 创建 文件 系统 时 ， 每 个 块 组 的 
inode 数 ， 可 以 设置 为 任意 (合理 的 ) 值 。 这 个 数目 保存 在 s_inodes_per_group 字 段 中 。 因 为 inode 
结构 的 长 度 固 定 为 120 字 节 ， 利 用 inode 数 目 和 块 长 度 即 可 算出 块 组 中 的 inode 会 占用 多 少 个 块 。 不 管 块 
每 个 块 组 的 inode 数 目的 默认 设置 是 128。 对 大 多 数 应 用 场景 来 说 ， 这 都 是 一 个 可 接受 的 值 。 

4. 目录 和 文件 

我 们 现在 来 讨论 目录 的 表示 ， ER 如 第 8 章 所 述 ， 在 经 典 的 UNIX 文 件 
系统 中 ， 目 录 不 过 是 一 种 特殊 的 文件 ， 其 中 是 inode 指 针 和 对 应 的 文件 名 列表 ， 表 示 了 当前 目录 下 的 文 
件 和 子 目录 。 对 于 Ext2 文 件 系 统 ， ey 每 个 目录 表示 为 一 个 inode， 会 对 其 分 配 数 据 块 。 数 据 块 
中 包含 了 用 于 描述 目录 项 的 结构 。 在 内 核 源 代码 中 ， 目 录 项 结构 定义 如 下 ， 
















































































































































































































































































































































































































































































<ext2 fs.h> 

struct ext2 dir entry 2 { 
_ le32 jinode; /* inode 编 号 */ 
_ lel6 rec_len; /* 目录 项 长 度 */ 
_u8 name_len; /* 名 称 长 度 */ 
_u8 file_ type; 
char name [EXT2_NAME_LEN]; /* 文件 名 */ 


typedef struct ext2_dir entry 2 ext2 dirent; 
typedef 语 句 定义 了 一 个 较 短 的 类 型 别名 ext2_qdirent， 以 便 在 内 核 源 代码 中 代替 struct 


ext2_dir_ entry_. 2 使 用 。 
各 个 字段 的 名 称 应 该 很 清楚 了 ， 因 为 它们 是 直接 基于 第 8 章 介 绍 的 方案 。inode 是 一 个 指针 ， 指 问 
目录 项 的 inode。name_len 是 目录 项 名 称 字 符 串 的 长 度 。 名 称 本 身 保存 在 name[] 数 组 中 ， 长 度 不 超过 


EXT2_NAME_LEN 个 字符 (默认 值 是 255 )。 


加 
Jodo 


file_type 指 定 了 目录 项 的 类 型 。 该 变量 的 可 能 值 ， 由 以 下 枚 举 类 型 定义 : 
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<ext2 fs.h> 

S35 

enum{ 
EXT2_FT_UNKNOWN, 
EXT2_FT_REG_FILE, 
EXT2_PT DIR, 
EXT2_FT_CHRDEYV, 
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EXT2_FT_BLKDEYV, 
EXT2_FT_FIFO, 
EXT2_FT_SOCK, 
EXT2_FT_SYMLINK, 
EXT2_FT_ MAX 








3 
EXT2_FT_REG_FILE 使 用 最 频繁 , 它 表 示 普 通 文 件 (这 里 我 们 不 讨论 )。EXT2_FT_DIR 也 经 常 出 现 ， 
表示 目录 。 其 他 的 常数 表示 字符 特殊 文件 和 块 特殊 文件 (cHRDEV 和 BLKDEV)、FIFO (命名 管道 , FIFO)、 
套 接 字 (SocK) 和 符号 链接 (SYMLINK)。 

rec_len 是 目录 项 结构 中 唯一 的 语义 不 那么 显然 的 字段 。 它 是 一 个 偏 移 量 ， 表 示 从 rec_len 字 段 
末尾 到 下 一 个 rec_len 字 段 末 尾 的 偏 移 量 ， 单 位 是 字 节 。 这 使 得 内 核能 够 有 效 地 扫描 目录 ， 从 一 个 
录 项 跳 转 到 下 一 个 目录 项 。 图 9-6 根 据 例子 ， 给 出 了 不 同 的 目录 项 在 硬盘 上 的 表示 方式 。 
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图 9-6 ”Ext2 文 件 系统 








1s 列 出 的 目录 内 容 如 下 : 


wolfgang@meitner> 1s -la 





total 20 

drwxr-xr-x 3 wolfgang users 4096 Feb 14 12:12 . 

drwxrwxrwt 13 wolfgang users 8192 Feb 14 12:12 .. 

brw-r--r-- 1 wolfgang users By 0 Feb 14 12:12 harddisk 

lrwxrwxrwx 1 wolfgang users 14 Feb 14 12:12 linux -> /usr/src/linux 
-rw-r--r-- 1 wolfgang users 13 Feb 14 12:12 sample 

drwxr-xr-x 2 wolfgang users 4096 Feb 14 12:12 sources 




















前 两 项 总 是 .和 ..， 分 别 指 癌 当前 目录 和 父 目录 。 在 图 9-6 中 ，rec_len 的 语义 也 是 很 清楚 的 。 它 
表示 从 当前 目录 项 的 rec_len 末 尾 开 始 ， 到 下 一 个 目录 项 的 name_len 开 头 的 偏 移 量 字 节 数 。 
文件 系统 代码 在 从 目录 删除 一 项 时 ， 会 利用 该 信息 。 为 不 必 移动 目 录 文 件 的 相当 一 部 分 内 容 ， 会 
将 删除 项 D 口 一 项 的 rec_len 设 置 为 一 个 值 ， 跳 过 删除 项 ， 指 向 删除 项 D D 的 一 项 。 前 面 列 出 的 目录 
内 容 ， 并 不 包含 图 9-6 中 的 aeldair 目 录 ， 因 为 该 目录 已 经 被 删除 了 。aelair 之 前 一 项 的 rec_len 字 段 
是 32， 这 使 得 文件 系统 代码 在 扫描 目录 内 容 时 ， 直 接 跳 到 gelqir 的 下 一 项 sample。 用 于 删除 文件 或 
inode 的 详细 机 制 ， 将 在 9.2.4 节 讲述 。 
很 自然 ， 文 件 也 由 inode 表 示 。 我 们 很 清楚 普通 数据 文件 的 表示 方法 ， 但 有 一 些 文件 类 型 ， 文 件 
系统 必须 特别 关注 。 它 们 包括 符号 链接 、 设 备 文件 、 命 名 管道 和 套 接 字 。 

文件 的 类 型 并 未 定义 在 inode 自 身 ， 而 是 在 对 应 目录 项 的 file_type 字 段 中 。 

































































































































































































































































日 对 于 不 同 的 文件 类 
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型 ，inode 的 内 容 也 会 不 同 。 应 该 


























录 和 3 


























NE 
省 2 
工 / 忆 \ 革 





由 ， A 有 





型 都 可 以 使 用 inode 中 的 信息 完全 描述 。 


的 数据 结构 ， 持 久 驻 留 在 物理 
么 不 将 所 有 的 文件 系统 
的 ， 
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两 个 结构 中 与 文件 


ext2_inode_info 结 


的 块 位 图 和 inode 








口 口 口 口 口 的 目标 路 径 长 / 











身 没有 提供 保存 符号 名 
个 小 技 ] 
节 )。 对 于 符 
如 果 目 标 路 径 名 超过 60 
D0O00、000D0 和 





号 链接 ， 该 数组 扮 汉 


连接 的 

















度 如 果 小 于 60 个 字符 ， 
标 路 径 名 的 字段 〈 这 事实 上 会 
万 。i_pblock 数 组 通常 用 于 保存 文件 数据 块 的 地 址 ， 
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内 容 完 全 保 
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5 用 硬盘 
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15 个 32 位 数据 项 组 成 ( 共 
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要 的 一 些 数 据 保存 在 VFS 的 inode 结 








县 都 可 以 据 此 重建 )。 在 
1 于 设备 文件 没有 数据 
5. 内 存 中 的 数据 结构 
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硬盘 


块 ， 这 不 会 造 IE 告 成 任何 








为 避免 经 常 从 低速 的 人 硬盘 读 取 第 
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内 存 中 。 这 相 








中 (i 


访问 速度 就 4 


色 有 所 不 同 ， 
系统 分 配 一 个 数 


过 inode 





cdev 月 
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于 存储 链接 
居 块 来 存 
PF 的 信息 完全 描述 。 
字符 设备 ，i_bqdev 月 
上 ,数据 块 指 针 数组 的 第 一 个 元 素 i_blo 





目标 路 径 名 。 
嵌 该 字符 串 。 
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问题 。 















































在 实际 上 行 不 通 ， 
位 图 。 
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虚拟 文件 系统 
， 名 称 分 别 是 s_fs_inof 和 i 
系统 无 关 
构 用 于 该 
ext2_sb_info 定 义 如 下 : 


<ext2 fs_sb.h> 

struct ext2_sb_ info { 
unsigned long 
unsigned long 
unsigned long 
unsigned long 
unsigned long 
unsigned long 
unsigned long 
unsigned long 
unsigned long 
unsigned long 
unsigned long 
unsigned long 
struct buffer . 
































理 数 据 保 存在 物 至 
因为 对 L 


在 struct super_block 和 struct 


目的 。 后 者 与 硬盘 上 站 





EE 内存 中 





_private。 


的 数据 成 员 所 未 能 








〈 定 


这 两 个 数据 成 员 
函 盖 的 信 








s_frag_ size; 
s_frags_per_block; 


s_frags_per_group; 


s_blocks_ per_group; 
s_inodes_per_group; 


s_itb per_group; 
sgdb_count:; 
s_desc_ per_block; 
s_groups_count; 
s_overhead_last; 
s_blocks_last; 
head * s_sbh; 


struct ext2_super block * s_es; 
struct buffer head ** s_ group_desc; 


unsigned long 
unsigned long 


s_mount_opt; 
s_sb_block; 


uid t s_resuid; 
gid t s_resgid; 


unsigned short 


Smount_ states 





unsigned short s_pad; 
int s_addr per block bits; 
int s_desc per block bits; 




















QD 也 包括 链接 








标 路 径 名 超出 60 个 字符 的 符号 链接 。 


s_inodes per block; 


的 对 应 物 和 


He 4 


付 写 


构 ，Linux 将 这 些 乡 
岂 了 很 多 ， 也 减少 
期 将 修改 写 回 磁盘 
吉 字 节 计 算 的 大 硬盘 来 说 (现在 和 





吉 构 


链接 使 用 








了 同样 的 技巧 。 





此 使 


























包含 的 最 重要 的 信息 














有 常见 )， 需 要 大 























) ? 尽管 这 在 理 t 
































量 内 





t inode 结 构 分 别 


的 数据 块 。 所 有 其 他 类 




















了 一 
60 个 字 


内 存 中 ， 男 外 还 需 
于 块 设备 ， 所 有 信 
用 于 存储 其 他 信息 。 


保存 在 特别 
了 与 硬盘 的 交互 。 那 么 为 什 
企 上 是 可 和 
j 存 来 保存 所 
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提供 了 一 个 特定 于 文件 系统 的 成 
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各 种 文件 系统 的 实现 使 用 
。Ext2 文件 系统 将 ext2_sb_info 和 
比 ， 没 什么 特别 之 处 。 
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指向 缓冲 区 中 超级 块 的 

















含 了 超级 


可 容纳 和 
件 系统 中 岂 
上 一 次 计算 管 
上 一 次 计算 
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块 的 缓冲 区 
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肯 针 */ 














， 用 于 存储 这 
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int s_inode size; 

int Ss. first ino: 

spinlock t s_ next_gen lock; 

U32 s_next_ generation; 

unsigned long s_dir count; 

u8 *s_debts; 

struct percpu_counter s_freeblocks_counter; 
struct Percpu_counter s_freeinodes_ counter; 
struct percpu_ counter s_dirs_ counter; 
struct blockgroup_lock s_blockgroup_lock; 





结构 定义 中 ,我 们 比较 感 兴趣 的 是 这 样 一 个 事实 : 它 使 用 了 特定 于 机 器 的 数据 类 型 ， 而 不 是 
We (u32 等 )。 这 是 因为 ， 没 必要 在 不 同 机 器 的 内 存 中 交换 各 种 数据 的 不 同 表 示 。 尽 
管 我 们 根据 用 于 磁盘 存储 的 超级 块 定义 ， 已 经 熟悉 了 该 结构 的 大 多 数 成 员 ， 但 有 一 些 成 员 是 用 于 内 存 
表示 的 版 本 所 特有 的 。 

口 s_mount_opt 保 存 了 装载 选项 ， 而 当前 装载 状态 保存 在 s_mount_state。 下 列 标志 可 用 于 


s_mount_opt: 















































































































































































































































































































































<ext2_fs.h> 

define EXT2_MOUNT_CHECK 0x0001 /* 进行 装载 时 检查 */ 

define EXT2_MOUNT OLDALLOC 0x0002 /* 不 使 用 新 的 0rlov 分 配器 */ 

define EXT2_MOUNT_GRPID 0x0004 /* 在 目录 所 在 的 块 组 中 创建 文件 */ 
define EXT2 MOUNT_ DEBUG 0x0008 /* 一 些 调试 信息 */ 

define EXT2 _ MOUNT ERRORS_CONT 0x0010 /* 出 现 错误 时 继续 */ 

define EXT2_MOUNT_ERRORS_RO 0x0020 /* 遇 到 错误 时 ， 以 只 读 方式 重新 装载 文件 系统 */ 
define EXT2_MOUNT_ERRORS_PANIC 0x0040 /* 过 到 错误 时 ， 进 入 内 核 恕 懂 */ 

define EXT2_ MOUNT MINIX_ DF 0x0080 /* 模拟 Minix statfs */ 

define EXT2_MOUNT_ NOBH 0x0100 /* 没有 buffer_head */ 

define EXT2 _ MOUNT_ NO_UID32 0x0200 /* 禁用 32 位 UID */ 

define EXT2_MOUNT_XATTR_HER 0x4000 /* 扩展 的 用 户 属 性 */ 

define EXT2_MOUNT_POSIX_ACTL 0x8000 /* POSIX 访 问 控 制 表 */ 

define EXT2 _ MOUNT XIP 0x010000 /* 就 地 执行 */ 

define EXT2 _ MOUNT USRQUOTA 0x020000 /* 用 户 配额 */ 

define EXT2_MOUNT_GRPQUOTA 0x040000 /* 组 配额 */ 

define EXT2 _ MOUNT _ RESERVATION 0x080000 /* 预 分 配 */ 

为 针对 给 定 的 ext2_sb_info 实 例 sp 检 查 某 个 装载 选项 opt， 提 供 了 宏 test_opt (sb，opt)。 
调用 的 语法 有 点 不 寻常 : 装载 选项 不 是 按 上 述 的 预 处 理 器 常数 指定 ， 而 是 去 掉 前 绥 
EXT2_MOUNT_。 例 如 ， 检 查 是 否 需 要 预 分 配 ， 需 要 以 下 代码 : test_opt (sb, RESERVATION)。 
在 用 grep 查 找 内 核 源 代码 ， 或 用 LXR 分 析 内 核 源 代码 时 ， 要 特别 记 住 这 一 点 : 搜索 EXT2_ 
MOUNT_RESERVATION 只 会 显示 该 预 处 理 器 符号 的 定义 ， 而 不 会 发 现 其 使 用 。 如 果 要 找到 其 使 
用 处 ， 需 要 搜索 RESERVATION。 























口 如 果 超 级 块 不 是 从 默认 的 块 1 读 取 ， 而 是 从 其 他 块 读 取 【〔 在 第 一 个 超级 块 损坏 的 情况 下 )， 对 
应 的 块 《 相 对 值 ) 保 存在 s_sb_block 中 。 

口 statfs 系 统 调 用 《〈 大 多 数 用 户 亦 如 此 ) 对 文件 系统 提供 的 块 数 感 兴趣 。 这 是 指 可 用 于 存储 数 
据 的 块 数 。 不 可 避免 地 ， 需 要 牺牲 一 些 空间 来 存储 文件 系统 的 管理 数据 (如 超级 块 或 块 组 的 
上 § 述 符 )。 计 算 最 后 可 用 的 块 数 很 容易 : 内 核 上 只 需要 从 可 用 于 文件 系统 的 块 数 减 去 用 于 存储 管 
理 数 据 的 块 数 即 可 。 虽 然 简 单 ， 但 该 操作 的 代价 很 高 〈 内 核 需要 遍历 所 有 的 块 组 )， 因此 使 用 
s_overhead_last 和 s_blocks_last 来 缓存 上 一 次 的 计算 结果 ， 分 别 是 用 于 管理 数据 的 块 数 











































































































































































































































































































482 0U090 Ext00000 

和 完全 可 用 的 块 数 。 
请 注意 ， 这 些 值 通常 是 不 变 的 。 在 计算 之 后 ， 除 非 文件 系统 在 使 用 过 程 中 调整 大 小 ， 否 则 这 
些 值 是 不 变 的 。 但 很 少 会 调整 文件 系统 的 大 小 ， 而 且 这 需要 一 个 外 部 的 内 核 补丁 ， 因 此 这 里 
不 过 多 讨论 了 。 

口 s_dqir_count 表 示 目 录 的 总 数 ， 这 是 实现 9.2.4 节 讨论 的 Orlov 分 配器 所 需要 的 。 由 于 该 值 在 磁 
盘 结构 中 没有 保存 , 因此 必须 在 每 次 装载 文件 系统 时 确定 。 内 核 为 此 提供 了 ext2_count_dirs 

口 s_gebts 是 一 个 指针 ， 指 向 一 个 数组 (数组 项 为 8 位 数学 ， 该 数组 通常 比较 短 )， 每 个 数组 项 对 





应 于 一 个 块 组 。Orlov 分 配器 使 用 该 数组 在 一 个 块 组 中 


详细 请 参见 9.2.4 节 )。 



































的 文件 和 


















































目录 inode 之 间 保 持 均 衡 (更 多 
































































































































口 结构 末尾 的 percpu_counter 实 例 ， 为 空闲 块 、inode 和 目录 的 数目 ， 提 供 了 近似 、 快 速 、 可 伸 
缩 的 计数 器 。 此 类 计数 器 的 实现 已 经 在 3.2.9 节 讨论 过 。 

在 内 核 版 本 2.4 之 前 ，ext2_sb_info 包 含 了 额外 的 成 员 ， 用 于 缓存 块 位 图 和 inode 位 图 。 由 于 二 者 
的 长 度 较 大 ， 不 可 能 (至 少 不 太 合理 ) 将 位 图 全 部 保持 在 内 存 中 。 因 此 ， 应 用 了 LRU 方 法 ， 将 最 常 使 
用 的 项 保持 在 物理 内 存 中 。 随 着 内 核 的 演化 ， 这 种 特定 的 缓存 已 经 显得 多 余 ， 因 为 内 核 现在 已 经 自动 
缓存 了 对 块 设备 的 访问 ， 即 使 只 读 取 一 块 〈 而 不 是 一 整 页 ) 也 是 如 此 。 第 16 章 在 讲述 _pread 时 讨论 
了 新 的 缓存 方案 的 实现 。 





新 块 时 ， 不 会 只 分 配 
内 核 确保 各 个 
多 个 文件 并 发 
间 ， 如 果 有 需要， 那么 随时 可 能 
想象 为 最 后 分 配 块 之 前 的 一 个 附加 层 ， 用 于 判断 0 口 充分 利 
是 最 终 决定 。 
实现 该 机 制 需要 几 个 数据 结构 。 预 留 窗 


起 始 块 和 结束 块 ， 定 义 了 一 个 预 留 的 








e000 














为 提高 块 分 配 的 性 能 ，Ext2 文 件 系统 采 

















果 留 的 






































<ext2 fs_sb.h> 


兽 长 时 。 应 该 强调 指出 : 预 分 配 并 不 会 降低 可 
被 男 一 个 inode 窗 新。 但 内 核 会 尽力 避免 这 种 做 法 。 我 们 可 以 将 预 分 配 
是 建议 ， 而 分 配 才 




















用 空间 的 利用 率 

















用 可 用 空间 。 预 








用 了 一 种 称 之 为 0 0 D 的 机 制 。 每 当 对 一 个 文 从 
所 需要 的 块 数 。 能 够 用 于 连续 分 配 的 块 ， 会 另外 被 秘密 标记 出 来 ， 供 后 续 使 用 。 
区 域 是 不 重 盖 的 。 这 在 进行 新 的 分 配 时 可 以 节省 时 间 以 及 防止 碎片 ， 特 别 是 在 有 
一 个 inode 预 分 配 的 空 


o 





























分 配 只 














门 (reservation window ) 本 身 


区 域 。 下 列 数据 结构 用 于 定义 预 留 窗口 




















struct ext2_reserve window { 


ext2_fsblk t _rsv_start; 
ext2_fsblk t _rsv_engd; 


} 


该 窗 








口 需要 与 其 他 的 Ext2 数 据 结构 联合 使 











/* 第 一 个 预 贸 的 字 节 */ 
/* 最 后 一 个 预 留 的 字 节 ， 或 为 0 





























]， 才 能 发 挥 作用 。 


struct ext2_sb_info 都 包含 了 指向 预 分 配 信息 的 字段 。 


fs/ext2/ext2.h 
struct ext2_inode info { 


struct ext2_ block alloc_ info *i_ block alloc_ info; 





} 


<ext2 fs_sb.h> 
struct ext2_sb_info { 


F: 请 求 许 


多 








不 十 分 复杂 ， 其 中 指定 了 


回想 一 下 ，struct ext2_inode 和 
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spinlock t sS_rsv_ window lock; 
struct rb_root s_rsv_ window_ root; 
struct ext2_reserve window_ node s_rsv_window_ head; 











} 


每 个 inode 的 预 分 配 信 息 都 包含 在 struct ext2_block alloc info 和 struct ext2_reserve_ 
window_node 中 ， 二 者 定义 如 下 : 


<ext2 fs_sb.h> 
struct ext2_reserve window node { 
struct rb node rsv_node; 
uUu32 rsv_goal_ size; 
u32 rsv alloc hit; 
struct ext2_reserve window rsv_window; 

















I 


struct ext2_block alloc info { 
/* 有 关 预 留 窗口 的 信息 */ 
struct ext2_reserve window node rsv_window node; 


























_u32 last alloc logical block; 
ext2_fsblk t last alloc physical block; 








}3 
这 些 数据 结构 彼此 髋 套 ， 相 互 之 间 有 紧密 的 关联 ， 如 图 9-7 所 示 。 

















Ext2 预 留 
L ext2_sb_info 





























GIG struct ext2_reserve_ 


f_rsv_window root | window 





育 训 六 宣 剖 


to 


struct rb_node 


和 struct ext2_ reserve_ 
window_node 


struct ext2_block_ 
alloc_info 


struct ext2_inode_ 
图 9-7” 预 分 配 机 制 使 用 的 数据 结构 


ext2_reserve_window_node 的 所 有 实例 都 收集 在 一 个 红 黑 树 中 ， 其 根 结 点 为 ext2_sb_info-> 
s_rsv_window_root 〈 有 关 红 黑 树 的 更 多 信息 ， 请 参考 附录 C)。 树 结 点 通过 rsv_noqe 奶 入 到 
ext2_reserve window_node 中 。 

红 黑 树 能 够 根据 树 结 点 的 预 留 窗口 边界 ， 对 结 点 排序 。 这 使 得 内 核能 够 快速 找到 目标 块 所 在 的 预 
分 配 区 域 。 此 外 ，ext2_reserve_window_nodqe 还 包含 下 列 信息 。 


二 
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口 rsv_goal_size 给 出 了 预 留 窗口 的 预期 长 度 。 请 注意 ， 可 使 用 ioctl EXT2_IOC_SETRSVSz 从 用 
户 层 设 置 该 值 ， 而 EXT2_IOC_GETRESVZ 可 获取 当前 的 设置 。 最 大 允许 的 预 留 窗口 长 度 是 EXT2_ 
MAX_RESERVE_BLOCKS， 通 党 定义 为 1 027。 

D rsv_alloc_hits 跟 踊 预 分 配 的 命中 数 ， 即 多 少 次 分 配 是 在 预 留 窗口 中 进行 的 。 

口 最 重要 的 一 点 ， 预 留 窗口 自身 由 rsv_window 给 出 。 

如 果 一 个 inode 带 有 预 分 配 信 息 ， 则 ext2_inodqe_info->i_ block alloc info 指 向 一 个 stzruct 
ext2_block_alloc_info 的 实例 。 除了 髓 入 的 ext2_reserve_window_node 实 例 建 立 了 与 红 黑 树 的 关 
联 之 外 ， 该 数据 结构 还 包含 了 上 一 次 分 配 的 块 的 信息 : last_alloc_logical_block 表 示 上 一 次 分 配 
的 块 在 文件 中 的 相对 块 号 ， 而 last_alloc_physical_pblock 则 存储 了 该 块 在 块 设备 上 的 物理 块 号 。 


9.2.3 创建 文件 系统 


文件 系统 并 非 由 内 核 自身 创建 ， 而 是 由 mke2fs 用 户 空间 工具 创建 的 。 尽 管 我 更 关注 内 核 的 工作 
但 仍然 在 下 面 简要 地 论述 一 下 创建 文件 系统 。 mke2fs 不 仅 将 分 区 的 空间 划分 到 管理 信息 和 有 用 数据 琴 
个 方面 ， 还 在 存储 介质 上 创建 一 个 简单 的 目录 结构 ， 使 得 该 文件 系统 能 够 装载 。 
这 里 的 管理 信息 指 的 是 哪些 ? 在 装载 一 个 新 格式 化 "的 Ext2 分 区 时 ， 其 中 已 经 包含 了 一 个 标准 的 
子 目 录 ， 名 为 1ost+found， 用 于 容纳 存储 介质 上 的 坏 块 〈 幸 亏 现在 硬盘 的 质量 较 好 ， 这 个 目录 几乎 
总 是 空 的 )。 这 涉及 下 列 步 骤 。 
(1) 分 配 一 个 mode 和 数据 块 , 初始 化 根 目录 。 数 据 块 包含 的 文件 列表 有 3 项 : .、. .和 lost+foungd。 
于 这 是 根 目录 ， 所 以 .和 . .都 指向 表示 根 目录 的 inode 自 身 。 
(2) 也 为 lost+found 目 录 分 配 一 个 inode 和 一 个 数据 块 ， 数 据 块 只 包含 两 项 : . .指向 根 目录 的 
inode， .指向 该 目录 本 身 的 inode。 
尽管 mke2fs 设 计 为 处 理 块 特 殊 文 件 ， 也 可 以 将 其 用 于 块 介质 上 的 某 个 普通 文件 ， 并 创建 一 个 文 
件 系统 。 这 是 因为 根据 UNIX 的 哲学 “万 物 展 文件 ” 可 以 用 同样 的 例 程 处 理 普 通 文件 和 块 设备 ， 至 少 
从 用 户 空 间 的 角度 来 看 是 这 样 。 在 试验 文件 系统 结构 时 ， 用 普通 文件 代替 块 特殊 文件 是 一 种 很 好 的 方 
法 ， 这 无 需 访 问 保存 了 重要 数据 的 现存 文件 系统 ， 也 不 必 费 力 处 理 缓慢 的 软驱 。 为 此 ， 我 在 下 面 简要 
地 讨论 一 下 相关 的 操作 。 
首先 ， 使 用 aq 标准 实用 程序 ， 创 建 一 个 长 度 适 宜 的 文件 。 


wolfgang@meitner> dd if=/dev/zero of=img.1440 bs=1k count=1440 
1550+0 records in 
1440+0 records out 


这 创建 了 一 个 长 度 为 1.4 MiB 的 文件 ， 与 3.5$ 英 寸 软盘 的 容量 相同 。 该 文件 只 包含 字 节 0 〈 即 ASCII 
值 0)， 由 /dev/zero 产 生 。 
mke2fs 在 该 文件 上 创建 一 个 文件 系统 : 


wolfgang@meitner> /sbin/mke2fs img.1440 
mke2fs 1.40.2 (12-Jul-2007) 

img.1440 is not a block special device. 
Proceed anyway? (y,n) y 

File System label= 

OS type: Linux 

Block size=1024 (log=0) 
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Q 当然 ， 也 可 以 讨论 低级 格式 化 和 创建 文件 系统 之 间 的 微妙 差别 ， 并 强调 二 者 的 区 别 。 我 像 大 多 数 UNIX 用 户 那样 ， 
对 此 采取 务实 的 态度 ， 将 二 者 作为 同义词 使 用 ， 因 为 即使 混淆 了 也 没什么 危险 。 
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Fragment size=1024 (log=0) 

184 inodes, 1440 blocks 

72 blocks (5.00%) reserved for the super user 
First data block=1 

Maximum file system blocks=1572864 

1 block group 

8192 blocks per group, 8192 fragments per group 
184 inodes per group 














img.1440 中 的 数据 可 使 用 十 六 进 制 编辑 器 查看 , 对 文件 系统 的 结构 作出 判断 。od 和 hexedit 是 此 
类 编辑 器 的 经 典 例子 ， 但 所 有 的 Linux 发 布 版 都 包含 了 许多 备 选 的 编辑 器 ， 从 简单 的 文本 模式 工具 ， 
到 复杂 不 过 使 用 方便 的 图 形 界 面 应 用 程序 。 

衬 的 文件 系统 没什么 意思 ， 因 此 我 们 需要 一 种 方法 ， 向 示例 文件 系统 填充 数据 。 可 使 用 环 回 接口 
装载 该 文件 系统 ， 如 下 例 所 示 : 

wolfgang@meitner> mount -t ext2 -0o loop=/dev/loop0 img.1440 /mnt 

接 下 来 即 可 操作 该 文件 系统 ， 就 像 是 它 位 于 块 设 备 的 某 个 分 区 上 一 样 。 所 有 的 修改 都 会 传输 到 
img.1440， 并 且 可 以 查看 文件 的 内 容 。 
9.2.4 文件 系统 操作 

如 第 8 章 所 述 ， 虚 拟 文件 系统 和 具体 实现 之 间 的 关联 大 体 上 由 3 个 结构 建立 ， 结 构 中 包含 了 一 系列 
的 函数 指针 。 所 有 的 文件 系统 都 必须 实现 该 关联 。 

口 用 于 操作 文件 内 容 的 操作 保存 在 file_operations 中 。 

口 用 于 此 类 文件 对 和 象 自身 的 操作 保存 在 inode_operations 中 。 

口 用 于 一 般 地 址 空间 的 操作 保存 在 address_space_operations 中 。 

Ext2 文 件 系 统 对 不 同 的 文件 类 型 提供 了 不 同 的 file_operations 实 例 。 很 自然 ， 最 常用 的 变 体 是 
于 普通 文件 ， 定 义 如 下 : 

fs/ext2/file.c 

struct file operations ext2_file operations = { 














































































































































































































.llseek = generic_ file llseek, 
.read = do_sync_read, 

.write = do_sync write, 
.dio_read = generic file aio read, 
.aio_write = generic _ file aio write, 
:CE = ext2_ioctl, 

.mmap = generic file mmap, 
.Open = generic file open, 
.release = ext2_release_file, 
.fsync = ext2_sync_file, 

.readv = generic file readyv, 


generic file splice read, 
generic file splice write, 


.Splice_ read 
.Splice write 
}3 
大 多 数 项 都 指向 了 VFS 的 标准 函数 ， 我 们 在 第 8 章 讨 论 过 。 
目录 也 有 自身 的 file_operations 实 例 , 但 要 简短 许多 , 因为 许多 文件 操作 对 目录 是 没有 意义 的 。 
fs/ext2/dir.c 
struct file operations ext2 dir operations = { 


.llseek = generic file llseek, 
.read = generic read dir, 
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.readdir 

ele en 

feync 
3 











ext2_readdir, 
ext2_ioctl1, 
ext2_sync_file, 


没有 给 出 的 字段 由 编译 器 自动 初始 化 为 NULL 指 针 。 
普通 文件 的 inodqe_operations 初 始 化 如 下 : 














fs/ext2/file.c 
Struct inode_operations e 
.truncate 

.Setxattr 
etxattr 
.listxattr 
.removexattr 
.Setattr 
.permission 


}; 











ext2_file inode operations = { 
= ext2_truncate, 

= generic_ setxattr, 

= generic getxattr, 

= ext2_ listxattr, 

= generic removexattr, 

= ext2_setattr, 

= ext2_permission, 


目录 有 更 多 可 用 的 inode 操 作 。 








fs/ext2/namei.c 

ett Ode operations.e 
.Create 
.lookup 
Einik 
.unlink 
.Symlink 
.mkdir 
md 
.mknod 
.rename 
.Setxattr 
.getxattr 
.listxattr 
.removexattr 
.Setattr 
.permission 

}; 

文件 系统 和 块 层 通过 第 4 章 

操作 初始 化 如 下 ”: 


fs/ext2/inode.c 








ext2_dir_inode operations = { 
= ext2_create, 

= ext2_lookup, 

= ext2_ link; 

= ext2_unlink, 

= ext2_symlink, 

= ext2_ mkdir, 

= ext2_rmdir, 

= ext2_mknod, 

= ext2_rename, 

= generic setxattr, 

= generic getxattr, 

= ext2_listxattr, 

= generic removexattr, 
= ext2_setattr, 

= ext2_permission, 








讨论 的 aqaqress_space_operations 关 联 。 在 Ext2 文 件 系统 中 ， 


struct adoress space operationse ext2_aops = { 


.readpage 
.readpages 
.writepage 
.Sync_page 
.write begin 
.write_end 
.bmap 
.direct_IO 
.writepages 





QD address _Space _: operations 的 另 


函数 。 这 些 函 数 在 指定 了 装载 选项 nobh 时 使 用 〈 主 要 是 在 有 大 量 物理 内 存 的 配置 上 )。 这 个 选项 很 少 使 





在 这 里 讨论 了 





= ext2_readpage, 

= ext2_readpages, 

= _ ext2_writepbpage， 

= block_sync_page, 

= ext2_write begin, 
= generic write_ end, 
= ext2_bmap, 

= ext2_direct_I0O, 

= ext2_writepages, 
































这 些 


一 个 实例 名 为 ext2_nobh_aops, 其 中 只 包含 不 使 用 buffer_heads 管 理 页 缓存 的 





















































， 就 不 
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第 4 个 结构 (super_operations) 用 于 与 超级 块 交 互 〈 读 、 写 、 分 配 inode )。 对 于 Ext2 文 件 系统 
的 ， 该 结构 初始 化 如 下 : 


fs/ext2/super.c 

static struct Super_operations ext2_sops = { 
.alloc_inode ext2_alloc_inode, 
.destroy_inode ext2_destroy_inode, 
.read_ inode ext2_read_inode, 
.write_ inode ext2_write_ inode, 
.delete_ inode ext2_delete_inode, 
.put_super ext2_put_super, 
.write_ super ext2_write_ super, 
.statfs ext2_statfs, 
.remount_fs ext2_remount, 
.Clear_inode ext2_clear_inode, 
.Show_options ext2_show_options, 








}; 

因为 没有 必要 详细 讨论 上 述 所 有 函数 ， 所 以 下 文 各 节 只 限于 讨论 最 重要 的 函数 ， 用 以 说 明 Ext2 实 
现 的 关键 机 制 和 原理 。 读 者 可 以 在 内 核 源 代码 中 查找 其 他 函数 〈 学 习 完 以 后 几 节 之 后 ， 这 些 函 数 就 并 
不 难 理解 了 )。 

1. 装载 和 务 载 
回顾 第 8 章 的 内 容 ， 内 核 处 理 文件 系统 时 需要 另 一 个 结构 来 容纳 装载 和 秋 载 信息 ， 而 上 述 结构 都 
没有 提供 上 述 信息 。file_system_type 结 构 用 于 该 目的 ， 对 Ext2 文 件 系统 定义 如 下 : 


fs/ext2/super.c 
static struct file system type ext2 fs type = { 

























































































.Owner = THIS_MODULE, 
.name = "ext2", 
.get_sb = ext2_get_sb, 
.Kill_sb = kill block_ super, 
.fs_flags = FS_REQUIRES_DEYV, 
站 
第 8 章 讲 过 ，mount 系 统 调用 通过 get_sb 来 读 取 文 件 系 统 超级 块 的 内 容 。Ext2 文 件 系 统 依赖 虚拟 





文件 系统 的 一 个 标准 函数 (get_sb_bdev) 来 完成 该 工作 : 


fs/ext2/super.c 
static int ext2_ get_sbl(struct file system type *fs_type, 
int flags, const char *dev_name, void *data, struct vfsmount *mnt) 


{ 


return get_sb bdev(fs_type, flags, dev name, data, ext2_fill super, mnt); 


} 
指 问 ext2_fi11_super 的 一 个 函数 指针 作为 参数 传递 给 get_sb_bdev。 该 函数 用 数据 填充 一 个 超 
级 块 对 象 ， 如 果 内 存 中 没有 适当 的 超级 块 对 象 ， 数 据 就 必须 从 硬盘 读 取 ”。 在 本 节 中 ， 我 们 因而 只 需 
要 知道 fs/ext2/super.c 中 的 ext2_fill_super 函 数 。 其 代码 流程 图 在 图 9-8 中 给 出 。 
ext2_fi11_super 首 先 设置 一 个 初始 块 长 度 ， 用 于 读 取 超级 块 。 由 于 文件 系统 中 使 用 的 块 长 度 还 
不 知道 ， 因 此 内 核 首 先 通过 sb_min_blocksize 来 查找 最 小 可 能 值 。 该 函数 通常 将 块 长 度 设置 为 1 024 
子 节 。 但 如 果 块 设备 使 用 的 最 小 块 长 度 比 这 要 大 ， 则 使 用 块 设备 的 设置 。 
接 下 来 使 用 sb_breaq 读 取 超 级 块 所 在 的 数据 块 。 这 是 第 16 章 讲述 的 _breaq 函 数 的 一 个 包装 器 。 












































































































































































































































QD 如果 目 标 文件 系统 已 经 装载 在 系统 中 ， 只 是 要 装载 到 另 一 个 不 同 的 位 置 ， 那 么 超级 块 自然 已 经 在 内 存 中 ， 当 然 这 
种 情况 比较 少见 。 
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只 需 一 个 类 型 转换 ， 即 可 将 该 函数 返 
检查 魔 数 


I 








的 裸 数据 转换 为 ext2_super_block 的 实例 ?。 








设置 默认 选项 


parse_options | 


检查 特性 












实际 块 长 度 不 等 于 sb_min_ blocksize? 


Sb set blocksize 


填充 super_block_info 
读 入 组 描述 符 
ext2_check descriptors | 














设置 近似 的 各 CPU 计数 器 








ER2EoUmEETIOdSS | 
ext2_count_dirs| 
ext2_setup_super md ext2 write super | 


图 9-8 ”ext2_fi11_super 的 代码 流程 图 


现在 需要 进行 检查 ， 以 确认 该 分 区 实际 上 是 否 包含 了 一 个 Ext2 文 件 系统 。 超 级 块 中 存储 的 魔 数 保 
存 了 所 需 的 信息 。 其 值 必须 与 EXT2_SUPER_MAGIC 常 数 匹 配 。 如 果 检 查 设 备 ， 则 放弃 装载 操作 ， 然 后 
返回 错误 信息 ， 表 明 试 图 装载 非 Ext2 文 件 系统 。 
parse_options 分 析 用 于 指定 装载 选项 的 参数 《〈 例 如 使 用 访问 控制 表 或 增强 属性 等 )。 在 这 完成 
前 ， 所 有 的 值 都 设置 为 默认 值 ， 以 确保 如 果 不 指定 选项 ， 就 等 价 于 指定 默认 选项 。 
对 文件 系统 特性 的 检查 ， 能 够 揭示 内 核 是 否 能 够 装载 该 文件 系统 ， 以 读 写 模式 ， 或 是 只 读 模式 
CExt2 的 增强 特性 在 9.2.2 节 讨论 过 )。 保 存在 s_feature_ro_compat 和 s_ feature_incompat 中 的 位 串 




























































































































































































QD 如 果 超 级 块 不 是 从 硬件 扇 区 边界 开始 ， 则 必须 加 上 一 个 偶 移 量 。 
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与 对 应 的 内 核 常数 进行 比较 。 内 核 为 此 定义 了 两 个 常数 : EXT2_FEATURE_INCOMPAT_SUPP 包 含 了 所 有 
不 兼容 特性 ， 而 ExT2_FEATURE_RO_COMPAT 包 含 了 所 有 只 读 兼 容 特性 。 如 果 某 个 比特 位 置 位 ， 而 内 核 
不 清楚 其 语义 ， 或 设置 了 不 兼容 比特 位 ， 则 拒绝 装载 该 文件 系统 。 如 果 设 置 了 EXT2_FEATURE_RO_ 
CoMPAT 中 的 某 个 比特 位 ， 但 装载 选项 没有 指定 只 读 标志 ， 也 会 拒绝 装载 。 
如 果 保 存在 s_blocksize 中 的 文件 系统 块 长 度 与 最 初 指定 的 最 小 值 并 不 匹配 ， 则 使 用 
set_blocksize 修 改 最 初 设置 的 块 长 度 ， 并 再 次 读 取 超级 块 。 如 果 文 件 系 统 使 用 的 块 长 度 与 数据 传输 
所 用 的 块 长 度 相 同 ， 那 么 内 核 的 工作 会 简单 很 多 ， 因 为 这 样 可 以 用 一 个 步骤 读 取 一 个 文件 系统 块 。 

文件 系统 的 元 信息 应 该 一 直 驻 留 在 内 存 中 ， 并 由 ext2_sb_info 数 据 结构 保存 〈 该 结构 在 9.2.2 节 
讲 过 )， 现 在 已 经 填充 到 结构 中 了 。 通 常 来 说 ， 元 信息 中 都 是 一 些 简单 的 值 ， 只 需 将 数据 从 硬盘 复制 
到 数据 结构 的 对 应 成 员 即 可 。 
接 下 来 未 块 读 取 组 描述 符 ， 并 使 用 ext2_check_descriptors 检 查 一 致 性 。 
填充 超级 块 信息 的 最 后 一 步 是 ext2_count_free blocks、ext2_count_free_ inodes 和 ext2_ 
count_dirs 分 别 计 算 空 闲 块 数目 、 空 闲 inode 数 目 和 目录 数目 。9.2.4 节 讨论 的 Orlov 分 配器 需要 这 些 计 
数 。 请 注意 这些 值 保 存在 近似 的 计数 器 中 ， 其 初始 值 是 正确 的 ， 但 在 运转 期 间 可 能 轻微 偏离 。 
现在 ,控制 权 转 移 到 ext2_setup_super， 它 进行 儿 项 最 后 的 检查 并 输出 适当 的 警告 信息 (例如 ， 
装载 的 文件 系统 处 于 不 一 致 状态 ， 或 已 经 超出 了 不 进行 一 致 性 检查 所 允许 装载 的 最 大 次 数 )。 最 后 一 
步 是 ext2_write_super， 它 将 超级 块 的 内 容 写 回 到 底层 的 存储 介质 。 这 是 必要 的 ， 因 为 装载 操作 会 
修改 超级 块 的 某 些 值 〈《 如 装载 计数 和 上 一 次 装载 的 日 期 )。 

2. 读 取 并 产生 数据 块 和 间接 块 
在 文件 系统 装载 后 ， 用 户 进程 可 以 调用 第 8 章 的 函数 访问 文件 的 内 容 。 所 需 的 系统 调用 首先 转 到 
VFS 层 ， 然 后 根据 文件 类 型 ， 调 用 底层 文件 系统 的 适当 例 程 。 

前 面 讲 过 ， 有 许多 底层 函数 可 用 于 此 。 这 里 不 会 详细 讨论 所 有 的 变 体 ， 而 只 讨论 构成 用 户 应 用 程 
序 代码 主体 的 那些 最 主要 的 基本 操作 创建、 打开 、 读 取 、 关 闭 、 删 除 文 件 和 目录 对 象 )。 特 定 于 文 
件 和 inode 的 操作 都 会 用 于 该 目的 。 通 常 虚 拟 文件 系统 提供 了 默认 操作 (例如 generic_file_read 和 
generic_file_mmap)。 这 些 默 认 操 作 只 使 用 底层 文件 系统 的 几 个 基本 函数 ， 来 执行 较 高 级 的 、 抽 象 
的 任务 。 这 里 的 讨论 限于 Ext2 文 件 系统 需要 向 上 提供 给 虚拟 文件 系统 的 接口 。 这 主要 包括 在 文件 中 的 
特定 位 置 ， 读 取 / 写 入 数据 块 的 函数 。 从 VFS 的 角度 来 看 ， 文 件 系统 的 目的 在 于 ， 建 立 文件 的 内 容 与 相 
关 存 储 介 质 上 对 应 块 之 间 的 关联 。 

en00000 

ext2_get_block 是 一 个 关键 函数 ， 它 将 Ext2 的 实现 与 虚拟 文件 系统 的 默认 函数 关联 起 来 。 读 者 
应 该 记 住 ， 所 有 希望 使 用 VFS 的 标准 函数 的 文件 系统 ， 都 必须 定义 一 个 类 型 为 get_block tt 的 函数 ， 
其 原型 如 下 : 


<fs.h> 
typedef int (get_block t) (struct inode *inode, sector_t iblock, 
struct buffer_ head *bh result, int create); 


该 函数 不 仅 读 取 块 (顾名思义 )， 还 从 内 存 向 块 设备 的 数据 块 0D 口 数据 。 在 进行 后 一 项 工作 时 ， 

在 某 些 情况 下 可 能 必须 创建 新 块 ， 该 行为 由 create 参 数控 制 。 
对 应 于 该 原型 ，Ext2 使 用 的 函数 是 ext2_get_block。 它 是 更 通用 的 ext2_get_blocks 的 前 端 ， 执 行 

查找 块 的 重要 任务 。 其 代码 流程 图 在 图 9-9 中 给 出 ， 其 中 忽略 了 需要 创建 块 的 情况 (create == true)。 
该 操作 划分 为 3 个 小 的 步 又 。 调用 的 第 一 个 辅助 函数 是 ext2_block_to_path, 它 主要 是 根据 数据 
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块 在 文件 中 的 位 置 ， 来 找到 通 向 块 的 “ 口 口 ”。 如 9.2.1 节 所 述 ，Ext2 文 件 系统 使 用 最 多 三 级 间接 来 管 


理 文件 数据 块 。 
ext2_get_blocks 
exE2P0eEnolocm onatn 


ext2_get_branch 





1 































图 9-9 ”ext2_get_block 的 代码 流程 图 〈( 读 取 一 块 ) 


在 这 里 ， 术 语 “0D ”意味 着 通过 描述 符 表 到 达 目 标 数 据 块 的 路 径 。 
无 需 与 数据 块 进行 WO 交互 ， 即 可 获得 该 信息 。 只 需要 该 块 在 文件 中 的 位 置 和 保持 在 超级 块 数 据 
结构 中 的 文件 系统 块 长 度 ， 而 不 需要 显 式 读 取 设备 。 
ext2_block_to_path 执 行 一 个 逐步 的 比较 。 如 果 数 据 块 号 小 于 直接 块 的 数目 (EXT2_NDIR_ 
LOCKS)， 则 直接 返回 ， 因 为 该 块 可 以 直接 寻 址 ”。 
否则 ， 需 要 进行 计算 ， 借 助 块 长 度 来 判断 一 个 块 能 够 容纳 多 少 个 块 指针 《〈 块 号 )。 计 算 的 结果 ， 
加 上 直接 块 的 数目 ， 即 得 到 了 通过 简单 间接 可 以 对 文件 数据 块 寻 址 的 最 多 可 能 块 数 。 如 果 目 标 块 在 文 
牛 中 的 序号 小 于 该 值 ， 那 么 返回 一 个 数组 ， 包 含 0 口 块 号 。 第 一 个 数组 项 包含 简单 间接 块 的 块 号 ， 而 
第 二 个 数组 项 则 指定 了 目标 数据 块 的 块 号 在 间接 块 中 的 地 址 。 
对 于 二 次 间接 和 三 次 间接 ， 可 采用 同样 的 方案 。 每 增加 一 个 间接 层次 ， 则 多 返回 一 项 。 
于 描述 块 在 间接 网 络 的 位 置 的 数组 项 的 数目 ， 称 之 为 0 DODD 。 逻 辑 上 ， 路 径 长 度 随 间接 层次 
的 增长 而 增长 。 
到 目前 为 止 ， 只 使 用 了 文件 系统 的 块 长 度 ， 而 尚未 对 人 硬盘 进行 实际 的 1/O 操 作 。 为 找到 数据 块 的 
绝对 地 址 ， 必 须 跟踪 路 径 数 组 中 定义 的 路 径 ， 而 这 需要 从 硬盘 读 取 数 据 。 
fs/ext2/inode.c 中 的 ext2_get_branch 用 于 跟踪 一 个 已 知 的 路 径 ， 最 终 到 达 一 个 数据 块 。 该 任 
务 相 对 简单 。sb_breaq 相 继 读 取 各 个 间接 块 。 每 个 块 的 数据 和 从 路 径 得 知 的 偏 移 量 ， 可 用 于 找到 指向 
下 一 个 间接 块 的 指针 〈 抉 号 )。 该 过 程 会 一 直 重 复 下 去 ， 直 至 代码 到 达 一 个 指向 数据 块 的 指针 ， 并 将 其 作 
为 函数 结果 返回 。 这 个 绝对 地 址 由 高 层 孙 数 (如 plock_reagd_full_page) 使 用 ， 用 于 读 取 块 的 内 容 。 
eUU00 
在 必须 处 理 一 个 尚未 分 配 的 块 时 ， 情 况 变 得 更 为 复杂 。 进 程 首先 要 向 文件 写 入 数据 ， 从 而 扩大 文 
件 ， 致 使 这 种 情况 出 现 。 至 于 是 使 用 通常 的 系统 调用 还 是 内 存 映射 来 向 文件 写 入 数据 ， 在 这 里 并 不 重 
要 。 在 所 有 情况 下 ， 内 核 都 调用 ext2_get_blocks 为 文件 请 求 新 块 。 概 念 上 ， 向 文件 添加 新 块 包括 下 
面 4 个 任务 。 
口 在 检测 到 有 必要 添加 新 块 之 后 ， 内 核 需要 判断 ， 将 新 块 关 联 到 文件 ， 是 否 需要 间接 块 以 及 间 
接 的 层次 如 何 。 
口 必须 在 存储 介质 上 查找 并 分 配 空闲 块 。 
口 新 分 配 的 块 添 加 到 文件 的 块 列表 中 。 
口 为 获得 更 好 的 性 能 ， 内 核 也 会 进行 块 预 留 操 作 。 这 意味 着 ， 对 于 普通 文件 ， 会 预 分 配 阁 干 块 。 
如 果 需 要 更 多 块 ， 那 么 将 优先 从 预 分 配 区 域 进行 分 配 。 
ext2_get_blocks 的 代码 流程 图 在 图 9-10 给 出 ， 说 明了 第 1 个 和 第 3 个 任务 是 如 何 完成 的 : 检测 是 
































MY 



























































四 





















































































































































































































































































































































































































































































































































Qa 提醒 : 文件 内 部 ， 块 是 顺序 编号 的 ， 并 且 从 0 开始 。 
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否 需要 新 块 ， 判 断 所 需要 间接 的 层次 ， 将 新 分 配 的 块 添加 到 文件 。 剩 下 的 两 个 任务 将 在 下 文 解释 。 
下 图 比 图 9-9 给 出 的 简化 版 本 要 复杂 一 些 ， 图 9-9 忽 略 了 数据 块 位 于 文件 的 有 效 长 度 以 外 (从 而 需 
要 分 配 新 块 ) 的 情形 。 图 9-10 说 明了 这 种 情况 ， 此 时 ext2_get_blocks 需 要 请 求 新 块 。 


ext2_get_blocks 


ext2_blocks_to_ path 



































































ext2_get_ branch 

















普通 文件 并 且 没 有 预 分 配 信 息 ? 
EXE2ETIEEDTIOcKEaIIOCEIOEG 


ext2_blks_to_allocate 








ext2_find goal 













ext2_alloc_ branch 


ext2_splice branch 


图 9-10 ”ext2_get_blocks 的 代码 流程 图 (创建 新 块 ) 


作为 函数 参数 传递 的 路 径 数 组 , 其 结构 仍然 按 我 们 熟悉 的 方法 组 织 , 无 论 所 述 的 块 是 否 在 文件 中 ， 
其 结构 都 是 相同 的 。 为 建立 该 路 径 ， 只 需要 知道 文件 内 部 的 位 置 和 文件 系统 的 块 长 度 。 
在 调用 ext2_get_branch 国 数 之 前 ， 与 前 文 描述 的 ext2_get_blocks 版 本 之 间 的 区 别 并 不 明显 。 
此 前 返回 一 个 NULL 指 针 表 明 碍 找 成 功 ， 而 现在 则 返回 了 最 后 一 个 间接 块 的 地 址 。 如 果 目 标 数据 块 超出 
了 文件 的 有 效 长 度 ， 则 将 返回 的 间接 块 用 作 扩 展 文件 的 起 点 。 
为 理解 创建 新 块 的 情形 ， 有 必要 更 仔细 地 理解 ext2_get_pranch 的 工作 方式 ， 因 为 这 里 引入 了 
新 的 数据 结构 : 
fs/ext2/inode.c 
typedef struct { 
_ le32 *p; 
_ le32 key; 


struct buffer head *bh; 
} Indirect; 

















































































































































































































key 表 示 块 号 ， 而 p 是 一 个 指针 ， 指 向 key 在 内 存 中 的 地 址 。 绥 冲 关 (bh) 用 于 在 内 存 中 保存 块 的 


























下 述 用 于 填充 Indirect 的 辅助 函数 时 ， 这 一 点 变 得 很 明显 : 
fs/ext2/inode.c 
static inline void adqdq_chain(Indirect *p, struct buffer head *bh, u32 *v) 


人 














p->key = *(p->p = V) 
p->bh = bh; 


如 果 是 已 经 填充 好 的 Ingirect 实 例 ， 那 么 块 号 信息 存储 了 两 次 ,分 别 在 key 和 *p 中 。 在 我 们 讨论 Soy 


492 090 Ext00000 

















用 了 直接 分 配 ) 的 指针 ， 那 么 将 返 
数据 块 应 该 出 现在 间接 块 中 的 位 置 ， 





























图 9-11 给 出 了 上 述 的 攻 

















要 使 用 。 返 回 的 Indirect 实 例 包 含 了 一 个 指针 ， 
起 始 于 地 址 1 000， 而 我 们 























如 果 在 遍历 块 路 径 时 ，ext2_get_pranch 检 测 到 没有 指 问 下 一 个 层次 间接 块 (或 数据 块 ， 如 果 使 











， 需 要 寻 址 第 4 个 数据 块 ， 该 
指向 块 号 在 间接 块 中 的 位 置 


























感 兴趣 的 是 第 4 项 )。 但 
































既然 己 经 确定 了 间接 链 中 咒 
文件 分 配 一 个 或 多 个 新 块 。 这 个 很 































0x1234 


0x9831 
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ext2_get_branch 的 返回 值 


一 个 不 完全 的 Indirect 实 例 。 尽 管 p 成 员 指 向 下 一 层次 间接 块 或 
但 key 本 身 为 0， 因 为 该 块 尚未 分 配 。 














块 现在 尚 不 存在 ， 但 需 
( 即 1 003， 因 为 间接 块 











key 的 值 为 0， 因 为 相关 的 数据 块 尚未 分 配 。 





















































也 应 该 尽 可 能 接近 。 这 











作 更 快速 ， 因 为 减少 ] 
搜索 新 块 需要 下 画 
配 操作 的 理想 候选 者 。 























磁头 的 寻 道 和 旋转 。 
EE 搜索 口 口 口 (goal block)， 从 文件 系统 的 角度 来 看 ， 该 块 是 分 






























































标 块 的 搜索 只 是 基 














的 新 块 时 ， 将 调用 ext2_ 
口 当 将 要 分 配 的 块 如 
件 系统 试图 分 配 硬盘 上 的 下 

么 在 硬盘 上 也 应 该 尽 可 外 

口 如 果 新 块 的 逻辑 位 置 与 上 
适当 的 新 块 。 根 据 具 体 

的 块 。 我 在 这 里 就 不 过 多 讨论 了 。 


















































配 新 块 的 位 置 ，Ext2 文 件 系统 必须 找到 分 区 中 的 空闲 空间 ， 并 向 
为 在 理论 上 文件 的 各 个 块 应 该 尽 可 能 连续 ， 即 使 做 不 到 ， 
人 保 了 将 碎片 降 到 最 低 限 度 ， 不 仅 更 好 地 利用 了 硬盘 容量 ， 而 且 能 够 使 读 写 操 




































































般 原则 ， 并 不 考虑 文件 系统 中 的 实际 情况 。 查 找 最 佳 





fina_goal 函 数 。 在 进行 搜索 时 ， 必 须 区 分 下 面 两 种 情况 。 
P 上 一 次 分 配 的 块 时 《换言之 



















































































在 内 核 得 到 这 两 部 分 信息 (间接 链 中 


人 硬盘 上 分 配 一 块 。 当 





可 能 不 仪 需要 六 





计算 新 块 的 0 口 ， 即 数据 块 丰 
的 参数 包括 新 块 的 预期 地 址 、 





完成 。 传 递 到 该 函数 














需要 分 配 新 块 的 位 置 和 新 块 的 预期 地 址 ) 之 后 ， 内 核 将 要 在 
然 ， 无 法 保证 预期 地 址 一 定 是 空闲 的 ， 内 核 可 能 会 分 配 一 个 实际 上 位 置 比较 差 的 
块 ， 这 会 不 可 避免 地 导致 数据 碎片 。 
i 数据 块 ， 很 可 能 还 需要 分 配 一 些 保存 间接 信息 的 块 。ex 

















、 一 次 、 三 次 ) 间 接 块 的 总 数 。 而 实际 的 分 配 
间接 链 最 后 一 个 不 完整 部 分 的 有 关 信 息 以 及 到 达 新 











数据 块 仍然 缺失 的 间 提 





目 。 而 该 函数 将 返 

















文件 系统 现存 的 间接 表 中 。 
数据 块 ) 添加 到 现存 的 数 和 



































可 间接 块 和 数据 块 的 一 个 链表 ， 其 中 的 块 可 以 添加 到 
后 ，ext2_slice_branch 将 最 终 的 层次 结构 (在 最 简单 的 情况 下 ， 是 新 
对 Ext2 的 数据 结构 执行 几 个 相对 不 


， 数 据 将 要 连续 写 入 )， 文 





里 块 。 这 是 显然 的 ， 如 果 数 据 在 文件 中 是 顺序 存储 的 ， 那 


块 不 是 紧邻 的 ， 那 么 将 调用 ext2_fing_near 子 数 查 找 最 
情况 ， 它 会 找到 一 个 尽 可 能 接近 间接 块 的 块 ， 





或 至 少 在 同一 柱 面 组 中 

















t2_blks_to allocate 
ext2_alloc branch 





























那么 重要 的 更 新 。 
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e000 
ext2_alloc_branch 人 负责 对 给 定 的 新 路 径 分 配 所 需 的 块 ， 并 建立 连接 块 的 间接 链 。 初 看 起 来 ， 这 
似乎 是 一 个 容易 的 任务 ， 如 图 9-12 的 代码 流程 图 所 示 。 


ext2_alloc branch 


设置 间接 块 结构 
适 代 ， 直 到 至 少 


已 经 分 配 了 间接 






































图 9-12”ext2_alloc_branch 的 代码 流程 图 




















该 函数 调用 ext2_alloc_blocks, 后 者 接 下 来 义 调用 ext2_new_pblocks 分 配 所 需 的 新 块 。 由 于 该 
函数 总 是 分 配 连续 的 块 ， 一 次 调用 就 足以 获得 所 需 数 目的 块 了 。 如 果 文 件 系 统 变 得 碎片 化 ， 可 能 是 没 
有 连续 区 域 可 用 。 但 这 不 会 影响 到 分 配 : ext2_new_block 会 调用 多 次 ， 直 至 已 经 分 配 了 间接 机 侍 
需要 的 块 数 。 多 余 的 块 可 以 用 作 数 据 块 。 

最 后 ，ext2_alloc_branch 只 需要 建立 间接 块 的 Indirect 实 例 ， 工 作 就 完成 了 。 

显然 ， 繁 重 的 工作 隐藏 在 ext2_new_blocks 之 中 。 图 9-13 的 代码 流程 图 证 实 了 这 一 点 。 








































































































exXt2_new_blocks 


















判断 是 否 能 够 使 用 预 分 配 的 区 域 ? 




















ext2_has_free blocks 














ext2_get_group_desc 




















如 果 没 有 足够 的 空闲 块 可 用 ， 则 禁用 预 分 配 机 制 


ext2_try_to_allocate with rsv 
分 配 成 功 ? 更 新 统计 量 并 返回 | 



























































否 >| 尝试 不 同 的 块 组 | 
分 配 成 功 ? 上 过 | 更 浙 统 计量 并 返回 
否 
预 分 配 机 第 
































图 9-13 ”ext2_new_blocks 的 代 人 码 流 程 图 























回想 一 下 ,我们 知道 Ext2 文 持 预 分 配 ， 该 机 制 一 部 分 由 ext2_new_blocks 处 理 。 即 使 不 考虑 预 分 
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配 的 细节 ， 分 配 新 块 的 机 制 已 经 足够 复杂 了 ， 因 此 我 们 首先 不 考虑 预 分 配 ， 避 免 将 问题 复杂 化 。 稍 后 
我 们 再 讨论 预 分 配 机 制 的 工作 方式 。 

ext2_new_blocks 的 原型 (注意: ext2_fsblk_t 通 过 typedef 定 义 为 unsigned long， 表 示 一 个 
块 号 )， 如 下 所 示 : 

fs/ext2/balloc.c 


ext2_fsblk t ext2 new blocks(struct inode *inode, ext2_ fsblk t goal, 
unsigned long *count, int *errp) 









































{ 




















inodqe 表 示 当 前 是 为 哪个 inode 进 行 分 配 操作 ， 而 count 指 定 了 所 需 的 块 数 。 由 于 该 函数 返回 已 分 
配 的 块 序列 中 第 一 个 块 的 块 号 ， 因 而 无 法 通过 函数 结果 传递 可 能 的 错误 码 ， 所 以 需要 使 用 参数 errp。 
最 后 ，goal 参 数 指 定 了 一 个 目标 块 。 这 向 分 配 代 码 提供 了 一 点 提示 ， 即 优先 从 哪个 块 分 配 。 当 然 这 只 
是 建议 : 如 果 该 块 不 可 用 ， 那 么 可 以 选择 任何 其 他 块 。 
f 先 ， 该 函数 判断 是 否 应 该 使 用 预 分 配 机 制 ， 并 创建 一 个 预 留 而 不 分 配 的 区 域 。 判 断 很 简单 : 如 
果 inode 带 有 预 分 配 信息 ， 则 使 用 该 机 制 ， 否则 不 使 用 。 
只 有 在 文件 系统 至 少 包 含 一 个 空闲 块 的 情况 下 ， 分 配 才 有 意义 ，ext2_has_free_blocks 对 此 进 
行 检查 。 如 果 不 满足 该 条 件 ， 则 立即 取消 分 配 操作 。 

在 理想 情况 下 ， 目 标 块 应 该 是 空 闻 的 ， 但 实际 上 未 必 如 此 。 实 际 上 ， 目标 块 甚至 可 能 根本 不 是 有 
效 的 块 ， 内 核 需要 对 此 进行 检查 (es 是 所 述 文件 系统 的 ext2_super_pblock 实 例 )。 


fs/ext2/balloc.c 
if (goal < le32_ to_ cpul(es->s_first data block) || 
goal >= le32_to_cpul(es->s_blocks_count)) 
goal = le32_ to cpu(es->s_first data block); 
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group_no = (goal -le32 to_ cpul(es->s_ first data block)) / 
EXT2_BLOCKS_PER_GROUP (sb); 

goal_group = group._no; 
retry_alloc: 

gdp = ext2_get_group_desc(sb, group_no, &gdp_bh); 


如 果 目 标 块 不 在 有 效 范围 内 ， 则 将 文件 系统 的 第 一 个 数据 块 选 为 新 目标 块 。 无论 如 何 ， 都 需要 计 
算 目 标 块 所 在 的 块 组 。ext2_get_group_desc 提 供 了 对 应 的 组 描述 符 。 

然后 ， 又 需要 对 预 分 配 机 制作 一 点 筹 记 工 作 。 如 果 启 用 了 预 分 配 ， 但 空闲 空间 不 够 ， 那么 关闭 该 
机 制 。 通 过 调用 ext2_try_to_allocate_with_rsv， 内 核 试图 实际 分 配 所 需 的 数据 块 ， 有 可 能 使 用 
预 分 配 机 制 。 该 函数 将 在 下 文 讨论 。 

现在 ， 我们 只 是 讨论 两 个 可 能 的 结果 。 

(1) 分 配 成 功 。 在 这 种 情况 下 ，ext2_new_blocks 需 要 更 新 统计 信息 ， 然 后 返回 到 调用 者 。 

(2) 如 果 当 前 块 组 无 法 满足 请 求 ， 则 尝试 所 有 其 他 的 块 组 。 如 果 仍 然 失败 ， 则 重新 开始 整个 分 配 ， 

禁用 预 分 配 机 制 ( 以 防 该 机 制 此 时 仍然 是 启用 的 ， 回 想 一 下 ， 该 机 制 在 默认 情况 下 可 能 已 经 关闭 ， 

或 在 前 面 的 分 配 过程 中 已 经 关闭 )。 
en000000 
在 Ext2 分 配 函 数 的 层次 中 ， 我 们 接触 最 深 的 是 ext2_try_to_allocate_ with_rsv。 然 而 ， 有 个 
好 消息 : 内 核 源 代码 注 明 ， 该 函数 是 用 于 分 配 新 块 及 预 留 窗口 的 主要 函数 。 很 好 ! 要 注意 ， 现 在 是 个 
很 好 的 时 机 ， 读 者 可 以 回想 一 下 9.2.2 节 介绍 的 预 分 配 数据 结构 ， 它 们 形成 了 预 留 窗口 机 制 的 核心 。 
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ext2_try_to_allocate_rsv 的 代码 流程 图 在 图 9-14 中 给 出 。 基 本 上 ， 该 函数 处 理 一 些 预 留 窗口 
问题 , 并 将 分 配 任务 委托 给 ext2_try_to_allocate, 这 是 链条 的 最 后 一 环 。 ext2_try_ 
with_rsv 与 进行 分 配 的 inode 没 有 
这 意味 着 不 使 用 预 留 窗口 机 制 。 


ext2_try_to_allocate with rsv 























to_allocate 


接 关联 ,但 预 留 窗口 仍然 作为 一 个 参数 传递 。 如 果 指 定 NULL 指 针 ， 
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exXt2_try to_allocate 


显 式 指定 不 使 用 预 留 



































































































,以 要 建新 的 预 留 窗 
Re 使 用 alloc_new_reservation 
号 攻 坊 仔 的 黄 


















































使 用 预 留 窗 


























计算 优先 选用 的 分 配 范围 


组 中 没有 目标 块 ? find next usable block 


a ? -起 到 第 一 个 空闲 其 | 











































































































试图 分 配 所 需 数 目的 块 


























图 9-14 ext2_try_to_allocate_with_rsv 的 代码 流程 图 


因而 ， 第 一 个 检查 需要 判断 是 否 使 用 预 分 配 机 制 。 如 果 不 使 用 ， 则 立即 调用 ext2_try_to_ 
allocate。 类 似 地 ， 该 函数 也 有 一 个 参数 表示 预 留 窗口 信息 ， 如 果 传 递 了 NULL 指 针 ， 则 表示 不 使 用 
预 分 配 机 制 。 如 果 存 在 预 留 窗口 ， 则 内 核 检查 是 否 需要 更 新 预 分 配 信息 ， 如 有 必要 ， 则 更 新 预 分 配 信 
息 。 在 这 种 情况 下 ， 调 用 ext2_try_to_allocate 时 也 会 指定 使 用 预 留 窗口 。 

在 调用 ext2_try_to_allocate 之 后 ， 如 果 分 配 确 实在 预 留 窗 口中 进行 ， 则 ext2_try_to_ 
allocate_with_rcv 需 要 更 新 预 留 命中 统计 信息 。 如 果 能 够 分 配 所 需 数目 的 块 ， 那 么 任务 就 结束 了 。 
否则 ， 需 要 重新 修改 预 留 窗口 设置 ， 并 再 次 调用 ext2_try_to_allocate。 
内 核 根 据 何 种 原则 来 更 新 预 留 窗口 ? 下 面 是 分 配 块 的 循环 : 
fs/etc2/balloc.c 
static ext2_grpblk 七 


ext2_try_to allocate with rsv(struct super block *sb, unsigned int group, 
struct buffer head *bitmap_ bh, ext2_ grpblk t grp_goal, 

struct ext2_reserve window node * my_rsyv, 

unsigned long *count) 


{ 






































































































































































































































group_first_block = ext2_group, first_block no(sb, group); 
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group_last block = group_first block + (EXT2_ BLOCKS_ PER_ GROUP(sb) - 1); 


while (1) { 

if (rsv_is_empty(&my_rsv->rsv window) || (ret < 0) || 

lgoal_in my reservation(&my_rsv->rsv_window, 
grp_goal, group, sb)) { 
if (my_rsv->rsv_goal_size < *count) 
my_rsv->rsv_goal_ size = *count; 
ret = alloc new reservation(my_rsv, grp_goal, sb, 
group, bitmap_bh); 


if (!goal_in my reservation(&my_ rsv->rsv_window, 
yrp yoals Yroup: Sb}} 
grp_goal = -1; 
} else if (grp_goal >= 0) { 
int curr = my_rsv->rsv_end 一 
(grp_goal + group_first block) + 1; 


if (curr < *count) 
try_to_extend reservation(my_rsv, sb, 
*cCount - curr); 


ret = ext2_try_to allocate(sb, group, bitmap_ bh, grp_goal, 
Enum, &my_rsv->rsv_window); 
if (ret >= 0) { 
my_rsv->rsv_alloc hit += num; 
*Count = num; 
break; /* 成 功 */ 
} 
num = *count; 
} 
return ret; 


} 














如 果 没 有 与 文件 关联 的 预 留 区 域 ( 由 rsv_is_empty 负 责 检查 ), 或 预期 目标 块 不 在 当前 预 留 窗 


内 部 (由 goal_in_my_reservation 检 查 )， 内 核 需要 创建 一 个 新 的 预 留 窗口 。 这 个 任务 委托 给 
alloc_new_reservation， 新 的 预 留 窗口 将 包含 目标 块 (下 文 将 详细 讨论 该 函数 )。 尽 管 
alloc_new_reservation 试 图 找到 一 个 包含 目标 块 的 区 域 ， 但 这 未 必 是 可 能 的 。 在 这 种 情况 下 ， 
grp_goal 将 设置 为 -1， 表 示 不 使 用 目标 块 。 
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grp_goal rsv_end 


9-15 ”检查 预期 的 分 配 是 否 能 够 在 给 定 的 预 留 窗口 内 进行 
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如 果 文 件 有 预 留 窗口 而 且 指 定 了 目标 块 《〈 根 据 条 件 grp_goal > 0 判断 )， 内 核 就 必须 检查 预期 的 
分 配 是 否 能 够 落 入 现存 的 预 留 窗口 中 。 预 期 分 配 日 标 (grp_goal) 指定 了 相对 于 块 组 起 始 处 的 0 0 块 
号 ， 代 码 由 此 开始 ， 计 算 直 至 块 组 末尾 的 块 数 ( 如 图 9-15 所 示 )。 如 果 count 给 出 的 预期 分 配 块 数 比 可 
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能 的 区 域 要 大 ， 则 用 try_to_extend_reservation 扩 展 预 留 窗口 。 该 函数 只 是 查询 预 分 配 数 据 结构 ， 
查看 是 否 有 其 他 的 预 留 窗口 阻 上 了 当前 窗口 增长 ， 以 便 在 可 能 的 情况 下 增长 窗口 。 

之 后 ， 内 核 可 以 将 分 配 请 求 连 同 〈( 可 能 修改 过 的 ) 预 留 窗口 传递 到 ext2_ 
然 该 函数 保证 在 有 空闲 空间 可 用 的 情况 下 分 配 若干 连续 块 ， 但 它 无 法 保证 有 预期 数目 的 块 可 用 。 这 对 
返回 值 有 一 些 隐 含 的 约束 。 虽 然 函 数 的 直接 返回 值 是 分 配 的 第 一 个 块 ， 不 过 分 配 的 块 数 必须 通过 指针 
num 返 回 |。 
如 果 可 以 分 配 一 些 空间 ， 那 么 ret 将 大 于 等 于 0。 内 核 接 下 来 需要 更 新 预 留 命中 计数 器 
rsv_alloc_hit， 并 通过 count 指 针 返 回 分 配 的 块 数 。 如 果 分 配 失败 ， 则 循环 需要 重新 开始 。 由 于 在 
这 种 情况 下 ret 是 负 的 ， 内 核 将 在 下 一 轮 循环 分 配 一 个 新 的 预 留 窗口 ， 这 是 由 最 初 的 if 条 件 语句 中 的 
条 件 ret<0 保 证 的 。 否则 ， 运 作 过 程 如 上 所 述 。 

最 后 ，ext2_try_to_allocate 人 负责 底层 分 配 ， 直 接 与 块 位 图 交互 。 回 想 可 知 ， 该 函数 可 以 处 理 
有 无 预 留 窗口 两 种 情况 。 内 核 现在 需要 搜索 块 位 图 ， 因 而 需要 确定 一 个 搜索 的 区 间 。 请 注意 ， 区 间 的 
边界 是 相对 于 当前 块 组 指定 的 。 这 意味 着 数值 从 0 开始 。 函 数 中 需要 区 分 若干 场景 ， 如 图 9-16 所 示 。 



































try_to_allocate。 虽 
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20000000 
或 中 标 块 ) y 标 块 
图 9-16 在 ext2_try_to_allocate 中 选择 用 于 块 分 配 的 搜索 区 间 





















































口 如 果 有 预 留 窗口 可 用 ， 而 且 该 窗口 从 块 组 内 部 开始 ， 那 么 需要 将 绝对 块 号 转换 为 块 组 内 的 相 
对 块 号 。 例 如 ， 如 果 块 组 起 始 于 块 100， 而 预 留 窗口 起 始 于 块 120， 那 么 预 留 窗 口 起 始 块 在 块 
组 内 部 的 相对 块 号 即 为 20。 
如 果 预 留 窗口 起 始 于 块 组 0 口 ， 则 使 用 相对 块 号 0 作为 起 点 。 
如 果 预 留 窗口 超出 了 当前 块 组 ， 那 么 搜索 区 间 受 限于 块 组 的 最 后 一 块 。 
口 如 果 没 有 预 留 窗口 ， 但 给 出 了 目标 块 ， 则 可 以 将 目标 块 用 作 起 始 块 。 
如 果 没 有 预 留 窗口 ， 也 没有 指定 目标 块 ， 那 么 搜索 从 块 0 开 始 。 在 两 种 情况 下 ， 它 们 都 将 块 组 
结束 块 作为 搜索 的 结束 块 。 
接 下 来 ext2_try_to_allocate 的 处 理 如 下 进行 : 


fs/ext2/balloc.c 

static int 

ext2_try_to allocate(struct super block *sb, int group, 
struct buffer head *bitmap_bh, ext2_ grpblk t grp_goal, 
unsigned long *count, 

struct ext2_reserve window *my_rsv) 


{ 







































































































































































ext2_grpblk tt start, end; 

/* 确定 起 始 和 结束 */ 
repeat: 

if (orp goaL <0) 寺 
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grp_goal = find next _ usable block(start, bitmap_ bh, end); 
if (!Imy rsv) { 
下 前 共 二 池 
for(i=0;i <7&&grp_ goal> start&& 
lext2_test_ bit(grp_ goal -1, 
bitmap_bh->b_data); 
i++, grp_goal--) 
} 
} 
start = grp_goal; 
如 果 没 有 给 出 目标 块 (grp_goal < 0)， 那 么 内 核 将 使 用 finaq_next_usable_block， 在 块 分 配 


































































































位 图 中 根据 此 前 选 定 的 区 间 ， 碍 找 第 一 个 空闲 比特 位 。 
finqd_next_usable_block 首 先进 行 逐 比特 位 搜索 ， 

分 配 目 标 附近 查找 空闲 块 。 如 果 有 可 用 空闲 块 ， 该 函数 将 返 
如 果 在 预期 目标 附近 没有 发 现 空闲 比特 位 ， 则 不 

一 个 空闲 字 节 对 应 于 8 个 连续 的 0 比特 位 ， 

位 的 位 置 。 如 果 上 述 方法 

搜索 单一 、 隔 离 的 空 闪 块 ( 当 然 是 最 坏 情形 )， 令 人 遗憾 的 是 ， 这 种 1 

























































































直至 到 达 下 一 个 64 位 边界 "。 该 函数 试 


图 在 





回 





对 应 的 比特 位 置 。 


再 逐 比特 位 搜索 , 而 是 逐 字 节 搜索 ,以 提高 性 能 。 
或 8 个 空闲 块 。 如 果 找 到 一 个 空 
仍然 查找 不 到 空闲 比特 位 ， 则 会 对 整个 范围 进行 逐 比 特 位 的 搜索 。 这 等 价 于 





亲 字 节 ， 则 返回 第 一 个 比特 

















圭 况 会 有 可 能 发 生 的 。 









































































































































我 们 回 到 ext2_try_to_allocate。 由 于 找到 的 比特 位 可 能 源 于 逐 字 节 的 搜索 ， 因 此 该 比特 位 之 
前 可 能 尚 有 7 个 空闲 比特 位 ， 要 对 这 些 比特 位 进行 查找 ， 以 确认 是 否 对 应 了 空闲 块 。 很 多 空闲 比特 位 
是 不 可 能 的 ， 和 否则 在 此 前 的 步骤 中 内 核 就 已 经 找到 空闲 字 节 了 。 算 法 中 总 是 尽 可 能 在 左 侧 分 配 新 块 ， 
使 得 右 侧 的 空闲 区 域 尽 可 能 大 。 

剩 下 的 工作 就 是 逐 比 特 位 遍历 块 位 图 。 在 每 个 步骤 中 ， 如 果 当 前 比特 位 没有 置 位 ， 就 都 分 配对 应 
块 。 回想 前 文 可 知 ， 分 配 一 个 块 ， 等 价 于 将 块 位 图 中 对 应 的 比特 位 置 位 。 如 果 遇 到 一 个 被 占用 的 块 ， 
或 者 已 经 分 配 了 足够 数目 的 块 ， 则 停止 遍历 。 























fs/ext2/balloc.c 


(ext2_set_bit_atomic(sb bgl_ lock (EXT2_SB(sb), 


TE 
/* 
* 该 块 由 另 一 个 线程 分 配 了 ， 
* 或 者 它 由 另 一 个 线程 先 分 配 ， 而 后 释放 
六 六 
BtAart++y 
grp_goalt+t+; 
if (start >= end) 
goto fail access; 
goto repeat; 
} 
num++; 
grp_goal+t+; 
while 


nNnUm++; 





GD 如 果 起 始 块 为 0， 那 么 fing_next_usable_pblock 假 定 没有 给 出 
从 下 一 个 搜索 步骤 











始 。 





(num < *count && grp_goal < end 
&& lext2_ set bit atomic(sb bgl_ lock (EXT2_SB(sb), 
grp_goal, 





group), grp_goal, 
bitmap_bh->b_data)) { 


group), 
bitmap_bh->b data)) { 
































标 块 ， 并 不 ; 





行 靠近 目标 的 搜查 。 相 反 ， 它 直接 
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grp_goal+t+; 
} 
*count = num; 
return grp_goal - num; 
fail_access: 
*count = num; 
return -1; 


} 

这 里 唯一 的 复杂 要 素 归 因 于 下 述 事实 : 在 内 核 选中 到 试图 分 配 之 间 的 一 段 时 间 内 ,第 一 个 比特 位 
可 能 已 经 被 另 一 个 进程 分 配 。 这 种 情况 下 ， 起 始 位 置 和 目标 块 位 置 都 加 1， 然 后 重新 开始 搜索 。 

e0000000 

上 文 提 到 ，alloc_new_reservation 用 来 创建 新 的 预 留 窗口 。 这 是 一 个 重要 的 任务 ， 现 在 将 这 
细 讨 论 。 图 9-17 给 出 了 该 函数 的 代码 流程 图 。 
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alloc new reservation 


计算 起 始 块 


有 旧 的 预 留 窗口 可 用 


Search_ reserve window 


find_ next_reservable window 



































































返回 错误 码 | 









































= 
预 留 窗口 中 有 空闲 块 ? 一 >| 返回 











We 
可 二 
图 9-17 alloc_new_reservation 的 代码 流程 图 


首先 ，alloc_new_reservation 确 定 从 哪个 块 开始 搜索 预 留 窗口 。 


fs/ext2/balloc.c 

static int alloc new reservation(struct ext2_reserve_window node *my_rsy, 
ext2_grpblk_t grp_goal, struct super_block *sb, 
unsigned int group, struct buffer head *bitmap_bh) 




















struct ext2_reserve window node *search head; 

ext2_fsblk t group_first block, group_end block, start_ block; 
ext2_grpblk t first_ free block; 

struct rb root *fs_rsv_root = &EXT2_SB(sb)->s_rsv_window_ root; 
unsigned long size; 

int ret; 











group_first block = ext2_ group_first block no(sb, group); 
group_end block = group_first block + (EXT2_ BLOCKS_ PER GROUP(sb) -1); 








if (grp_goal < 0) 
start. block = group._ first block:; 
else 
start block = grp_goal + group_ first block; 
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size = my_rsv->rsv_goal size; 





i 
留 














所 预 留 命 





a 已 经 对 口 信 成 ， 则 更 六 


fs/ext2/balloc.c 
if (!Irsv_is empty(&my_rsv->rsv_wind 


上 有 预 





























计数 器 ，j 


留 





口 大 小 : 





F 相 应 地 调整 预 


























/* 
跨越 了 组 边界 ， 
的 前 









































标 块 位 于 旧 的 预 留 窗 





























乃 然 有 

















内 ， 
这 里 。 




















控制 流 将 进入 至 














丢弃 原 


























要 





块 组 。 
分 配 是 不 必要 的 《会 失败 ) 。 






































我 们 应 该 保持 原 预 留 窗 


/ 





* XX XX A XX 交 


if ((my_rsv->rsv_start 





(star 
return -1; 


if ((my_rsv->rsv_alloc hit > 


(my_rsv->rsv_end -my_rsv->rsv_s 


/* 
的 预 留 命 中 率 大 于 





所 六 17/2， 


放 在 当 
至 少 移动 型 














<= group_end_ block) 
(my_rsv->rsv_end > group_engd_ block) 
t_block >= my_rsv->rsv_start)) 


tart 





* 如 果 此 前 
在 下 一 次 将 预 留 窗 











的 长 





站 
































* 那 么 我 机 
* 否 则 窒 口 的 长 度 保持 原 尺 十 


A 








size = size * 2;，; 


if (size > 











ESI 


ERVE 











size EXT2_MAX_R 


my_rsv->rsv_goal_ size= size; 


} 


明了 所 进行 的 操作 (特别 是 为 
如 果 已 经 计算 了 窗口 的 新 边界 (或 此 前 没有 预 
一 个 包含 了 目标 块 的 预 留 窗口 。 如 果 情 况 不 是 这 样 


内 核 代 码 精 确 地 说 
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十 么 
留 窗口 
则 返 
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块 组 
一 个 块 组 。 


&& 
&& 


+ 1) / 2)) 1{ 


度 加 倍 ， 


EXT2_MAX_RESERVE_BLOCKS ) 
BLOCKS; 


这 样 做 )， 无 需 进一步 次 


| 儿 不 作 到 
ee sn 是 否 有 





口 














标 块 之 前 的 窗口 。 所 选择 的 窗口 用 作 





























图 











仿 
fina reservable_window 的 起 点 ， 该 函数 试 





找到 























个 适当 的 新 预 留 窗口 。 最 后 ， 内 核 检查 




















next 
该 窗口 是 否 至 少 包含 了 一 个 空闲 比特 位 。 如 果 没 有 衬 亲 
该 窗口 。 和 否则 函数 成 功 地 返回 
3. 创建 和 删除 inode 
inode 也 必须 由 Ext2 文 件 
的 ， 处 理 目 录 和 文件 的 核心 代码 几乎 没什么 不 同 。 
首先 讲解 文件 或 目录 的 创建 。 
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件 
实例 中 上 
节 所 述 。 这 两 个 函 
我 们 首先 讲解 如 何 用 mkqir 创 建 
ext2_mkdir， 后 者 的 原型 如 下 : 


fs/ext2/namei.c 
static int ext2 mkdir(struct inode * dir, 




















的 函数 指针 。 














新 目 











位 ， 为 


系统 的 底层 函数 创建 和 删除 。 在 创建 (或 册 





如 第 8 章 所 述 ， open 和 和 mkdir 系统 
系统 的 各 种 函数 ， 最 终 到 达 create 和 mkdir 函 数 ， 二 者 都 是 特定 于 
而 后 进入 到 ext2_create 和 ext2_mkdir 消 数 ， 从 函数 指 
数 都 在 fs/ext2/namei .c 中 ， 二 者 的 代码 流程 图 
内 核 从 VFS 函 


struct dentry * dentry, 





所 预 贸 
b 么 它 对 预 分 配 是 没有 意义 的 ， 需 要 丢弃 








了 王 
女 








除 ) 文件 或 目录 时 ， 这 是 必 











于 此 。 它 们 通过 虚拟 文 
型 的 inoqe_operations 
针 到 二 者 的 关联 ， 如 9.2.4 
分 别 在 图 9-18 和 图 9-19 中 给 出 。 

数 vfs_mkqir 进 入 到 底层 函数 





调用 可 用 
文件 类 









































int mode) 


9.2 Ext2U00D0 S01 





ext2_new_inode 


















搬入 i_op、i_fop 和 i_mapping->a_ops 


ext2_adqd_ link 


图 9-18 ”ext2_mkdir 的 代码 流程 图 
ext2_new_inode] 


设置 i_op、i_fop 和 i_mapping->a_ops 


ext2_aqg nondir|—*|ext2 aca 1inxk] 


图 9-19 ”ext2_create 的 代码 流程 图 



























































dir 是 将 要 创建 新 子 目 录 的 父 目录 ，dentry 指 定 了 新 目录 的 路 径 名 。mode 指 定 了 新 目录 的 访问 模 


























式 。 











ext2_new_inode 在 人 硬盘 上 的 适当 位 置 分 配 了 一 个 新 的 inode 之 后 (下 一 节 将 讲述 内 核 如何 借 助 
Orlov 分 配器 找到 最 适当 的 位 置 )， 它 将 向 inode 提 供 适 当 的 文件 、inode 和 地 址 空间 操作 。 


fs/ext2/namei.c 
static int ext2 mkdir(struct inode * dir, struct dentry * dentry, int mode) 


{ 


























inode->i_op = &ext2 dir inode operations; 
inode->i_fop = &ext2_ dir operations; 
If (test_ opt(inode->i_sb, NOBH)) 
inode->i_mapping->a_ops = &ext2 nobh aops; 
else 
inode->i_mapping->a_ops = &ext2_aops; 


ext2_make_empty 问 inode 添 加 上 默认 的 .和 . .目录 项 ， 具 体 做 法 是 生成 对 应 的 目录 项 结构 ， 并 将 其 
写 入 到 数据 块 中 。 接 下 来 ，ext2_adq_link 将 新 目录 按 9.2.2 节 讲述 的 格式 ,添加 到 父 目 录 inode 的 数据 


| 





















































o 








创建 新 文件 的 方式 类 似 。sys_open 系 统 调 用 会 到 达 vfs_create， 后 者 会 调用 Ext2 文 件 系统 提供 














的 底层 函数 ext2_create。 Ee 
该 函数 借助 ext2_new_inode 在 人 硬盘 上 分 配 一 个 新 的 inode 之 后 ， 会 添加 适当 的 文件 、inode、 地 址 
空间 操作 ， 这 一 次 使 用 的 是 对 应 普通 文件 的 结构 实例 ， 即 ext2_file_inode_operations 和 


ext2_file operations。 

















UUinodeDDUinodeuUuUu0Uu000000000 
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ext2_agq_nondir 负 责 将 新 文件 添加 到 目录 层次 结构 ， 该 函数 又 立即 调用 了 我 们 熟悉 的 


ext2_adq_1ink 函 数 。 
4. 注册 inode 























在 创建 目录 和 文件 时 ，ext2_new_inoqe 用 于 为 新 的 文件 系统 项 查找 一 个 空闲 的 inode。 但 搜索 策 





略 随 情 况 而 变 ， 这 可 以 




















根据 mode 参 数 区 分 (对 目录 会 设置 s_IFDIR， 对 普通 文件 不 设置 )。 









































搜索 本 身 对 性 能 没什么 要 求 ， 但 从 文件 系统 的 性 能 来 考虑 ， 最 好 将 inode 定 位 到 一 个 能 够 快速 访 





问 数据 的 位 置 。 为 此 ， 


























内 核 采 用 3 种 不 同 的 策略 。 


(1) 对 目录 inode， 














(2) 对 目录 inode 进 行经 典 分 配 。 仅 当 oldqalloc 选 项 传递 到 内 核 ， 禁 用 了 Orlov 分 配 时 ， 才 会 这 样 


























本 节 将 讨论 内 核 所 采用 的 分 布 inode 的 策略 。 











进行 Orlov 分 配 。 








做 。 通 常 Orlov 分 配 是 默认 策略 。 














(3) 普通 文件 的 inode 分 配 。 














下 文 将 分 别 讲解 这 3 种 选项 。 


@ OrlovU 口 














在 查找 目录 inode 时 ， 使 用 了 Grigoriv Orlov 针 对 OpenBSD 内 核 提 出 并 实现 的 一 种 标准 方案 。 该 方 





案 的 Linux 版 本 开发 得 


























上 较 晚 。 该 分 配器 的 目标 在 于 ， 确 保 子 目录 的 inode 与 父 目 录 的 inode 在 同一 块 组 


























中 ， 使 二 者 在 物理 上 较 
一 块 组 中 ， 那 将 使 得 它 








为 接近 ， 从 而 最 小 化 硬盘 寻 道 开销 。 当 然 , 0 DODD 目录 inode 都 应 该 出 现在 同 
们 与 相关 的 数据 距离 太 远 。 



































该 方案 会 区 分 新 目录 是 在 全局) 根 目 录 下 创建 ， 还 是 在 文件 系统 中 的 其 他 位 置 创 建 ， 如 图 9-20 








中 finq_group_orlov 的 代码 流程 图 所 示 。 









































尽管 子 目 录 inode 应 该 与 父 目 录 inode 尽 可 能 靠近 ， 但 文件 系统 根 目 录 的 子 目 录 ， 其 inode 应 该 尽 可 
































能 分 散 开 来 。 否 则 ， 目 


EngESECUDEOETO 





录 将 聚集 到 某 个 特定 的 块 组 中 。 



















父 目录 是 根 目录 ? 


























始 搜索 








从 当前 组 





遍历 所 有 组 

























































算法 选择 块 组 


返回 块 组 编号 


图 9-20 ”fing_group_orlov 的 代码 流程 图 











我 们 首先 讨论 标准 情形 , 即 在 目录 树 中 某 个 位 置 (并 非 根 目录 下 ) 创建 新 子 目 录 。 这 对 应 于 图 9-20 


















































中 右 侧 的 分 支 。 内 核 计 算出 几 个 变量 , 据 此 判断 是 否 适 合 将 目标 目录 的 inode 放 入 到 所 考察 的 块 组 中 (我 

















重 排 了 代码 ， 以 便 读者 


fs/ext2/ialloc.c 














更 容易 理解 ): 





int ngroups = sbi->s_groups_count; 
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int inodqes_per_group = EXT2_INODES_PER_ GROUP (sb); 








freei = percpu counter _ read positive(&sbi->s_freeinodes_ counter); 
avefreei = freei / ngroups; 
free blocks = percpu counter _ read positive(&sbi->s_freeblocks counter); 
avefreeb = free_ blocks / ngroups; 
ndirs = percpu counter read positive(&sbi->s_ dirs counter); 





blocks per_ dir = (le32 to _ cpu(es->s_blocks count)-free blocks) / ndirs; 


max_dirs = ndirs / ngroups + inodes per group / 16; 
min inodes = avefreei -inodes_ per group / 4; 
min_ blocks = avefreeb -EXT2_ BLOCKS_PER GROUP(sb) / 4; 














max_debt = EXT2_BLOCKS_PER_ GROUP(sb) / max(blocks_ per_dir, BLOCK_ COST); 
IE (max debt * INODE COST > inodes_ per_group) 

max_debt = inodes per_group / INODE_ COST; 
if (max_ debt > 255) 











max_ debt = 255; 
if (max_debt == 0) 
max debt = 1; 


avefreei 和 avefreeb 分 别 表 示 空 闪 inode 和 空闲 块 的 数目 (可 以 从 与 超级 块 关联 的 近似 的 各 CPU 
计数 器 读 取 ) 除 以 块 组 的 数目 。 这 两 个 值 表示 各 组 中 空 闪 inode 和 空闲 块 的 平均 数目 。 这 是 前 级 ave 的 
来 。 
max_dirs 指 定 了 一 个 块 组 中 目录 inode 数 目的 绝对 上 限 。min_inodes 和 min_blocks 定 义 了 在 块 
组 中 创建 新 目录 之 前 ， 要 求 块 组 中 空闲 inode 和 空闲 块 的 最 小 数目 。 
dept 是 一 个 0 到 255 之 间 的 数值 。 每 个 块 组 对 应 于 一 个 aebt 值 ， 保 存在 sxt2_sb_info 实 例 的 
s_debts 数 组 中 (9.2.2 节 有 ext2_sb_info 的 定义 )。 每 次 创建 一 个 新 的 目录 inode 时 ， 将 该 值 加 1 (在 
ext2_new_inode 中 )， 而 在 将 该 inode 用 于 不 同 目的 时 (通常 是 普通 文件 )， 将 该 值 减 1。 因 击 ，gdebt 
的 值 是 块 组 中 目录 数目 与 inode 数 目 比 例 的 一 个 标志 。 
从 父 目 录 所 在 的 块 组 开始 ， 内 核 毅 历 所 有 的 块 组 ， 直 至 满足 下 例 准则 : 
口 目录 数 不 超 过 max_ngir; 
口 空闲 inode 数 目 不 少 于 min_inodes， 空 闲 块 数目 不 少 于 min_blocks; 
口 dept 值 不 超过 max_dept， 即 目录 的 数目 没有 失去 控制 。 
如 果 有 一 个 准则 0 满足 ， 则 跳 过 当前 块 组 ， 检 查 下 一 个 : 


fs/ext2/ialloc.c 
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for (i = 0; i < ngroups; i++) { 

group = (parent_ group + i) % ngroups; 

desc = ext2_get_group_desc (sb, group, NULL); 

if (!desc || !desc->bg_free inodes_count) 
continue; 

If (sbi->s_debts[group] >= max_debt) 
continue; 

if (lel16_to_ cpul(desc->bg used dirs count) >= max_ dirs) 
continue; 

if (lel16_ to_ cpul(desc->bg_ free inodes count) < min inodes) 
continue; 

if (lel16_to_ cpul(desc->bg_free blocks count) < min blocks) 
continue; 


goto found; 
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inode 数 目 超 日 


支 所 示 





循环 起 始 处 的 取 余 运算 # 确 保 了 在 到 达 分 区 的 最 后 一 个 块 组 时 ， 搜 索 将 从 第 一 个 块 组 重新 开始 。 
在 找到 适当 的 块 组 之 后 (算法 上 自动 地 保证 了 该 块 组 尽 可 能 靠近 父 目 录 inode 所 在 的 块 组 ， 除 非 父 
目录 inode 已 经 删除 )， 内 核 只 需要 更 新 对 应 的 统计 计数 器 ， 并 返回 组 编号 。 如 果 没 有 满足 需求 的 组 ， 
则 借助 一 个 要 求 较 低 的 “备用 ”算法 ， 重 新 开始 搜索 : 


fs/ext2/ialloc.c 
fallback: 


下 奖 


(1 














心 







































































= 0; i < ngroups; i++) { 


group = (parent_ group + i) % ngroups; 

desc = ext2_get_group_desc (sb, group, &bh); 

if (!desc || !desc->bg_ free_ inodes_ count) 
continue; 


If (lel6_ to _ cpul(desc->bg_free inodes count) >= avefreei) 
goto found; 


return -1; 


这 一 次 ， 内 核 仍 然 从 父 目 录 所 在 块 组 开始 ， 然 后 顺序 扫描 各 个 块 组 。 但 这 一 次 内 核 具 要 遇 到 空闲 


















































上 平均 值 〈 由 avefreei 指 定 ) 的 第 一 个 块 组 ， 即 返回 该 块 组 。 



































当 在 系统 根 目录 下 创建 新 的 子 目录 时 ， 上 述 方法 会 有 轻微 修改 ， 如 图 9-20 中 的 代码 流程 图 左 侧 分 











为 将 















































目录 的 inode 尽 可 能 均匀 地 散布 到 文件 系统 中 ， 根 目录 的 直接 子 目 录 的 inode， 将 按照 统计 规 
律 分 布 到 各 个 块 组 中 。 内 核 使 用 get_random_bytes 选 择 一 个 随机 数 , 将 其 对 ngroups 取 余 , 使 得 该 值 
不 超过 现存 块 组 的 最 大 数目 。 内 核 接 下 来 遂 历 随机 选择 的 块 组 及 其 后 续 块 组 : 


























fs/ext2/ialloc.c 
get_random bytes(&group, sizeof (group)); 


parent_group = (unsigned)group % ngroups; 
for (i = 0; i < ngroups; i++) { 
Group = (parent group + i) % ngroups; 
desc = ext2_get_group_desc (sb, group, &bh); 
if (!desc || !desc->bg_ free_ inodes_ count) 
continue; 
if (lel6_ to_ cpul(desc->bg used dirs count) >= best ndir) 
continue; 
if (lel6_ to_ cpul(desc->bg_ free inodes count) < avefreei) 
continue; 
if (lel6_ to_cpul(desc->bg_free blocks count) < avefreeb) 
continue; 


. 


best_group = group; 

best_ndir lel6_to_ cpul(desc->bg used dirs count); 
best_desc desc; 

best_bh = bh; 








空闲 inode 数 目 和 空闲 块 数目 不 能 小 于 avefreei 和 avefreep， 而 现存 目录 的 数目 要 小 于 
best_ndir。best_ndir 的 初始 值 是 inodes_per_group， 内 核 在 搜索 期 间 会 将 其 更 新 为 块 组 中 目录 的 








最 小 

















= 











小 


直 。 胜 利 者 就 是 目录 项 最 少 ， 且 满足 男 外 两 个 条 件 的 块 组 。 
I 果 找 到 了 适当 的 块 组 ， 内 核 将 更 新 统计 量 并 返回 所 选 的 块 组 编写。 否则 ， 代 用 机 制 将 生效 ， 
日 查 找 一 个 质量 稍 差 的 块 组 。 
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e000000 

内 核 版 本 2.4( 包 含 ) 之 前 , 并 不 使 用 Orlov 分 配器 , 而 是 使 用 如 下 所 述 方法 , 称 之 为 0 0 DD (classic 
allocation ) 。Ext2 文 件 系 统 可 使 用 oldalloc 选 项 装载 ， 这 将 设置 超级 块 的 s_mount_opt 字 段 中 的 
EXT2_MOUNT_OLDALLOC 比 特 位 。 在 使 用 该 装载 选项 时 ， 内 核 将 不 再 使 用 Orlov 分 配器 ， 而 是 采取 经 典 
的 方案 ， 来 进行 目录 inode 的 分 配 ?。 

经 典 方案 的 工作 方式 如 何 呢 ? 系统 的 各 个 块 组 通过 前 向 搜索 进行 扫描 ， 要 特别 注意 以 下 两 个 条 








































































































件 : 











(1) 块 组 中 应 该 仍然 有 空闲 空间 ; 
(2) 与 块 组 中 其 他 类 型 的 inode 相 比 ， 目 录 inode 的 数目 应 该 尽 可 能 小 。 
在 这 种 方案 中 ， 目 录 inode 通 常会 尽 可 能 均匀 地 散布 到 整个 文件 系统 。 
如 果 没 有 满足 要 求 的 块 组 ， 内 核 会 选择 空闲 空间 超出 平均 水 平 且 目录 inode 数 目 最 少 的 块 组 。 
eUU00D0inodeDUDU 
在 为 普通 文件 、 链 接 和 目录 以 外 的 所 有 其 他 文件 类 型 查找 inode 时 ， 应 用 了 一 个 更 简单 的 方案 ， 
称 之 为 0 口 口 口 《quadratic hashing)。 它 基于 前 向 搜索 ， 从 新 文件 父 目 录 inode 所 在 的 块 组 开始 。 将 使 
找到 的 有 空闲 inode 的 第 一 个 块 组 。 
首先 搜索 父 目 录 inode 所 在 的 块 组 。 我 们 假定 从 其 组 ID 是 start。 如 果 该 块 组 没有 空闲 ipode， 则 内 
核 扫 描 编 号 为 start +2" 的 块 组 ， 然 后 是 编号 为 start +2"+21 的 块 组 ， 编 号 为 start +2" +2'+2* 的 块 组 ， 
等 等 。 每 步 向 组 编号 加 上 一 个 2 的 更 高 次 协 ， 构 成 的 序列 是 1，1+2，1+2+4，1+ 2+4+8，…， 即 序列 1， 
33 9y. 7 Sy ses 
通常 ， 该 方法 会 很 快 找到 一 个 空闲 inode。 但 如 果 在 几乎 全 满 的 文件 系统 上 ， 没 有 找到 空闲 inode 
(几乎 没什么 希望 )， 那 么 内 核 将 扫描 所 有 块 组 ， 尺 一 切 努 力争 取 找 到 一 个 空闲 的 inode。 内 核 仍 然 会 选 
择 有 空闲 inode 的 第 一 个 块 组 。 如 果 完 全 没有 空闲 inode 可 用 ， 则 放弃 操作 ， 返 回 一 个 对 应 的 错误 码 ?。 
5. 删除 inode 
目录 和 文件 的 inode 都 可 以 删除 ， 而 且 从 文件 系统 的 角度 来 看 ， 这 两 个 操作 比分 配 inode 的 操作 都 
简单 得 多 。 
我 们 首先 讨论 如 何 删除 目录 。 在 调用 适当 的 系统 调用 〈zmdqir) 之 后 ， 代 码 迁 回 穿 过 内 核 ， 最 终 
到 达 inode_operations 结 构 的 rmdir 函 数 指针 。 对 于 Ext2 文 件 系 统 来 说 ， 它 指向 fs/ext2/namei.c 
中 的 ext2_rmdir 气 数 。 
删除 目录 需要 以 下 两 个 主要 的 操作 : 
(1) 首先 ， 从 父 目 录 的 inode 数 据 区 中 ， 删 除 当前 目录 对 应 的 目录 项 ; 
(2) 接 下 来 ， 释 放 人 硬盘 上 已 经 分 配 的 数据 块 〈inode 和 用 于 保存 子 目录 项 的 数据 块 )。 
如 图 9-21 中 的 代码 流程 图 所 示 ， 这 是 分 儿 个 步骤 完成 的 。 
为 确保 要 删除 的 目录 不 再 包含 任何 文件 ， 需 要 使 用 ext2_empty_qdir 函 数 检查 其 数据 块 的 内 容 。 
如 果 内 核 只 找到 对 应 于 .和 .. 的 目录 项 ， 则 该 目录 可 以 删除 。 否则 ， 放 弃 操 作 并 返回 错误 码 
( -ENOTEMPTY )。 


从 父 目 录 的 数据 块 中 删除 对 应 目录 项 的 工作 ， 委 托 给 ext2_unlink 函 数 。 在 目录 表 中 查找 对 应 



















































































































































































































































































































































































































































































G 如 果 按 照 与 日 的 内 核 版 本 的 兼容 性 来 考虑 ， 是 否 使 用 Orlov 分 配器 分 配 目录 inode 是 没有 差别 的 ， 因 为 文件 系统 的 
格式 没有 变化 。 

@ 实际 上 ， 这 种 情况 几乎 从 来 都 不 会 发 生 ， 仅 当 硬 盘 包 含 了 极 大 数目 的 小 文件 时 才 有 可 能 ， 而 标准 系统 上 这 是 很 少 
见 的。 更 真实 的 情况 《实际 上 经 常 遇 到 ) 是 这 样 ， 所 有 的 数据 块 都 已 经 分 配 出 去 ， 但 还 剩 下 大 量 空闲 的 inode。 
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506 [090 Ext0000D0 
录 项 的 工作 使 用 ext2_fing_entry 函 数 完成 ,该 函数 依次 扫描 各 个 目录 项 (9.2.2 节 讲述 了 用 于 存储 各 
个 目录 项 的 方案 )。 如 果 找 到 匹配 项 ,该 函数 会 返回 一 个 能 够 唯一 标识 该 录 项 的 ext2_dir_entry_2 








实例 。 


ext2_delete_entry 将 该 
上 删除 。 相 反 ， 通 过 对 ext2_qir_en 
下 删除 项 。 如 上 所 述 ,这 种 方法 能 够 在 很 大 程度 上 提高 速度 ， 因 

这 种 做 法 优点 和 缺点 兼 而 有 之 。 
权限 )， 通 过 重 置 被 
而 有 可 能 恢复 被 删除 的 文件 。 
被 删除 ， 这 种 做 法 可 以 说 
么 只 要 了 解 一 点 技术 诀 穿 ， 就 可 














ea 








er 
























ext2_ empty_dir 






ext2_find entry 


ext2_delete_ entry 




































图 9-21 


目录 项 从 














Ery_2 结 构 的 rec_len 字 段 进 行 设置 ， 以 





ext2_rmqdir 的 代码 流程 图 


及 除 。 如 9.2.2 节 所 述 ， 





目录 表 中 





目录 表 中 对 应 的 数据 并 未 从 物 
便 在 扫描 目录 表 时 跳 过 
























































| 除 文 























抽 需 用 重 写 大 量 数据 。 








为 实际 删除 





目录 























通过 查看 文件 系统 在 便 盘 上 的 结构 (假定 有 读 写 分 区 上 裸 数 据 的 




















牛 目 录 项 的 前 














Ik 





























吕 除 文件 的 目录 项 ， 从 





一 项 的 rec_len 字 段 ， 即 可 重新 激活 被 











然 ， 前 提 是 该 文件 分 配 的 数据 块 尚未 被 其 他 数据 和 覆盖。 如 果 敏 感 数据 
F 明 是 最 后 的 挽救 手段 。 当 然 ， 它 也 是 危险 的 来 源 。 如 果 数 据 尚 未 被 覆盖 ， 那 
以 访问 数据 ”。 




































































没有 条 


i 








置 为 0; inode 的 数据 仍然 在 块 中 ， 有 可 能 用 于 重建 文件 的 内 容 。 
UUUUinodeUD0D0 


内 核 现在 已 经 从 文件 系统 
些 数 据 块 何 时 释放 ? 
UNIX 文 件 系统 的 结 
通过 文件 系统 中 若干 个 路 径 名 ,访问 同 一 inode (以 及 相关 的 数据 块 ;。 但 inode 结 构 中 的 nlink 计 数 器 
记录 了 指向 同一 inode 的 硬 链接 数目 。 

每 次 删除 一 个 指向 inode 的 硬 链 接 时 ， 文 件 系统 代码 将 该 计数 器 减 1。 在 计数 器 值 
余 的 硬 链接 了 ， 可 














用 除了 目录 项 ， 但 用 于 inode 和 目录 内 容 的 数据 块 仍 然 标 记 为 








占用 。 这 












































[以 释放 inode。 


U0D0D0 








4 构 特征 (如 第 8 章 所 述 ) 要 求 用 户 需 要 谨慎。 如 果 使 用 了 硬 链接 ， 用 户 就 可 以 








到 达 0 时 ， 已 经 
中 对 应 的 比特 位 设 























这 一 次 ， 还 应 该 注意 到 : 只 是 将 inode 位 图 

















UUOOO0OO0OU0Uinode0Uu0Ou000000 iput0DD 





UUUO0UUUinode00O000D0 





删除 普通 文件 与 删除 目录 有 

















什么 差 








大 








针对 目录 的 ， 
似 。 从 unlin 





上 文 针对 目录 


而 可 以 月 
k 系 统 调 
inodqe_operations->unlink 操 作 。 对 了 


出 除 讲述 的 大 部 分 内 容 ， 同 样 适用 于 删除 普通 文件 、 链 接 ， 等 等 。 


日 于 一 般 的 inode 类 型 。 事 实 上 ， 删 除非 























开始 ， 








内 核 会 调 


别 ? 上 述 大 部 分 操作 《〈 除 ext2_empty_qir 之 外 ) 都 不 是 明确 
目录 inode 的 过 程 与 上 文 的 讲述 非常 类 
jVFS 函数 vfs_unlink， 它 会 调用 特定 于 文件 的 
FExt2 文 件 系统 ， 该 操作 指向 ext2_unlink， 前 文 已 经 提 到 过 。 




































































Qa 在 删除 之 


]， 


显 式 用 














0 字 节 和 覆盖 文件 的 内 容 ， 可 以 作为 补救 措施 。 
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6. 删除 数据 块 
在 如 上 所 述 的 删除 操作 中 ， 没 有 触及 数据 块 ， 部 分 原因 是 硬 链接 问题 。 数 据 块 的 删除 与 inode 对 
象 的 引用 计数 密切 相关 ， 在 可 以 实际 删除 数据 块 之 前 ， 必 须 满足 两 个 条 件 : 

(1) 便 链 接 计 数 器 nlink 必 须 为 0， 确 保 文 件 系 统 中 不 存在 对 数据 的 引用 ; 

(2) inode 结 构 的 使 用 计数 器 (i_count) 必须 从 内 存 刷 出 。 

内 核 使 用 iput 函 数 , 将 内 存 中 inode 对 象 的 引用 计数 器 减 1。 因 而 在 其 中 进行 检查 以 确认 inode 是 否 
仍然 需要 ， 是 有 意义 的 。 如 果 不 再 需要 ， 则 删除 该 inode。 这 是 虚拟 文件 系统 的 一 个 标准 函数 ， 在 这 里 
不 详细 讨论 了 。 我 们 唯一 比较 感 兴趣 的 一 个 方面 是 ,内核 调用 了 ext2_delete_inode 函 数 释放 硬盘 上 
与 该 inode 相 关 的 数据 〈iput 也 会 释放 内 存 数据 结构 和 为 数据 分 配 的 内 存 页 )。 该 函数 主要 依赖 其 他 两 
个 函数 : ext2_truncate 释 放 与 该 inode 相 关 的 数据 块 〈 无 论 inode 表 示 的 是 目录 还 是 文件 )， 而 
ext2_free inode 释 放 由 inode 本 身 占用 的 内 存 空间 。 


国人 
UUinode0UU0Ou000o0u0u00D0 


于 这 两 个 函数 都 是 创建 文件 所 使 用 技术 的 逆 过 程 ， 所 以 这 里 不 需要 讨论 其 实现 。 
7. 地 址 空间 操作 
在 9.2.4 节 中 ， 讨 论 了 与 Ext2 文 件 系统 相关 的 地 址 空间 操作 。 各 个 函数 指针 大 多 指向 前 级 为 ext2_ 
的 函数 。 初 看 起 来 ， 可 以 认为 这 些 都 是 专用 于 Ext2 文 件 系统 的 实现 。 

但 事实 并 非 如 此 。 大 多 数 函 数 都 使 用 了 虚拟 文件 系统 的 标准 实现 ， 后 者 使 用 9.2.4 节 讨论 的 函数 作 
为 与 底层 代码 的 接口 。 例 如 ，ext2_readpage 的 实现 如 下 : 


fs/ext2/inode.c 
static int ext2_ readpage(struct file *file, struct page *page) 
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return mpage_readpage (page, ext2 get_ block); 


} 

该 函数 只 是 mpage_readpage 标 准 函 数 〈 将 在 第 16 章 介绍 ) 的 一 个 透明 的 前 端 ， 后 者 的 参数 是 指 
向 ext2_get_block 的 一 个 指针 和 需要 处 理 的 内 存 页 面 。 

ext2_writepage 用 于 写 内 存 页 面 ， 其 实现 方式 如 下 : 

fs/ext2/inode.c 


static int ext2 writepage(struct page *page, struct writeback control *wbc) 


{ 





hk 



























































return block write _ full page(page, ext2 get block, wbc); 
} 


这 里 仍然 使 用 了 第 16 章 讲述 的 标准 函数 。 该 函数 也 使 用 ext2_get_block 关 联 到 Ext2 文 件 系 统 的 
底层 实现 。 
Ext2 文 件 系统 提供 的 大 部 分 其 他 地 址 空间 操作 函数 ， 都 以 类 似 的 方式 实现 为 标准 函数 的 前 端 ， 
通过 ext2_get_block 与 Ext2 文 件 系统 的 底层 代码 关联 起 来 。 因 而 没有 必要 再 讲述 特定 于 Ext2 的 实现 ， 
因为 关于 地 址 空间 操作 , 我 们 只 要 知道 第 8 章 讲 述 的 函数 以 及 9.2.4 节 的 ext2_get_block 函 数 ,就 足够 了 。 


9.3 “Ext3 文件 系统 


Ext 文 件 系 统 的 第 三 次 扩展 ， 逻 辑 上 称 之 为 Ext3， 提 供 了 一 种 0 U (journal) 特性 ， 记 录 了 对 文 
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文件 系统 中 ， 
为 节省 篇 
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新 的 日 




















00 
性 。 一 致 性 问 


户 直接 












































0 中 。 在 事务 结 
已 经 写 入 到 日 
统 











VDN 























Ta 


地 恢复 到 一 致 状 














志 吕 0 发 生 错 误 ， 那 么 在 系统 重启 时 ， 
至 少 保证 了 文件 系统 的 一 致 性 。 
旦 Ext3 不 能 创造 奇迹 。 系 统 骨 误 仍然 可 


池河 
Ts o 


志 当 然 是 需要 额外 开销 的 ， 因 而 Ext3 的 改 








事务 日 
下 ， 
GD 
模式 提供 了 最 高 
@ 0 














(3) 0 








在 文 


如 前 所 述 ，Ext3 文 件 系 统 设计 为 完全 兼容 Ext2， 不 仅 是 
日 志 存 储 在 一 个 专门 的 文件 ， 有 
区 也 可 以 快速 地 转换 为 Ext3 分 





而 ， 





上 。 而 现存 的 Ext2 分 


操作 ， 这 对 服务 
日 
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了 


























块 考虑 。 


志 记 录 、 句 柄 和 事务 
个 整 块 的 结 





事务 








不 是 


在 性 能 和 数据 完整 性 之 间 台 
口 (writeback) 模式 ， 








志 机 制 无 关 


在 于 ， 将 对 文 伯 
束 后 《〈 即 ， 
之 后 ， 而 实际 操作 执行 之 前 




















F 系 统 中 《不 是 Ext 特 
E 确 怕 














的 底层 文件 系统 概念 没有 改变 ， 我 在 这 是 
而 ， 我 不 会 深入 到 相关 技术 实现 的 细节 中 。 
(transaction) 概念 起 源 于 数据 库 领 域 ， 它 有 助 于 在 操作 未 
题 同样 也 会 发 生 在 文人 
切断 电源 )， 这 种 情况 下 元 数据 的 了 


有 的 )。 刀 


件 系统 数据 所 进行 的 操作 。 在 发 生 系统 朋 泪 之 后 ， 该 机 制 有 助 于 缩短 fsck 的 运行 时 间 ”。 











于 在 Ext3 


















































对 元 数据 的 预期 


系统 元 数据 的 每 个 























1 于 关于 该 




















佳 持 适 当 的 




















氏 的 。 











而 该 模式 比 回 




















[L 把 已 
FE 能 与 





志 只 记录 对 元 数据 的 修改 。 但 
写 模式 稍 慢 。 
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动 恢复 到 一 致 状态 。 如 








能 完成 的 情况 下 保 鹿 
p 果 文件 系统 操作 被 无 意 
LE 和 一 致 性 如 何 保证 
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! 只 讨论 Ext3 的 新 功能 。 但 

















FE 数据 的 一 致 
FPF 断 (例如 ， 


灌 作 都 视 为 0D 口 ， 在 执行 之 前 要 先行 记录 到 0 



























































对 实 








操作 的 数据 已 经 丢失 ， 攻 
能 造成 数据 丢失 。 但 在 此 后 ， 文 件 系统 总 是 可 以 








际 数据 的 操作 会 群集 起 来 ， 总 

















能 性 


》 而 日 














心 No 








身 的 inode。 这 使 得 Ext3 文 伯 














降 到 最 
默认 设置 是 ordered。 

|( 尽 可 能 ) 向 上 旭 
F 系 统 能 够 装载 到 只 支持 Ext2 的 系统 


很 不 需要 复杂 的 数据 复制 


这 提 
氏 。 





共 了 最 高 等 级 的 数据 保护 























驳 改 已 经 完成 )， 相 关 的 信息 从 日 志 删 除 。 如 果 事 务 数据 
《或 期 间 )， 发 生 了 系统 错误 ， 那 么 在 下 一 次 装载 文件 系 
果 在 事务 数据 尚未 写 到 
而 不 会 执行 该 操作 ， 但 














E 常 快速 


jExt2 相 比 ， 是 有 所 降低 的 。 为 了 在 所 有 情况 
均衡 ， 内 核能 够 以 3 种 不 同 的 方式 访问 Ext3 文 件 系统 。 

日 志 只 记录 对 元 数据 的 修改 。 对 实际 数据 的 操作 不 记 入 
的 性 能 ， 但 数据 保护 是 最 
口 (ordered) 模式 , 日 
在 对 元 数据 的 操作 D 口 执行 。 因 
0 模式 ， 对 元 数据 和 实际 数据 的 修改 ， 都 写 入 
度 是 最 慢 的 〈 除 了 几 种 病态 情况 以 外 )。 丢 失 数据 的 可 
牛 系统 装载 时 ， 所 需要 的 模式 通过 gqata 参 数 指定 。 














向 下 兼容 ， 而 上 且 


























器 系统 是 





志 不 仅 可 以 存储 在 一 个 专门 的 文 从 


内 核 包 含 了 一 个 抽象 展 ， 称 之 为 DUODD 


个 需要 考虑 的 主要 事项 。 








里 日 志和 相关 的 操作 。 尽 管 该 层 可 
系统 ， 如 ReiserFS、XFS 和 JFS 都 有 自身 的 机 制 。 








小 的 单位 ， 如 图 





9-22 所 示 。 





QD 在 有 











F 中 ， 也 可 以 放置 到 男 一 个 独立 的 分 


口 Cournaling block device， 
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构 。 














因而 ， 


于 不 同 的 文件 系统 ， 但 当前 只 
在 以 下 的 各 节 中 ， 我 将 JBD 和 Ext3 


于 文件 系统 的 结构 (和 性 








要 的 一 点 是 ， 









































区 中 ,细节 在 这 里 就 不 讨 











简称 JBD ) 





于 处 





云 ， 























]Ext3 
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的 原 











能 方 

















L 百 吉凶 节 的 文件 系统 上 , 一 致 性 检查 可 能 会 耗费 儿 个 小 时 , 具体 的 时 间 取 决 
如 此 长 的 停机 时 间 是 不 可 接受 的 。 但 如 果 一 致 性 检查 只 耗费 儿 秒 钟 , 而 不 是 儿 分 钟 , 那么 即使 PC 


应 
x 





于 系统 的 速 




















]。 所 有 其 他 日 
作为 一 个 模 


志文 件 





必须 将 事务 分 解 为 更 


。 对 服务 器 来 说 ， 
户 也 双手 赞成 。 


9.3 Ext30000 509 





























日 志 记 录 














图 9-22 ”事务 、 日 志 记 录 和 句柄 的 交互 


D0O000 是 可 以 记 入 日 志 的 最 小 单位 。 每 个 记录 表示 对 某 个 块 的 一 个 更 新 。 
DO070D0 在 系统 一 级 收集 了 几 个 日 志 记 录 。 例 如 ， 如 果 使 用 write 系统 调用 发 出 一 个 写 请 
求 ， 那 么 所 有 与 该 操作 相关 的 日 志 记录 都 会 群集 到 一 个 句柄 中 。 
口 口 口 是 几 个 名 柄 的 集合 ， 用 于 保证 提供 更 好 的 性 能 。 
9.3.2 ”数据 结构 

虽然 事务 考虑 的 是 数据 在 系统 范围 内 的 有 效 性 ， 但 每 个 句柄 总 是 与 特定 的 进程 相关 。 为 此 ， 我 们 
熟悉 的 task_struct〔 在 第 2 章 讨 论 ) 中 包含 了 一 个 成 员 ， 指 向 当前 进程 的 句柄 : 


<sched.h> 
struct task_struct { 


/* 日 志文 件 系统 信息 */ 


void *journal_ info; 






















































































JBD 层 自动 承担 了 将 void 指针 转 换 为 指向 handqle_t 指 针 。journal_current_handqle 辅 助 函 数 用 
于 获取 当前 进程 的 活动 句柄 。 

handle_t 是 struct handle_s 数 据 类 型 的 typedef 别 名 ， 用 于 定义 句柄 (以 下 给 出 的 是 一 个 简化 
的 版 本 ): 



































<jbd.h> 
typedef struct handle s handle t; /* 原子 操作 类 型 */ 
<jbd.h> 


struct handle_s 


{ 
/* 事务 所 属 的 复合 事务 ? */ 


transaction 七 *h_transaction; 


/* 允许 弄 “ 脏 ”的 剩余 缓冲 区 的 数量 */ 


Lt h_ buffer_credits; 














}s 

h_transaction 是 一 个 指向 当前 句柄 相关 的 事务 数据 结构 的 指针 ， 而 h_ buffer_credits 指 定 了 
日 志 操 作 还 有 多 少 空闲 缓冲 区 可 用 《〈 稍 后 讨论 )。 

内 核 提 供 了 journal_start 和 journal_stop 两 个 函数 ， 二 者 配对 使 用 ， 用 于 将 某 个 代码 片段 标 
记 为 原子 的 (从 日 志 层 看 来 ): 

















S10 


D090 ExtUuUU0UDDU 





handle t *handle = journal start(journal, 


/* 进行 被 认为 是 原 i 子 的 操 











Jjournal 


这 











[ea 





提供 
与 之 相关 的 日 


个 函数 是 可 以 嵌 套 
了 包装 器 函数 ex 


作 */ 
_stop(handle); 


i 








反倒 是 ex 


t3_journal 


每 个 句柄 


志 。 获 得 日 
S 











各 种 日 志 操 























即 使 底层 文件 系统 上 、 改变 
能 弥补 了 这 个 缺点 ， 











的 ， 但 必须 保证 journal_stop 的 调用 次 数 与 journal 
向 所 述 


Latto。 


t3_journal_start， 该 函数 需要 
志 信 息 之 后 ， 则 调用 journal_s 
_start 的 使 用 遍及 所 有 的 Ext3 代 码 中 。 
和 ~ 组 成 ,每 个 操作 都 有 





< 人 

















一 个 指 





a 








nblocks); 


journal_start 通 


术 inode 的 指针 作为 参数 ， 


_start 相 同 。 内 
以 便 推 























常 并 不 直接 使 用 














自身 的 缓冲 头 (参见 第 16 章 ) 用 








于 保存 修改 的 信和 





比特 位 ， 也 是 如 此 。 这 初 看 起 来 会 浪费 大 








因为 缓冲 


区 的 处 到 




















E 非 富 


第 高 效 。 


该 数据 结构 定义 如 下 (已 经 大 大 简化 过 ): 


<journal 





head.h> 


struct journal head { 





JBD 层 提供 了 journal_dqirty metadqata 图 数 ， 将 修改 的 元 数据 写 


口 b_bh 指 向 包含 操作 数据 
口 b_transaction 指 向 
口 b_tnext 和 lp_tprev 月 


struct buffer_head 


transaction 七 
struct journal . 








head 





日 











*b_bh; 


*b_transaction; 
*b_tnext, 


的 缓冲 头 。 
志 项 所 属 的 事务 。 


*b_tprev; 











fs/jbd/transaction.c 


主 鹤 世 可 


与 之 











ournal_dirty metadata(handle t *handle, 


匹配 的 函数 是 journal_qirty_dqata， 

















事务 由 
<jbd.h> 





个 专用 的 数据 结构 表 


示 。 这 里 给 























的 仍然 是 一 


Ln 


typedef transaction s transaction t; 


struct transaction_s 
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口 t_jou 
结构 ， 
口 每 个 事务 











Jjournal 七 
oe 


enum { 


T_FLUSH, 
TCOMMIT; 





td 


T_RUNNING, 


T_FINISHED 
3 Le 


struct journal head 


unsigned long 
int t_handle_ coun 


rnal 是 一 个 指针 ， 指 








因为 其 中 充斥 着 大 量 技 术 细 





向 事务 数据 将 写 入 的 


state; 


*t_journal; 
Ce 


*t_buffers; 
t_expires; 

















= 





务 都 可 以 有 不 同 的 状态 ， 




















日 保存 在 t_state 中 : 








量 内 存 ， 人 

















于 实现 双 链 表 ， 表 示 与 某 个 原子 操作 相关 联 的 所 有 日 志 

















写 到 日 志 


CN 








日 志 , 月 





日 于 日 


个 简化 了 很 多 的 版 本 : 


月 志 。 为 f 简单 起 见 ， 我 们 不 再 讨论 日 








晶 所 获得 的 更 高 的 1 


struct buffer _ head *bh) 


] 于 将 修改 的 数据 写 到 





志 模 式 。 





核 
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>» 





志 的 数 扩 





HU 


9.4 DO 511 








T_RUNNING 表 示 可 以 向 日 志 添加 新 的 原子 句柄 ; 
T_FLUSH 表 示 此 时 正在 将 日 志 项 刷 出 到 磁盘 ; 
T_COMMIT 表 示 所 有 数据 都 已 经 写 到 磁盘 ， 但 仍然 需要 处 理 元 数据 ; 
晶 T_FINISHED 表 示 所 有 日 志 项 都 已 经 安全 地 写 到 磁盘 。 
口 buffers 指 向 与 该 事务 关联 的 缓冲 
口 _expires 指 定 事务 数据 必须 在 物理 
情况 下 在 事务 创建 $ 秒 之 后 到 期 。 
口上 _handle_count 表 示 与 事务 关联 的 句柄 的 数目 。 
Ext3 代 码 使 用 了 一 种 “检查 点 ”机 制 ， 用 于 检查 日 志 中 记载 的 改变 是 否 已 经 写 入 到 文件 系统 。 如 
果 已 经 写 入 到 文件 系统 ， 那 么 日 志 中 的 数据 就 不 再 需要 了 ， 可 以 删除 。 在 正常 运作 时 ， 日 志 内 容 不 会 
扮演 活跃 的 角色 。 仅 当 系 统 裔 溃 发 生 时 ， 才 使 用 日 志 数据 来 重建 对 文件 系统 的 改变 ， 使 之 返回 到 一 致 
状态 。 
与 Ext2 的 初始 定义 相 比 ，Ext3 的 超级 块 数据 结构 添加 了 几 个 成 员 ， 用 于 文 持 日 志 功 能 ， 


<ext3_fs_sb.h> 


站 



























































义 | 


E 上 写 到 日 志 中 的 时 间 期 限 。 内 核 使 用 了 一 个 定时 器 ,默认 

























































































































































































struct ext3_sb_ info { 








/* 日 志 */ 











struct inode * s_ journal_ inode; 
struct Jjournal s * s_ journal; 
unsigned long s_commit interval; 
struct block device *journal bdev; 


}; 


前 文 提 到 过 , 日 志 可 以 存储 到 一 个 文件 中 ， 也 可 以 存储 到 独立 的 分 区 中 。 根 据 选择 的 选项 (文件 
/分 区 )， 可 相应 地 使 用 s_journal_inode 或 journal_pbdev 记 录 其 位 置 。s_commit _interval 指 定 了 
数据 从 内 存 写 到 日 志 的 频率 ， 而 s_journal 指 向 日 志 数 据 结构 。 


9.4 小 结 



























































文件 系统 用 于 在 物理 块 设备 〈 如 硬盘 ) 上 组 织 文件 数据 ， 以 便 持 和 久 存储 信息 ， 不 受 机 器 重启 的 影 
响 。Ext2 和 Ext3 文 件 系 统 多 年 来 已 经 成 为 Linux 的 标准 配备 ， 读 者 在 本 章 已 经 看 到 了 二 者 的 实现 ， 以 及 
它们 在 磁盘 上 表示 数据 的 相关 细节 。 
在 讲述 了 文件 系统 所 必须 面 对 的 基本 问题 之 后 ,本 章 阐述 了 Ext2 文 件 系统 在 人 磁盘 上 和 内 核 中 的 结 
构 。 读 者 了 解 到 了 如 何 用 inode 管 理 文件 系统 对 象 , 以 及 如 何 管理 为 文件 提供 存储 空间 的 数据 块 。 另 外 ， 
本 章 还 详细 讨论 了 各 种 重要 的 文件 系统 操作 ， 如 新 目录 的 创建 。 
最 后 ， 本 章 向 读者 介绍 了 Ext3 文 件 系统 的 日 志 机 制 ，Ext3 是 Ext2 的 继承 和 发 展 。 






























































































































































无 持久 存储 的 文件 系统 























人 文件 系统 用 于 在 块 设备 上 持久 存储 数据 。 但 也 可 以 使 用 文件 系统 来 组 织 、 提 供 或 交换 

并 不 存储 在 块 设备 上 的 信息 ， 这 些 信息 可 以 由 内 核 动 态 生 成 。 本 章 将 对 其 中 一 些 进行 讨论 。 

口 proc 文 件 系统 (proc filesystem )， 它 使 得 内 核 可 以 生成 与 系统 的 状态 和 配置 有 关 的 信息 。 该 

县 可 以 由 用 户 和 系统 程序 从 普通 文件 读 取 ， 而 无 需 专 门 的 工具 与 内 核 通 信 。 在 某 些 情况 下 ， 
一 个 简单 的 cat 命 令 就 足够 了 。 数 据 不 仅 可 以 从 内 核 读 取 ， 还 可 以 通过 向 proc 文 件 系 统 的 文件 
写 入 字符 串 ， 来 向 内 核发 送 数据 。echo "value" > /proc/file: 不 会 有 比 这 更 容易 的 从 用 
户 空间 向 内 核 传输 信息 的 方式 了 。 
该 方法 利用 了 一 个 0 D 文件 系统 “即时 ”产生 文件 信息 。 换 名 话说 ， 只 有 发 出 读 操作 请 求 时 ， 
才 会 生成 信息 。 对 于 此 类 文件 系统 ， 不 需要 专用 的 人 硬盘 分 区 或 其 他 块 存储 设备 。 
除了 proc 文 件 系 统 之 外 ， 内 核 还 提供 了 许多 其 他 的 虚拟 文件 系统 ， 用 于 不 同 的 目的 。 例 如 ， 
以 目录 层次 结构 的 形式 ， 对 所 有 设备 和 系统 资源 进行 编目 。 即 使 设备 驱动 程序 也 可 以 在 虚拟 
文件 系统 中 提供 状态 信息 ，USB 子 系统 就 是 一 个 例子 。 

口 Sysfs 是 男 一 个 特别 重要 的 虚拟 文件 系统 例子 。 一 方面 , 它 与 procfs 的 目的 类 似 , 但 在 男 一 方面 ， 
又 与 procfs 有 很 大 不 同 。Sysfs 按 照 惯例 总 是 装载 在 /sys 目 录 ,， 但 这 不 是 强制 规定 ， 装 载 到 其 他 
位 置 也 是 可 以 的 。 它 设计 为 从 内 核 向 用 户 层 导 出 非常 结构 化 的 信息 。 与 procfs 相 比 ， 它 并 不 供 
人 直接 使 用 ， 因 为 信息 是 层次 化 、 深 度 骨 套 的 。 此 外 ， 文 件 包含 的 信息 并 不 总 是 ASCII 文 本 形 
式 ， 也 有 可 能 使 用 不 可 读 的 二 进 制 串 。 但 对 于 想 要 收集 系统 中 的 硬件 和 设备 间 拓 扑 关 联 方面 

言 息 的 工具 而 言 ， 该 文件 系统 是 非常 有 用 的 。 

还 可 以 对 使 用 kobject 的 内 核对 象 创建 sysfs 项 (更 多 信息 参见 第 1 章 )， 这 几乎 不 费力 气 。 这 使 

得 用 户 层 很 容易 访问 内 核 中 重要 的 核心 数据 结构 。 

口 用 于 专门 目的 的 小 文件 系统 ， 可 以 由 内 核 提供 的 标准 函数 构建 。 在 内 核 内 部 ，libfs 库 提供 了 所 

需 功 能 。 此 外 ， 内 核 提 供 了 易于 实现 顺序 文件 的 方法 。 在 调试 文件 系统 debugfs 中 同时 使 用 了 

这 两 种 技术 ， 该 文件 系统 使 得 内 核 开发 者 能 够 快速 地 向 用 户 空间 导出 值 或 从 用 户 空间 导入 值 ， 

而 无 需 创建 定制 的 接口 或 专门 的 文件 系统 。 


10.1 proc 文件 系统 


在 本 章 开 头 提 到 ，proc 文 件 系统 是 一 种 0 DODDDD ， 其 信息 不 能 从 甘 设 备 读 取 。 只 有 在 读 取 文 
件 内 容 时 ， 才 动态 生成 相应 的 信息 。 
使 用 proc 文 件 系统 , 可 以 获得 有 关内 核 各 子 系统 的 信息 (例如 , 内存 利用 率 、 附 接 的 外 设 , 等 等 )， 
也 可 以 在 不 重新 编译 内 核 源 代 码 的 情况 下 修改 内 核 的 行为 ， 或 重启 系统 。 与 该 文件 系统 密切 相关 的 是 
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10.1 procUOUODOD 513 








系统 控制 机 制 (system control mechanism， 简 称 sysctl1)， 前 面 各 章 已 经 频繁 引用 过 该 机 制 。proc 文 件 
系统 提供 了 一 种 接口 ， 可 用 于 该 机 制导 出 的 所 有 选项 ， 使 得 可 以 不 费力 气 地 修改 参数 。 无 需 开 发 专门 
的 通信 程序 ， 只 需要 一 个 shell 和 标准 的 cat、echo 程 序 。 
通常 ,进程 数据 文件 系统 (process data filesystem，procfs 的 全 称 ) 装载 在 /proc, 它 的 缩写 proc FS 
即 由 此 得 名 。 但 有 一 点 值得 注意 ， 该 文件 系统 可 以 装载 到 目录 树 的 任何 位 置 ， 就 像 是 其 他 任何 文件 系 
统一 样 ， 虽 然 这 种 做 法 并 不 常见 。 

下 一 节 讲 述 了 proc 文 件 系统 的 布局 和 内 容 , 以 便 在 我 们 讨论 其 实现 细节 之 前 , 先 说 明 其 功能 和 选项 。 


10.1.1 /proc 的 内 容 


尽管 proc 文 件 系 统 的 容量 依 系统 而 不 同 (根据 硬件 配置 导出 不 同 的 数据 , 不 同 的 体系 结构 也 会 影 
响 其 内 容 )， 其 中 仍然 包含 了 许多 深层 购 套 的 目录 、 文 件 、 链 接 。 但 这 些 信息 可 以 分 为 以 下 儿 大 类 : 
口 内 存 管理 ; 

口 系统 进程 的 特征 数据 ; 

口 文件 系统 ; 

口 设备 驱动 程序 ; 

口 系统 总 线 ; 

口 电源 管理 ; 

口 终端 ; 

口 系统 控制 参数 。 

其 中 一 些 类 别 在 本 质 上 差别 很 大 ‘上述 列 表 很 不 全 面 )， 共 性 很 少 。 过 去 ，proc 文 件 系 统 的 信息 
过 载 问 题 ， 经 常 成 为 批评 的 潜在 来 源 (有 时 候 会 猛烈 地 爆发 )。 借 助 虚拟 文件 系统 提供 数据 当然 是 有 
的 ， 但 更 结构 化 的 方法 会 更 好 …… 

从 内 核 开 发 的 趋势 来 看 , 正在 远离 用 proc 文 件 系 统 提供 信息 的 方法 ， 而 倾向 于 采用 特定 于 问题 的 
虚拟 文件 系统 来 导出 数据 。 一 个 很 好 的 例子 就 是 USB 文 件 系 统 ， 将 与 USB 子 系统 有 关 的 许多 状态 信息 
导出 到 用 户 空间 ， 而 没有 给 /proc 增 加 新 的 负担 。 此 外 ，Sysfs 文 件 系统 提供 了 一 种 层次 化 的 视图 ， 不 
仅 包 括 设备 树 〈( 此 处 的 0 口 ， 涵 盖 了 系统 总 线 、PCI 设 备 、CPU， 等 等 )， 还 有 重要 的 内 核对 象 。Sysfs 
将 在 10.3 节 讨论 。 
在 内 核 邮件 列表 上 ， 对 于 向 /proc 增 加 新 项 的 做 法 都 十 分 怀疑 ， 通 常会 成 为 争论 的 来 源 。 如 果 新 
代码 0 0 D /peroc， 进 入 内 核 源 代码 的 机 会 就 更 多 一 点 。 当 然 ， 这 并 不 意味 着 proc 文 件 系 统 会 逐渐 变 
为 多 余 的 。 实 际 上 ， 刚 好 相反 。 当 今 ，/proc 依 旧 重 要 ， 不 仅 是 在 安装 新 的 发 布 版 时 ， 而 且 也 用 于 文 
持 《〈《 自 动 化 的 ) 系统 管理 。 
以 下 给 出 了 /proc 中 各 个 文件 及 其 内 容 的 简要 概述 。 当 然 , 我 得 指出 ,这 里 的 内 容 也 是 不 完全 的 ， 
! 包 含 在 所 有 体系 结构 上 都 有 的 那些 重要 的 要 素 。 

1. 特定 于 进程 的 数据 

每 个 系统 进程 ， 无 论 当前 状态 如 何 ， 都 有 一 个 对 应 的 子 目录 与 其 PID 同 名 ), 包含 了 该 进程 的 有 
关 人 信息。 顾名思义 ， 进 程 数据 系统 (process data system， 简 称 proc) 的 初衷 就 是 传递 进程 数据 。 

特定 于 进程 的 目录 保存 了 哪些 信息 ?简单 的 一 个 1s-1 命 令 ， 就 能 看 到 一 些 信息 : 

wolfgang@meitner> cd /proc/7748 

wolfgang@meitner> 了 Is -1 


total 0 
dr-xr-xr-x 2 wolfgang users 0 2008-02-15 04:22 attr 
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字符 串 ， 包 含 了 程序 名 和 所 有 参数 : 


























514 UIO0 UUOUOUOU0O000D0 
-I-------- 1 wolfgang users 0 2008-02-15 04:22 auxv 
--wW------- 1 wolfgang users 0 2008-02-15 04:22 clear_refs 
-r--r--r-- 1 wolfgang users 0 2008-02-15 00:37 cmdline 
-rr--r--r-- 1 wolfgang users 0 2008-02-15 04:22 cpuset 
lrwxrwxrwx 1 wolfgang users 0 2008-02-15 04:22 cwd -> /home/wolfgang/wiley_kbook 
= 1 wolfgang users 0 2008-02-15 04:22 environ 
Jrwxrwxrwx 1 wolfgang users 0 2008-02-15 01:30 exe -> /usr/bin/emacs 
dr-x------— 2 wolfgang users 0 2008-02-15 00:56 fa 
dr-x------ 2 wolfgang users 0 2008-02-15 04:22 fdinfo 
-rw-r--r--1 wolfgang users 0 2008-02-15 04:22 loginuid 
-rr--r--r--1] wolfgang users 0 2008-02-15 04:22 maps 
-rrW--- 一 -一 1 wolfgang users 0 2008-02-15 04:22 mem 
-r--r--r--1] wolfgang users 0 2008-02-15 04:22 mounts 
-Ir-------- 1 wolfgang users 0 2008-02-15 04:22 mountstats 
-rr--r--r--1] wolfgang users 0 2008-02-15 04:22 numa_maps 
-rw-r--r--1 wolfgang users 0 2008-02-15 04:22 oom adqdj 
-rr--r--r--1] wolfgang users 0 2008-02-15 04:22 oom_ score 
Jrwxrwxrwxl1 wolfgang users 0 2008-02-15 04:22 root -> / 
-WwW--- 一 -一 1 wolfgang users 0 2008-02-15 04:22 seccomp 
-rr--r--r--l1] wolfgang users 0 2008-02-15 04:22 smaps 
-r--r--r--1] wolfgang users 0 2008-02-15 00:56 stat 
-r--r--r--1] wolfgang users 0 2008-02-15 01:30 statm 
-r--r--r--1] wolfgang users 0 2008-02-15 00:56 status 
dr-xr-xr-x3 wolfgang users 0 2008-02-15 04:22 task 
-rr--r--r--1] wolfgang users 0 2008-02-15 04:22 wchan 
我 们 的 例子 给 出 的 数据 ， 是 一 个 emacs 进 程 ，PID 为 7748， 该 进程 用 于 编辑 本 书 的 LaTeX 源 文件 。 
大 部 分 数据 项 的 语义 ， 从 文件 名 就 可 以 看 出 来 。 例 如 ，cmqaline 是 用 于 起 点 进程 的 命令 行 ， 即 一 
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wolfgang@meitner> cat cmdline 
emacsfs.tex 


og 工具 可 以 将 该 数据 转换 为 可 读 的 格式 : 


wolfgang@meitner> od -t a /proc/7748/cmdline 
0000000 e m a G s nul 下 S 二 e 
0000015 


上 述 输出 ， 表 明 该 进程 是 调用 emacs fs.tex 创 建 的 。 
其 他 文件 包含 的 数据 如 下 。 
口 environ 表 示 为 该 程序 设置 的 所 有 环境 变量 ， 其 仍然 使 用 了 0 字 节 作为 分 隔 符 。 

口 maps 以 文本 形式 , 列 出 了 进程 使 用 的 所 有 库 (和 进程 本 身 的 二 进 制 文件 ) 的 内 存 映射 。 就 emacs 
而 言 ， 该 文件 的 片段 如 下 所 示 “《 我 使 用 了 常规 的 文本 格式 ， 剔 除了 0 字 节 ): 
wolfgang@meitner> cat maps 
00400000-005a4000 r-xp 00000000 08:05 283752 
/usr/bin/emacs 
007a3000-00e8c000 rw-p 001a3000 08:05 283752 
/usr/bin/emacs 
00e8c000-018a1000 rw-p 00e8c000 00:00 0 


2af4b085d000-2af4b0879000 r-xp 00000000 08:05 1743619 
/lib64/1d-2.6.1.so 




















这 “区 六 二 
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[heap] 
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4003a000-40086000 r-xp 00000000 03:02 131108 /usr/lib/libcanna.so.1.2 
40086000-4008b000 rwxp 0004b000 03:02 131108 /usr/lipb/libcanna.so.1.2 
4008b000-40090000 rwxp 4008b000 00:00 0 
40090000-400a0000 r-xp 00000000 03:02 131102 /usr/lib/libRKC.so.1.2 
400a0000-400a1000 rwxp 00010000 03:02 131102 /usr/lib/libRKC.so.1.2 
400a1000-400a3000 rwxp 400a1000 00:00 0 
400a3000-400e6000 r-xp 00000000 03:02 133514 /usr/X1l1R6/1ib/libXaw3d.so.8.0 
400e6000-400ec000 rwxp 00043000 03:02 133514 /usr/X1l1R6/1ib/libXaw3d.so.8.0 
400ec000-400fe000 rwxp 400ec000 00:00 0 














400fe000-4014f000 r-xp 00000000 03:02 13104 /usr/lib/libtiff.so.3.7.3 
4014f000-40151000 rwxp 00051000 03:02 13104 /usr/lib/libtiff.so.3.7.3 
40151000-4018f000 r-xp 00000000 03:02 13010 /usr/lib/libpng.so.3.1.2.8 
4018f000-40190000 rwxp 0003d000 03:02 13010 /usr/lib/libpng.so.3.1.2.8 
40190000-401af000 r-xp 00000000 03:02 9011 /usr/lib/libjpeg.so.62.0.0 
401af000-401b0000 rwxp 0001e000 03:02 9011 /usr/lib/libjpeg.so.62.0.0 
401b0000-401c2000 r-xp 00000000 03:02 12590 /lib/libz.so.1.2.3 
401c2000-401c3000 rwxp 00011000 03:02 12590 /lib/libz.so.1.2.3 
2af4b7dc1000-2af4b7dc3000 rw-p 00001000 08:05 490436 
/usr/lib64/pango/1.6.0/modules/pango-basic-fc.so 

2af4b7dc3000-2af4b7e07000 r--p 00000000 08:05 1222118 
/usr/share/fonts/truetype/arial.ttf 

2af4b7e4d000-2af4b7e53000 r--p 00000000 08:05 211780 
/usr/share/locale-bundle/en_ GB/LC MESSAGES/glib20 .mo 

2af4b7e53000-2af4b7e9c000 rw-p 2af4b7e07000 00:00 0 

7ffffa218000-7ffffa24d000 rw-p 7ffffa218000 00:00 0 [stack] 
ffffffffff600000-ffffffffff601000 r-xp 00000000 00:00 0 [vdso] 





status 包 含 了 有 关 进 程 状态 的 一 般 信息 (文本 格式 )。 


wolfgang@meitner> cat status 





Name: emacs 

State: SS (sleeping 

SleepAVG: 98% 

Tgid: 7748 

Pid: 7748 

PPid: 4891 

TracerPid: 0 

Uid: 1000 1000 1000 1000 
Gid: 100 100 100 100 


FDSize: 256 
Groups: 16 33 100 





VmPeak : 140352 kB 
VmSize: 139888 kB 
VmLek: 0 kB 
VmHWM : 28144 KB 
VmRSS : 27860 kB 
VmData: 10772 kB 
VmStk: 212 kB 
VmExe: 1680 kB 
VmLib: 13256 kB 
VmPTE : 284 kB 
Threads: 于 


SigQ : 0/38912 

SigPnd: 0000000000000000 
ShdPnd: 0000000000000000 
SigBlk: 0000000000000000 
SigIgn: 0000000000000000 
SigCgt: 00000001d1817efd 
CapInh: 0000000000000000 
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状态 〈 待 决 、 阻 塞 ， 等 等 )。 


CapPrm: 0000000000000000 

CapEff: 0000000000000000 

Cpus_allowed: 00000000,00000000,00000000,0000000f£ 
Mems_allowed: 00000000,00000001 


不 仪 提供 了 有 关 UID/GID 及 进程 其 他 数值 的 信息 ， 还 包括 内 存 分 配 、 进 程 能 力 、 各 个 信号 掩 码 的 
































口 stat 和 statm 以 一 连 串 数字 的 形式 ， 提 供 了 进程 及 其 内 存 消耗 的 更 多 状态 信息 。 
fqd 子 目录 包含 了 一 些 文件 ,文件 名 都 是 数字 。 这 些 文件 名 表示 进程 的 各 个 文件 描述 符 。 这 里 的 每 


















































个 文件 都 是 一 个 符号 链接 ， 指 向 文件 名 对 应 的 文件 描述 符 在 文件 系统 中 的 位 置 ， 当 然 得 假定 该 描述 符 
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1 几 个 子 系统 共享 ) 的 一 般 性 信息 ， 一 般 存放 在 /proc 下 的 文件 中 




















是 文件 。 其 他 的 文件 类 型 ， 如 果 也 能 够 通过 文件 描述 符 访问 (如 管道 )， 那 么 将 给 出 一 个 链接 
如 pipe: [1434]。 
类 似 地 ， 还 有 其 他 指向 与 进程 相关 的 文件 和 命令 的 符号 链接 : 
口 cwa 指 向 进程 当前 工作 目录 。 如 果 用 户 有 适当 的 权限 ， 则 可 以 使 用 cq cwd 切 换 到 该 目录 ， 而 无 
需 知道 cwd 到 底 指向 哪个 目录 。 
口 exe 指 向 包含 了 应 用 程序 代码 的 二 进 制 文件 。 在 我 们 的 例子 中 ， 它 指向 /usr/bin/emacs。 
口 root 指 向 进程 的 根 目 录 。 这 不 见得 是 全 局 的 根 目 录 (参见 第 8 章 讨 论 的 chroot 机 制 )。 

2. 一 般 性 系统 信息 
不 仅 /proc 的 子 目 录 包 含 了 信息 ，/proc 本 身 也 包含 了 一 些 信 息 。 与 特定 的 内 核子 系统 无 关 (或 
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前 面 各 章 提 到 了 其 中 一 些 文件 。 例 如 ，iomem 和 :ioports 提 供 了 用 来 与 设备 通信 的 内 存 地 址 和 端 











口 的 有 关 信 息 ， 在 第 6 章 讨 论 过 。 这 两 个 文件 都 包含 了 文本 形式 的 列表 : 














wolfgang@meitner> cat /proc/iomem 
00000000-0009dbff : System RAM 
00000000-00000000 : Crash kernel 
0009dc00-0009ffff : reserved 
000c0000-000cffff : pnp 00:0dQ 
000e4000-000fffff : reserved 
00100000-cff7ffff : System RAM 
00200000-004017a4 : Kernel code 
004017a5-004ffdef : Kernel data 
cff80000-cff8dfff : ACPI Tables 
cff8e000-cffdffff : ACPI Non-volatile Storage 
cffe0000-cfffffff : reserved 
d0000000-dfffffff : PCI Bus #01 
d0000000-dfffffff : 0000:01:00.0 
d0000000-d0ffffff : vesafb 


fee00000-fee00fff : Local APIC 
ffa00000-ffafffff : pnp 00:07 
ff£ff£f00000-ffffffff : reserved 
100000000-12fffffff : System RAM 
wolfgang@meitner> cat /proc/ioports 
0000-001f : dmal 

0020-0021 : picl 

0040-0043 : timer0 

0050-0053 : timerl 

0060-006f : keyboard 

0070=0077 rte 

0080-008f : dma page reg 
00a0-00al : pic2 
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e000-efff : PCI Bus #03 
e400-e40f : 0000:03:00.0 
e400-e40f : libata 
e480-e483 : 0000:03:00.0 
e480-e483 : libata 
e800-e807 : 0000:03:00.0 
e800-e807 : libata 
e880 -e883 : 0000:03:00.0 
e880-e883 : libata 
ec00 -ec07 : 0000:03:00.0 
ec00 -ec07 : libata 


类 似 地 ,一 些 文件 提供 了 当前 内 存 管 理 情况 的 粗略 概览 。puddyinfo 和 slabinfo 提 供 了 伙伴 系统 
和 slab 分 配器 当前 的 使 用 情况 ， 而 meminfo 给 出 了 一 般 性 的 内 存 使 用 情况 ， 分 为 高 端 内 存 、 低 端 内 存 、 
空 亲 内存、 已 分 配 区 域 、 共 享 区 域 、 交 换 和 回 写 内 存 , 等 等 。vmstat 给 出 了 内 存 管 理 的 其 他 特征 信息 ， 
包括 当前 在 内 存 管 理 的 各 个 子 系统 中 内 存 页 的 数目 。 
kallsyms 和 kcore 项 用 于 支持 内 核 代 码 调试 。 前 者 是 一 个 符号 表 , 给 出 了 所 有 全 局 内 核 变量 和 函 
数 在 内 存 中 的 地 址 : 


wolfgang@meitner> cat /proc/kallsyms 
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ffffffff80395ce8 T skb_abort_seq read 
ffffffff80395cff 七 skb ts finish 
ffffffff80395d08 了 skb_fingd text 
ffffffff80395d76 T skb_ to_sgvec 
ffffffff80395f6d T skb truesize bug 
ffffffff80395f89 T skb under panic 
ffffffff80395fe4 T skb_ over panic 
ffffffff8039603f t copy_skb_ header 
ffffffff80396273 T skb pull rcsum 
ffffffff803962da T skb_seq read 
ffffffff80396468 七 skb ts_ get next_block 


a 





| 


kcore 是 一 个 动态 的 内 核 文件 “包含 ”了 运行 中 的 内 核 的 所 有 数据 ， 即 主 内 存 的 全 部 内 容 。 与 用 
户 应 用 程序 发 生 致 命 错 误 时 进行 内 存 转 储 所 产生 的 普通 内 核 文件 相 比 ， 该 文件 没什么 不 同 之 处 。 可 以 
将 调试 器 用 于 该 二 进 制 文件 ， 来 查看 运行 中 系统 的 当前 状态 。 在 本 书 中 ， 用 于 说 明 内 核 数据 结构 之 间 
交互 作用 的 许多 图 , 都 是 用 这 种 方法 制备 的 。 附 录 B 仔 细 讲 解 了 如 何 借助 GNU gdqb 调 试 器 和 aqaq 图 形 用 
户 界面 ， 来 使 用 内 核 提供 的 这 些 可 用 的 功能 。 
interrupts 保 存 了 当前 操作 期 间 引发 的 中 断 的 说 明 ( 底 层 机 制 将 在 第 14 音 讲述 )。 在 IA-32 架 构 
的 4 核 服 务 器 上 ， 该 文件 如 下 所 示 : 


wolfgang@meitner> cat /proc/interrupts 









































































































































CPUO CPU1 CPU2 CPU3 
0 1383211 1407764 1292884 1364817 IO-APIC-edge timer 
Ls 0 下 下 0 IO-APIC-edge i8042 
8: 0 1 0 0 IO-APIC-edge 六 人 
9: 0 0 0 0 IO-APIC-fasteoi acpi 
12: 四 3 0 0 IO-APIC-edge i8042 
16: 8327 4251 290975 114077 IO-APIC-fasteoi libata,uhci hcd:usbl 


18: 0 1 0 0 IO-APIC-fasteoi ehci_hcd:usb2, 
uhci_hcd:usb4, 
uhci_hcd:usb7 









































5l18 0100 0000000000 
19: 0 0 IO-APIC-fasteoi uhci_hcd:usb6 
21: 0 0 IO-APIC-fasteoi uhci_hcd:usb3 
生生 267439 93114 10575 IO-APIC-fasteoi libata, libata, 
HDA Intel 
23: 0 0 IO-APIC-fasteoi uhci_hcd:usb5， 
ehci_hcd:usb8 
4347 17 2 PCI-MSI-edge eth0 
NMI : 0 0 
LOC: 5443482 5443174 5446374 
ERR.: 
其 中 不 仅 给 出 了 中 断 的 数目 ， 还 对 每 个 中 断 号 ， 都 给 出 相关 设备 的 名 称 或 负责 处 理 中 断 的 驱动 程 
序 。 





最 后 ， 我 得 提 到 两 个 
平均 系统 负荷 ( 即 ， 运 行 队 允 








EE 要 的 数据 项 loadavg 和 uptime。 




















































































































































































































前 者 给 出 了 过 去 60 秒 、5 分 钟 、15 分 钟 的 
| 的 长 度 )， 后 者 给 出 了 系统 的 运行 时 间 ， 即 从 系统 启动 以 来 经 过 的 时 间 。 






































3. 网 络 信息 
/proc/net 子 目录 提供 了 内 核 的 各 种 网 络 选 项 的 有 ; 居 。 其 中 保存 了 各 种 协议 和 设备 数据 ， 包 
括 以 下 几 个 有 趣 的 数据 项 。 
口 udp 和 tcp 提 供 了 IPv4 的 UDP 和 TCP 套 接 字 的 统计 数据 。IPv6 的 对 应 数据 保存 在 uap6 和 tcp6 中 。 
UNIX 套 接 字 的 统计 数据 记录 在 unix。 
口 用 于 反 向 地 址 解析 的 ARP 表 ， 可 以 在 arp 文 件 中 碍 看。 
口 SS 的 数据 量 的 统计 数据 (包括 环 回 接口 )。 该 信息 可 用 于 检 
查 网 络 的 传输 因为 其 中 也 包括 了 传输 不 正确 的 数据 包 、 ie 相关 的 
数据 。 
= (如 ， 流 行 的 英特尔 PRO/100 芯 片 组 的 驱动 程序 ) 在 /proc/net 创 建 了 额外 的 
子 目 录 ， 提 供 了 更 详细 的 特定 于 硬件 的 信息 。 
4. 系统 控制 参 
于 动态 地 检查 和 修改 内 核 行为 的 系统 控制 参数 ,在 proc 文 件 系 统 的 数据 项 中 , 属于 最 多 的 一 部 
分 。 但 这 并 不 是 修改 相关 数据 的 唯一 方法 ， 还 可 以 使 用 sysct1 系 统 调用 。 后 者 需要 的 工作 量 更 多 ， 基 
为 首先 必须 写 一 个 程序 ,来 支持 通过 系统 调用 接口 与 内 核 通信 。 结 果 , 在 内 核 版 本 2.5 开 发 期 间 , sysct1 
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上 标记 为 废弃 〈 每 次 调 
是 ， 删 除 系 统 调用 引起 


会 出 现 。 


sysctl 参 数 


sysct1 系 统 调 























用 svsct 



































实际 上 是 不 必要 的 ， 

















一 个 独立 的 子 目 录 /proc/sys 管 理 




















1 时 ， 内 核 将 输 




















因为 通过 /proc 接 








出 一 个 警告 信 ， 























wolfgang@meitner> 1s -1 /proc/sys 


total 0 

dr-xr-xr-x 
dr-xr-xr-x 
dr-xr-xr-x 
dr-xr-xr-x 
dr-xr-xr-x 
dr-xr-xr-x 
dr-xr-xr-x 





包含 下 列 数 据 项 : 


0 
0 
0 
0 
0 
0 


2008-02-15 
2008=02=15 
2008-02-14 
2008-02-14 
2008-02-14 
2008-02-14 


0 2008-02-14 


各 个 子 目录 中 包含 了 一 系列 文件 ， 反 映 了 对 应 的 内 核子 系统 的 特征 数据 。 








, 它 进 


04: 
04: 
22 
22: 
22: 
22: 
223 











电 )， 计 划 在 未 来 的 某 个 时 候 去 掉 。 
直至 内 核 版 本 2.6.25， 该 调用 仍然 存在 于 内 核 中 ， 而 警告 信息 也 仍然 






































口 对 内 核 数据 的 操作 已 经 简单 到 了 极点 。 








步 划分 为 各 种 子 目录 , 对 应 于 内 核 的 各 个 子 系统 。 


例如 ，/proc/sys/vm 
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wolfgang@meitner> Is -1 /proc/sys/vm 







































































total 0 

-rwW-r--r--1 root root 0 2008-02-17 01:32 block_ dump 

-rw-r--r--1 root root 0 2008-02-16 20:55 dirty_ background ratio 

-rwWw-r--r--1 root root 0 2008-02-16 20:55 dirty_expire centisecs 

-rwWw-r--r--1 root root 0 2008-02-16 20:55 dirty_ratio 

-rwWw-r--r--1 root root 0 2008-02-16 20:55 dirty writeback centisecs 

-rwWw-r--r--1 root root 0 2008-02-17 01:32 swappiness 

-rwW-r--r--l1] root root 0 2008-02-17 01:32 vfs_cache pressure 

-rwW-r--r--1 root root 0 2008-02-17 01:32 zone_ reclaim mode 

不 同 于 此 前 讨论 的 文件 ， 这 些 文件 的 内 容 不 仅 可 以 读 ， 还 可 以 通过 普通 的 文件 操作 ， 疝 其 中 写 入 
新 值 。 例 如 ，vm 子 目录 包含 了 一 个 swappiness 文 件 ， 表 示 交 换算 法 在 换 出 页 时 的 “积极 ”程度 。 默 
认 值 是 60， 从 cat 显 示 的 文件 内 容 可 以 看 到 : 




















wolfgang@meitner> cat /proc/sys/vm/swappiness 
60 


但 该 值 可 以 通过 下 列 命 令 修 改 〈 以 root 用 户 的 喘 份 ): 
wolfgang@meitner> echo "80" > /proc/sys/vm/swappiness 


wolfgang@meitner> cat /proc/sys/vm/swappiness 
80 


按 第 18 章 的 讨论 ，swappiness 的 值 越 大 ， 内 核 换 出 页 就 越 积极 。 在 某 些 系统 负荷 等 级 下 ， 这 可 
以 提高 性 能 。 
10.1.8 节 详细 讲述 了 操作 proc 文 件 系统 中 的 参数 时 内 核 是 如 何 实现 的 。 


10.1.2 ”数据 结构 


这 里 仍然 有 许多 主要 的 数据 结构 ,实现 proc 文 件 系 统 的 代码 即 围绕 这 些 结构 建立 。 这 其 中 包括 了 
第 8 章 讨论 过 的 虚拟 文件 系统 的 数据 结构 。proc 大 量 使 用 了 VFS 的 数据 结构 ， 因 为 作为 一 种 文件 系统 ， 
它 必须 集成 到 内 核 的 VFS 抽 象 层 中 。 
还 有 一 些 特定 于 proc 的 数据 结构 , 用 于 组 织 内 核 提 供 的 数据 。 还 必须 提供 一 个 到 内 核 各 个 子 系统 
的 接口 ， 使 得 内 核能 从 其 数据 结构 中 提取 信息 ， 然 后 借助 /proc 提 供给 用 户 空 间 。 
1. proc 数 据 项 的 表示 
proc 文 件 系统 中 的 每 个 数据 项 都 由 proc_gir_entry 的 一 个 实例 描述 , 该 结构 定义 如 下 (简化 版 本 ): 
<proc _fs.h> 
struct proc dir entry { 
unsigned int low_ino; 
unsigned short namelen; 
const char *name; 
mode_t mode; 
nlink 七 nlink; 
uid tt Wids 
gid t gid; 
loff t size; 
struct inode operations * proc_iops; 
const struct file operations * proc_ fops; 
get_info t *get_ info; 
struct module *owner; 
struct proc dir entry *next, *parent, *subdir; 
void *data; 
read _ proc t *read proc; 
write proc 七 *write proc; 
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因为 每 个 数据 项 都 有 文件 名 ， 内核 使 用 了 该 结构 的 两 个 成 员 来 存储 该 信息 : name 是 一 个 指向 存储 
文件 名 的 字符 串 的 指针 ， 而 namelen 则 指定 了 文件 名 的 长 度 。 另 外 一 个 与 经 典 文 件 系统 相同 的 概念 是 
inode 的 编号， 并 存储 在 low_ino 中 。mogde 的 语义 与 普通 文件 系统 相同 ， 因 为 该 成 员 反 映 了 对 应 数据 项 
的 类 型 (文件 、 目 录 , 等 等 )， 以 及 访问 权限 的 分 配 。 权 限 方 案 是 经 典 的 “所 有 者 、 组 、 其 他 ”模型 ， 
并 借助 <stat.h> 中 的 常量 定义 。uidq 和 giaq 指 定 了 该 文件 所 有 者 的 用 户 ID 和 组 ID。 二 者 都 设置 为 0， 这 
意味 着 root 用 户 是 几乎 所 有 proc 文 件 的 所 有 者 。 

大 多 数 数据 结构 中 常见 的 使 用 计数 器 由 count 实 现 ， 它 表示 内 核 中 使 用 某 个 数据 结构 实例 的 场合 
的 计数 ， 确 保 该 结构 实例 不 会 被 无 意 释放 。 

proc_iops 和 proc_fops 分 别 指 问 第 8 章 中 讨论 过 的 inode_operations 和 file_operations 类 
型 的 实例 。 其 中 保存 了 可 以 对 inode 或 文件 进行 的 操作 ， 这 些 操作 充当 与 虚拟 文件 系统 之 间 的 接口 ， 后 
者 即 赖 此 而 存在 。 所 使 用 的 操作 依赖 具体 的 文件 类 型 ， 我 们 将 在 下 文 详细 讨论 。 

size 成 员 表 示 按 字 节 计算 的 文件 长 度 。 由 于 proc 数 据 项 是 动态 生成 的 ， 所 以 文件 的 长 度 通常 无 
法 预先 知道 。 在 这 种 情况 下 ， 该 值 为 0。 

如 果 一 个 proc 数 据 项 由 动态 加 载 的 模块 产生 ， 那 么 owner 指 向 相关 联 模块 在 内 存 中 的 数据 结构 
《如 果 该 项 由 持久 编译 到 内 核 中 的 代码 产生 ， 那 么 ownezr 为 NULL 指 针 )。 

接 下 来 的 3 个 成 员 用 于 控制 各 种 proc 数 据 项 或 内 核子 系统 与 虚拟 文件 系统 (以 及 最 终 的 用 户 空间 ) 
之 间 的 信息 交换 。 

口 get_info 是 一 个 函数 指针 ， 指 向 相关 子 系统 中 返回 所 需 数据 的 例 程 。 如 同 普通 的 文件 访问 ， 

我 们 也 可 以 指定 所 需 范 围 的 偏 移 量 和 长 度 ， 这 样 就 不 必 读 取 整 个 数据 集 。 该 接口 很 有 用 ， 例 
如 ， 可 以 用 于 proc 数 据 项 的 自动 分 析 。 

口 read_proc 和 write_proc 指 向 的 函数 分 别 支 持 从 /向 内 核 读 取 / 写 入 数据 。 这 两 个 函数 的 参数 和 

返回 值 由 下 列 类 型 定义 指定 : 


<proc _fs.h> 

typedef int (read proc 七 ) (char *page, char **start, off t off, 
int count, int *eof, void *data); 

typedef int (write proc t) (struct file *file, const char _ user *buffer, 
unsigned long count, void *data); 


虽然 数据 是 以 内 存 页 为 基准 读 取 当然， 还 可 以 指定 要 读 取 数 据 的 偏 移 量 和 长 度 )， 但 数据 的 
写 入 则 基于 file 实 例 。 这 两 个 例 程 都 有 一 个 额外 的 aata 参 数 ， 该 参数 在 注册 新 的 proc 数 据 项 
时 定义 , 每 次 调用 这 两 个 例 程 时 , 都 作为 参数 传递 进来 (data 参 数 平时 保存 在 proc_dir_entry 
的 aata 成 员 中 )。 这 意味 着 ， 可 以 将 0 函数 注册 为 0 口 proc 数 据 项 的 读 / 写 例 程 。 函 数 的 代 
码 可 以 根据 aata 参 数 区 分 各 种 不 同 的 情况 《因为 get_info 没 有 data 参 数 ， 所 以 不 可 能 这 样 
做 )。 在 此 前 各 章 中 ， 我 们 已 经 采用 了 这 种 策略 ， 以 防止 不 必要 的 代码 复制 。 

可 想 一 下 ，Pproc 文 件 系 统 中 的 每 个 数据 项 ， 都 对 应 于 一 个 独立 的 proc_dir_entry 实 例 。 内 核 使 

用 这 些 实例 ， 借 助 其 下 列 成 员 ， 来 表示 文件 系统 的 层次 结构 。 

口 nlink 指 定 了 目录 中 子 目 录 和 符号 链接 的 数目 。 其 他 类 型 文件 的 数目 是 不 相关 的 。 

口 parent 是 指向 父 目 录 的 指针 , 父 目 录 中 包含 了 一 个 文件 (或 子 目录 ), 对 应 于 当前 的 proc_gir_ 

entry 实 例 。 

口 supbdir 和 next 支 持 文 件 和 目录 的 层次 化 布置 。supdir 指 向 一 个 目录 中 的 第 一 个 子 数据 项 ( 虽 
然 该 成 员 的 名 称 是 subdair， 但 它 可 能 是 文件 ， 也 可 能 是 目录 )， 而 next 将 目录 下 的 所 有 常见 数 
据 项 都 群集 到 一 个 单 链表 中 。 



























































































































































































































































































































































































































































































































































一 项 
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2. proc inode 

内 核 提 供 了 一 个 数据 结构 ， 称 之 为 proc_inode， 文 持 以 面向 inode 的 方式 来 查看 proc 文 件 系 统 的 
数据 项 。 该 结构 定义 如 下 : 

<proc _fs.h> 

union proc op { 


int (*proc_ get link) (struct inode *, struct dentry **, struct vfsmount **)，; 
int (*proc read) (struct task_ struct *task, char *page); 





























2 


struct proc_inode { 
struct pid *pid; 
Li Fd 
union proc_op op; 
struct proc dir entry *pde; 
struct inode vfs_inode; 


J 

该 结构 用 来 将 特定 于 proc 的 数据 与 VFS 层 的 inode 数 据 关联 起 来 。pde 是 一 个 指针 ， 指 向 关联 到 
proc 数 据 项 的 proc_dir_entry 实 例 。 该 实例 的 语义 在 前 一 节 中 已 经 讨论 过 。 在 结构 末尾 是 一 个 inoaqe 
实例 。 


























OOOOOOOUOVOUUOO 


这 与 VFS 层 用 于 inode 管 理 的 数据 组 织 方式 如 出 一 略 。 换 言 之 ， 在 关联 到 proc 文 件 系统 的 每 个 
inode 结 构 实 例 之 前 ， 内 存 中 都 有 一 些 额 外 的 数据 属于 对 应 的 proc_inode 实 例 , 根据 inode 人 信息， 可 使 
用 container_of 机 制 获得 proc_inode。 因 为 内 核 经 常 需要 访问 该 信息 ， 为 此 定义 了 下 列 辅 助 函 数 : 

<proc _fs.h> 

static inline struct proc_ inode *PROC I(const struct inode *inode) 


{ 














































































































return container of(inode, struct proc_ inode, vfs_inode); 

















该 函数 返回 了 与 一 个 VFS inode 相 关联 的 特定 于 inode 的 数据 。 图 10-1 说 明了 相应 结构 在 内 存 中 的 


布局 。 
人 PROGC- I 


图 10-1 struct proc_inode 和 struct inode 之 间 的 关联 


该 结构 其 他 成 员 ， 仪 当 该 inode 表 示 一 个 特定 于 进程 的 数据 项 时 ， 才 会 使 用 (这 些 数 据 项 位 于 
proc/pid 目 录 下 )。 其 语义 如 下 。 

口 pid 是 一 个 指针 ， 指 向 进程 的 pid 实 例 。 由 于 可 能 会 以 这 种 方式 访 i 
于 而 特定 于 进程 的 inode 与 该 数据 建立 直接 关联 的 原因 是 很 明显 的 。 
口 proc_get_l1ink 和 和 proc_read (二 者 位 于 一 个 联合 中 ， 因 为 每 次 只 有 其 中 一 个 是 有 意义 的 )， 
前 者 用 于 获得 特定 于 进程 的 信息 ， 后 者 用 于 在 虚拟 文件 系统 中 建立 链接 ， 指 向 特定 于 进程 的 
口 fd 记录 了 文件 描述 符 ， 它 对 应 于 /proc/<pidq>/fd/ 中 的 某 个 文件 。 借 助 fa， 该 目录 下 的 所 有 

文件 都 可 以 使 用 同一 file_operations。 
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大 量 特 定 于 进程 的 信息 ， 
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522 0100 0000000000 
这 些 成 员 的 语义 和 使 用 将 在 10.1.7 节 详细 讨论 。 
10.1.3 ”初始 化 
在 使 用 proc 文 件 系 统 之 前 ， 必 须 用 mount 闭 载 它 ， 而 内 核 必 须 建立 并 初始 化 几 个 数据 结构 ， 以 便 
在 内 核 内 存 中 描述 该 文件 系统 的 结构 。 遗 憾 的 是 ，/proc 的 外 观 和 内 容 随 着 平台 和 体系 结构 的 变化 很 
大 ,代码 中 充满 了 术 fdef 预 处 理 器 语句 ， 并 根据 特定 的 情况 来 选择 适当 的 代码 。 尽 管 这 种 做 法 令 人 皱 





眉 ， 但 的 确 无 法 避免 。 
初始 化 














root .cd 


的 差别 主要 在 于 创建 /proc 的 子 
PP 的 proc_root_init 的 代码 流程 图 。 











BaoceEnooemne 














proc_root_init 首 儿 


L 








目录 ， 这 一 点 在 图 











10-29 





proc_init_inodecache] 








register filesysten| 
proc_net_init| 





ph 尚 不 明显 ， 该 图 给 出 了 fs/proc/ 

















FHproc_mkd 

















图 10-2”proc_root_init 的 代码 流程 图 



































使 用 broc_init_inodqecache 为 broc_ino 
































ae 对 象 创建 一 个 slab 组 在。 这 些 






















































































对 象 是 proc 文 件 系统 的 文 柱 ， 通 常 需要 尽快 创建 和 销毁 。 接 下 来 使 用 第 8 章 讲述 的 *egister_file- 
system 例 程 ， 将 该 文件 系统 正式 地 注册 到 内 核 。 最 后 ， 调 用 mount 装 载 该 文件 系统 。 

kern_mount_data 是 do_kern_mount 的 一 个 包装 器 函数 ， 也 在 第 8 章 讨 论 过 。 它 返回 一 个 指向 
vfsmount 实 例 的 指针 。 该 指针 保存 在 全 局 变量 proc_mnt 中 ， 供 内 核 在 以 后 使 用 。 

proc_misc_init 创 建 proc 主 目录 中 的 各 种 文件 项 。 这 些 数据 项 关联 到 特定 的 函数 ， 用 于 从 内 核 
的 数据 结构 读 取 信息 。 这 些 函 数 的 一 些 例子 如 下 ; 

口 loadavg (loadavg_read proc); 

口 meminfo (meminfo_ read proc); 

口 filesystems (filesystems_read proc); 

D version (version read proc)。 

对 上 述 列表 中 的 每 个 名 字 ， 都 会 调用 create_proc_reaq_entry (上 面 的 列表 不 全 ， 还 有 其 他 一 
些 数据 项 ， 详 见 内 核 源 代码 )。 该 函数 创建 一 个 我 们 熟悉 的 proc_dir_entry 数 据 结构 的 新 实例 ， 其 
read_proc 成 员 设置 为 与 各 个 名 称 相 关联 的 函数 。 这 些 函数 中 ， 大 部 分 的 实现 都 极其 简单 。 例 如 ， 用 


于 获取 内 核 版 本 的 version_reagd_proc 函 数 : 


init/version.c 


const char linux proc banner[] 


"%Ss version %s" 


0 


LINUX_COMPILE_BY "@" LINUX COMPILE HOST 








ny" 
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' (" LINUX_ COMPILER ") 


SSsS\n"; 


fs/proc/proc_misc.c 
static int version read proc(char *page, 








char “otart,; "GEEF Et OEE; 








int count, int *eof, void *data) 
{ 
int len; 
len = snprintf (page, PAGE_ SIZE, linux_ proc_ banner, 
utsname()->sysname, 
utsname()->release, 
utsname()->version); 
return proc calc metrics (page, start, off, count, eof, len); 
} 
使 用 sprintf 将 内 核 字 符 串 1inux_proc_banner 写 入 到 一 个 用 户 空 间 的 页 中 。 完 成 之 后 ， 使 用 











proc_calc_metrics 辅 助 函数 确定 返回 数据 的 长 度 。 
在 proc_misc_init 完 成 后 ， 内 核 使 用 proc_ne 


























t_init 在 /proc/net 下 建立 很 多 与 网 络 相 关 的 文 





-pr 








从 





FE。 其 使 用 的 机 制 与 上 一 个 例子 类 似 ， 我 就 不 过 多 





解 








最 后 ， 内 核 j 
至 于 proc_mkqir， 
有 
件 时 《〈 即 ， 提 供 真 了 


fs/proc_root.c 
struct proc_ dir entry *proc net, 

















明寺 
是 需要 





E 的 信息 时 )， 这 些 实例 的 


void __init proc_root_init(void) 








周 用 proc_mkdir, 建立 /proc 的 若干 子 
我 们 只 需要 知道 该 函数 注册 一 个 新 的 子 目录 ， 并 返 
可。 我 们 无 需 了 解 其 实现 过 程 。 内 核 将 这 些 实例 保存 在 全 局 变量 中 


*Droc_bus, 


二 - 


目录 。 这 些 在 以 后 需要 , 但 此 时 尚 不 包含 文件 。 
回 对 应 的 proc_dir_entry 实 例 
因为 在 以 后 向 这 些 目 录 添 加 文 
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*Droc_root_fs, *proc_root_driver; 


































































































































































































































































































{ 
| proc_ net = proc mkdir("sysvipc", NULL); 
proc_root_fs = proc mkdir("fs", NULL); 
proc_root_driver = proc mkdir("driver", NULL); 
proc_bus = proc mkdir("bus", NULL); 
} 
进一步 的 目录 初始 化 工作 ， 不 再 由 proc 层 自身 负责 ， 而 是 由 提供 相关 信息 的 其 他 内 核 部 分 接手 。 
至 此 ， 内 核 将 这 些 子 目录 的 proc_qdir_entry 实 例 保存 到 全 局 变量 中 的 原因 ， 就 很 清楚 了 。 例 如 ， 
proc/net 中 的 文件 就 是 由 网 络 层 创 建 的 ， 在 网 卡 驱动 程序 和 协议 代码 中 的 许多 地 方 ， 都 问 proc 文 件 
系统 添加 了 文件 。 因 为 新 文件 是 在 新 的 网 卡 或 协议 初始 化 时 创建 的 ， 这 可 以 在 启动 期 间 完 成 (对 于 持 
久 编 译 到 内 核 中 的 驱动 程序 而 言 )， 也 可 以 在 系统 运行 时 进行 〈 即 加 载 模块 时 )。 无 论 如 何 ， 都 是 在 
proc_root_init 初 始 化 proc 文 件 系统 之 后 。 如 果 内 核 不 使 用 全 程 变量 ， 就 必须 提供 函数 用 于 注册 特 
定 于 子 系统 的 数据 项 ， 与 使 用 全 局 变量 相 比 ， 这 既 不 整洁 又 不 优雅 。 
在 内 核 中 定义 一 个 新 的 sysctl 时 ， 系 统 控 制 机 制 会 建立 对 应 的 文件 ， 并 添加 到 proc_sys_root 中 。 
此 前 各 章 已 经 多 次 引用 过 系统 控制 机 制 ，10.1.8 节 将 详细 讲解 该 机 制 。 
10.1.4 装载 proc 文 件 系统 





载 到 





目录 树 中 。 


在 内 核 内 部 用 于 描述 proc 文 件 系统 结构 和 内 容 的 数据 已 经 初始 化 之 后 , 下 一 步 是 将 该 文件 系统 装 
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从 用 户 空间 系统 管理 员 的 角度 来 看 ，/proc 的 装载 几乎 与 非 虚 拟 文件 系统 是 等 同 的 。 的 区 别 
在 于 ， 将 一 个 适宜 的 关键 字 ( 通 常 是 proc 或 none) 指定 为 数据 源 ， 而 不 使 用 设备 文件 : 

root@meitner # mount -t proc proc /proc 

第 8 章 详细 讲述 了 VFS 内 部 装载 新 文件 系统 的 处 理 流程 ， 这 里 仅 简 短 论述 。 在 内 核 添加 新 文件 系 
统 时 ， 会 扫描 一 个 链表 ， 查 找 与 该 文件 系统 相关 的 file_. 。 type 实 例 。 该 实例 提供 了 如 何 读 取 
对 应 文件 系统 超级 块 的 一 些 信 息 。 对 于 proc 文 件 系 统 ， 该 结构 初始 化 如 下 : 


fs/proc/root.c 
static struct file system type proc fs type = { 
.name = "PEOG" ， 
.get_sb proc_get_sb, 




















T 



















































































Kill :sb kill_ anon super, 
于 
将 特定 于 文件 系统 的 超级 块 数据 填充 到 一 个 vfsmount 结 构 的 实例 中 ， 使 得 新 的 文件 系统 能 够 集 
成 到 VFS 树 中 。 














根据 上 文摘 录 的 源 代码 显示 ，proc 文 件 系 统 的 超级 块 由 proc_get_sb 提 供 。 该 函数 基于 男 一 个 内 
核 辅助 例 程 (get_sb_single)， 借 助 proc_fil1_super 来 填充 一 个 super_pblock 的 新 实例 。 

proc_fil1_super 并 不 十 分 复杂 , 主要 负责 用 一 些 定 义 后 从 不 改变 的 值 来 填充 super_block 的 各 
个 成 员 : 


fs/proc/inode.c 
int proc_ fill super(struct super block *s, void *data, int silent) 


{ 















































struct inode * root_inode; 


s->s_blocksize = 1024; 
s->s_blocksize bits = 10; 
s->s_magic = PROC_SUPER MAGIC; 
Ss->s_op = &proc_sops; 


root_inode = proc get_ inode(s, PROC_ ROOT_ INO, &proc_ root); 
s->s_root = d_alloc_ root(root_inode); 


return 0; 
} 
块 长 度 不 能 设置 ， 总 是 1 024。 因 此 ，s_pblocksize_pits 总 是 10， 因 为 2"=1 024。 
借助 预 处 理 器 ， 用 于 识别 proc 文 件 系 统 的 魔 数 定义 为 0x9fa0。 对 proc 文 件 系统 来 说 ， 该 数字 实 
际 上 是 不 需要 的 ， 因 为 其 数据 并 不 保存 在 存储 介质 上 ， 而 是 动态 生成 的 。 
我 们 更 感 兴趣 的 是 proc_sops 中 对 超级 块 的 各 个 操作 , 其 中 收集 了 内 核 和 
各 个 函数 : 
fs/proc/inode.c 
static struct super_operations proc_sops = { 
.alloc_inode proc_alloc_ inode, 
.destroy_inode proc_destroy_inode, 
.read_inode proc_read_inode, 
.drop_inode generic delete inode, 
.delete inode proc_delete inode, 


.Statfs simple_statfs, 
.remount_fs proc_remount, 





































































































琴 
和 








里 proc 文 件 系统 所 需 的 








}5 
proc_fil1l_super 接 下 来 的 两 行 代码 为 proc 的 根 目 录 创 建 一 个 inode， 并 使 用 a_alloc_root 将 其 
转换 为 一 个 dentry， 加 入 到 超级 块 中 。 这 里 它 用 作文 件 系 统 中 查找 操作 的 起 点 ， 如 第 8 章 所 述 。 
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基本 上 ，proc_get_inode 函 数 用 于 创建 proc 的 根 inode 并 填充 儿 个 成 员 值 。 例如， 所 有 者 和 访问 
权限 。 我 们 更 感 兴 趣 的 是 静态 的 proc_dqir_entry 实 例 ， 即 proc_root。 在 它 初始 化 时 ， 引 出 了 其 他 的 
一 些 数据 结构 ， 包 含 了 相关 的 函数 指针 : 


fs/proc/root.c 














.proc_iops 
“broc_fops 
.parent 


&proc_root_ inode operations, 
&proc_root_operations, 
&proc_root, 


struct proc_ dir entry proc root = { 
.low_ino = PROC_ROOT_INO, 
.namelen = 5, 
.name = ec”, 
.mode = S_IFDIR | S_IRUGO | S_IXUGO, 
.nlink 一 
.Count = ATOMIC_ INIT(1)., 


} 

proc 文 件 系 统 中 ， 根 inode 与 其 他 inode 的 不 同 之 处 在 于 ， 它 不 仅 包含 “普通 ”的 文件 和 目录 《〈 尽 
管 它们 是 动态 生成 的 ), 还 管理 着 特定 于 进程 的 PID 目 录 , 其 中 包含 了 各 个 系统 进程 的 详细 信息 。 因 而 ， 
根 inode 有 上 自身 的 inode 操 作 和 文件 操作 ， 定 义 如 下 : 


fs/proc/root.c 

/* 

*/proc 目 录 是 特别 的 ， 因 为 其 中 包含 了 <pid> 目 录 。 
通用 的 目录 处 理 函数 。 









































































































































* 因 而 我 们 不 能 对 该 目录 使 

4 

static struct file operations proc root operations = { 
.read = generic read dir, 
.readdir = proc_root_ readdir, 

5 


3 


* 对 proc 的 根 目录 几乎 不 能 做 什么 操作 …… 
洛 兴 














static struct inode operations proc root_ inode operations = { 
.lookup = proc_root_lookup, 
.getattr = proc_root_getattr, 

3 








generic_read_dir 是 一 个 标准 的 虚拟 文件 系统 函数 ， 结 果 返 回 错误 码 -EISDIR。 这 是 因为 目录 
不 能 像 普 通 文件 那样 处 理 , 不 能 直接 从 其 中 读 取 数据 。10.1.5 节 讲述 了 proc_root_lookup 的 运作 方式 。 
10.1.5 ”管理 /proc 数 据 项 
在 proc 文 件 系统 投入 使 用 之 前 ， 必 须 向 其 中 添加 数据 项 。 内 核 提 供 了 几 个 辅助 例 程 来 添加 文件 、 
创建 目录 ， 等 等 ， 使 得 内 核 的 其 余部 分 能 够 尽 可 能 容易 地 完成 相关 的 任务 。 下 文 将 讨论 这 些 例 程 。 
加 se 


0 
人 


我 还 会 讨论 内 核 扫 描 proc 树 中 所 有 数据 项 来 查找 所 需 信 息 的 方法 。 
1. 数据 项 的 创建 和 注册 
新 数据 项 分 两 个 步骤 添加 到 proc 文 件 系统 。 首 先 ， 创 建 proc_dir_entry 的 一 个 新 实例 ， 填 充 措 
























































































































































526 D0100 0UUU00000000 



























































述 该 数据 项 的 所 有 需要 的 信息 。 然 后 ， 将 该 实例 注册 到 proc 的 数据 结构 ， 使 得 外 部 
因为 这 两 个 步骤 从 来 都 不 独立 执行 ， 所 以 内 核 提 供 辅助 函数 合并 了 这 两 个 操作 ， 使 
新 的 proc 数 据 项 。 

最 常 使 用 的 函数 是 create_proc_entry， 需 要 3 个 参数 : 

<proc _fs.h> 


得 可 以 快捷 地 创建 


能 看 到 该 数据 项 。 








extern struct proc dir entry *create proc entry(const char *name, mode t mode, 
struct proc_ dir entry *parent); 


口 name 指 定 了 文件 名 。 
口 mode 按 传统 的 UNIX 方 案 〈 用 户 /组 /其 他 ) 指定 了 访问 权限 。 
口 parent 是 一 个 指针 ， 指 向 该 文件 父 目 录 的 proc_qdir_entry 实 例 。 





























UU0:O0O0O00000proc air entrzyvDOU0Ou000000000000000 


UUOUO0OU0000 





下 列 示 例 代码 可 以 说 明 这 一 点 ， 代 码 产 生 的 数据 项 是 proc/mnet/hypercard， 提 供 了 一 个 很 棒 的 





网 卡 信息 : 


struct proc_ dir entry *entry = NULL; 








entry = create proc entry("hyperCard", 5 IFREG|S IRUGO|S IWUSR, 
&proc_ net); 


if (!entry) { 
printk (KERN_ERR "unable to create /proc/net/hyperCard\n"); 
return -EIO; 

} else { 
entry->read_ proc = hypercard proc_ read; 

entry->write _ proc = hypercard proc write; 


} 
在 创建 了 数据 项 之 后 ， 使 用 fs/proc/generic.c 中 的 proc_register 将 其 注册 
该 任务 划分 为 3 个 步骤 。 



































(1) 生成 一 个 唯一 的 proc 内 部 编号 , 问 数 据 项 赋予 身份 。get_inode_number 返 
号 ， 用 于 为 动态 生成 的 数据 项 。 





























[到 proc 文 件 系统 。 


回 一 个 未 使 用 的 编 





(2) 必须 适当 地 设置 proc_qdir_entry 实 例 的 next 和 parent 成 员 ， 将 新 数据 项 集成 到 proc 文 件 系 











UD 


统 的 层次 结构 中 。 








(3) 如 果 此 前 proc_dqir_entry 的 成 员 proc_iops 或 proc_fops 为 NULL 指 针 ， 那 么 需要 根据 文件 类 











型 ， 适 当地 设置 指向 file_operations 和 inoqe_operations 结 构 实例 的 指针 。 和 否 贝 









































I， 使 用 原 值 即 





也 


J 





对 proc 文 件 使 用 什么 样 的 file_operations 和 ijnode_operations? 相应 的 指针 设置 如 下 : 





fs/proc/generic.c 


static int proc register(struct proc dir entry * dir, struct proc dir entry * dp) 


{ 
if (S_ISDIR(dp->mode)) { 
if (dp->proc_iops == NULL) { 
dp->proc_fops = &proc_ dir operations; 
dp->proc_iops = &proc_ dir_ inode operations; 
} 
dir->nlink++; 
} else if (S_ISLNK(dp->mode)) { 
If (dp->proc_iops == NULL) 


dp->proc_iops = &proc_ link inode operations; 


10.1 procUOUODD 527 





} else if (S_ISREG(dp->mode)) { 














if (dp->proc_fops == NULL) 
dp->proc_fops = &proc_ file operations; 
if (dp->proc_iops == NULL) 


dp->proc_iops = &proc_file inode operations; 


对 兽 通 文件 ， 内 核 使 用 proc_file_operations 和 proc_file inode_operations 来 定义 文件 和 
inode 操 作 方 法 : 


fs/proc/generic.c 








static struct inode operations proc file inode operations = { 
.Setattr = proc_ notify_ change, 

}3 

fs/proc/generic.c 

static struct file operations proc file operations = { 
.llseek = proc_ file lseek, 
.read = proc_file_ read, 


.write proc_file write, 


}3 
proc 目 录 使 用 的 结构 如 下 : 


fs/proc/generic.c 




















static struct file operations proc dir operations = { 
.read = generic read dir, 
.readdir = proc_readdir, 

}3 


fs/proc/generic.c 
/* 对 proc 的 目录 几乎 不 能 做 什么 操作 . .. */ 




















static struct inode operations proc dir inode operations = { 
.lookup EE Bro LOOEWus., 
.getattr = proc_getattr, 
.Setattr = proc_ notify_ change, 

让 





符号 链接 只 需要 inode_operations， 不 需要 file_operations: 


fs/proc/generic.c 


static struct inode operations proc link inode operations = { 
.readlink = generic readlink, 
.follow_ link = proc_follow_ link, 

} 








本 节 稍 后 ， 我 将 更 仔细 地 讲解 上 述 数据 结构 中 一 些 例 程 的 实现 。 
除了 create_proc_entry， 内 核 还 提供 了 两 个 辅助 函数 创建 新 的 proc 数 据 项 。 这 3 个 简短 的 函数 
实际 上 都 是 crzeate_proc_entry 的 包装 器 例 程 ， 后 两 个 定义 如 下 ; 


<proc_fs.h> 

static inline struct Droc_dqir_entry *create proc read entry(const char *name, 
mode t mode, struct proc dir entry *base, 
read proc t *read proc, void * data) { ... } 

















static inline struct proc dir entry *create proc_ info entry(const char *name, 
mode t mode, struct proc dir entry *base, get_ info t *get_ info) { ... } 














create _proc read entry 和 create_proc_info_entry 用 于 创建 一 个 新 的 可 读 取 的 数据 项 。 
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为 该 任务 可 以 用 两 种 不 同 的 方式 完成 (10.1.2 节 讨论 过 这 个 问题 )， 
























































必须 有 两 个 对 应 的 例 程 。 
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RR 






























































create_proc_info_entry 需 要 一 个 类 型 为 get_info_t 的 函数 指针 作为 参数 ,但 create_proc_read_ 
entry 不 仅 需 要 一 个 类 型 为 read_proc_t 的 函数 指针 参数 ， 还 需要 一 个 数据 指针 参数 ， 以 便 将 同一 读 
取 例 程 用 于 不 同 的 proc 数 据 项 ， 只 是 根据 data 参 数 来 进行 区 分 。 
尽管 我 们 对 其 实现 不 感 兴趣 ， 我 在 下 面 仍然 列 出 了 一 组 其 他 的 辅助 函数 ， 用 于 管理 proc 数 据 项 。 
口 broc_mkqir 创 建 一 个 新 目录 。 





口 broc_mkdqir_modqe 创 建 一 个 曾 
口 proc_symlink 生 成 一 


个 符号 链接 。 














也 目录 ， 












































目录 的 访问 权限 可 以 显 式 指定 。 








口 remove_proc_entry 从 proc 日 录 中 删除 一 个 动态 生成 的 数据 项 。 
内 核 源 代码 包含 了 一 个 示例 文件 ， 在 Documentation/DocBook/procfs_example.c 中 。 该 文件 
演示 了 这 里 描述 的 选项 ， 可 以 用 作 编 写 broc 例 程 的 模板 。10.1.6 节 包含 了 一 些 示例 内 核 源 代码 例 程 ， 





人 负责 proc 文 件 系统 的 读 / 写 例 程 和 内 核子 系统 之 间 的 交互 。 


2. 查找 proc 数 据 项 
] 户 空间 应 



































程序 访问 proc 文 件 时 ， 























(例如 ， 在 open 系 统 调 月 








inode_operations 的 lookup 邮 数 指 针 ， 根 据 文件 名 





就 像 是 访问 






































本 贡 中 ， 我 们 讨论 














常规 文件 系统 中 的 普通 文件 一 村 


# 。 换 名 话说 ， 搜 

















索 proc 数 据 项 时 所 经 由 的 代码 路 径 ， 与 第 8 章 中 讲述 的 VFS 例 程 是 相同 的 。 按 第 8 章 的 讨论 ， 碍 找 过 程 
日 中 的 查找 ) 将 在 一 定 的 时 间 到 达 real_lookup， 该 函数 将 调用 
的 各 个 路 径 分 量 ， 来 确定 文件 名 所 对 应 的 inode。 

一 下 内 核 在 proc 文 件 系统 中 得 找 文件 时 ， 需 要 哪些 步骤 。 
系统 的 装载 点 开始 ， 通 常 是 /proc。 在 10.1.2 节 中 ， 读 者 已 经 看 


对 proc 数 据 项 的 搜索 从 proc 文 件 














系统 根 目 








到 ， 在 proc 文 件 











录 的 fi1 








数 。 图 10-3 给 出 了 相关 的 代码 流程 图 。 




















在 将 实际 工 


作 委 托 给 具 

















项 可 能 是 某 个 特定 了 





进程 的 

















子 系统 动态 注册 的 文件 〈 例 
内 核 首 先 调 
径 的 各 个 分 量 )， 那 么 
































如 ， 








图 








10-3 proc_ roo 





体 的 例 程 之 前 ， 
目录 中 的 文件 ， 例 如 


内 核 








e_operations 实 例 中 ， 


t_lookup 的 代码 流程 图 


两 种 不 同类 型 的 proc 数 据 项 。 数据 
另外 ， 数 据 项 也 可 和 


使 








































该 例 程 来 区 分 








/proc/1/maps。 














其 lookup 指 针 指 向 了 proc_root_lookup 函 


EE 是 驱动 程序 或 





/proc/cpuinfo 或 /proc/net/dev)。 区 分 这 两 种 文件 是 内 核 的 责任 。 





























jproc_lookup 查 找 常规 的 数据 项 。 如 果 函 数 找到 了 所 查找 的 文件 ( 
一 切 都 好 ， 查 找 操作 就 此 结束 。 


顺序 扫描 指定 路 











如 果 proc_lookup 没 有 找到 数据 项 ， 内 核 将 调用 proc_piqd_lookup 查 找 特定 











这 里 不 讨论 这 些 函数 的 细节 了 。 我 们 只 需要 知道 ， 
该 节 的 讨论 将 涉及 特定 于 进程 的 inode 的 创建 和 结 


























将 


10.1.6 


下 次 讨论 proc_piaq_lookup， 


读 取 和 写 入 信息 


7 




















10.1.5 节 提 到 ， 内 核 使 











该 结构 中 的 函 


数 指针 ， 所 指向 的 目标 函 


数 如 下 : 


有 保存 在 proc_file_operationsj 








函数 需要 返 





加 


























于 进程 的 数据 项 。 
一 个 适当 的 inode 类 型 (10.1.7 节 





构 )。 


Pp 的 操作 来 读 写 常规 proc 数 据 项 的 内 容 。 
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fs/proc/generic.c 

static struct file operations proc file operations = { 
.llseek = proc_ file lseek, 
.read proc_file_ read, 
.write proc_file write, 


}3 

本 节 将 讨论 通过 proc_file_read 和 proc_file_write 实 现 的 读 写 操作 。 

1. proc_file read 的 实现 

从 proc 文 件 读 取 数 据 的 操作 分 为 3 个 步骤 : 

(1) 分配 一 个 内 核 内 存 页 面 ， 产 生 的 数据 将 填充 到 页 面 中 ， 

(2) 调用 一 个 特定 于 文件 的 函数 ， 向 内 核 内 存 页 面 填充 数据 ; 

(3) 数据 从 内 核 空 间 复制 到 用 户 空 间 。 

显然 ， 第 2 个 步骤 是 最 重要 的 ， 因 为 必须 为 此 特意 准备 好 子 系统 的 数据 和 内 核 中 的 数据 结构 。 其 
他 两 个 步骤 都 是 简单 的 例 行 任务 。10.1.2 节 提 到 ， 内 核 在 proc_qir_entry 结 构 中 提供 了 两 个 函数 指针 
get_info 和 read_proc。 这 两 个 函数 用 于 读 取 数 据 ， 而 内 核 必须 选择 一 个 匹配 的 来 使 用 。 

fs/proc/generic.c 


proc_file read(struct file *file, char _ user *buf, size 七 nbytes, 
loff_t *ppos) 


































































































{ 
if (dp->get_info) { 
/* 处 理 旧 的 网 络 例 程 */ 
n = dp->get_info(page, &start, *ppos, count); 
1 (nm COUnE) 
eof = 1; 
} else if (dp->read proc) { 
n = dp->read_ proc (page, &start, *ppos, 
Count, &eof, dp->data); 
} else 
break; 
} 








page 是 一 个 指针 ， 指 向 第 一 步 中 分 配 的 用 于 保存 数据 的 内 存 页 面 。 


于 10.1.5 节 已 经 给 出 了 reag_proc 的 一 个 示例 实现 ， 我 就 不 在 这 里 重复 了 。 
2. proc_file write 的 实现 
向 proc 文 件 写 入 数据 也 很 简单 ,至少 从 该 文件 系统 来 看 是 这 样 。 proc_file_write 的 代码 非常 紧 

次， 因而 在 下 面 完 全 复制 过 来 。 

fs/proc/generic.c 

static ssize_t 


proc_file write(struct file * file, const char _ user *buffer, 
size t count, loff t *ppos) 































































































{ 
struct inode *inode = file->f_ dentry->d_inode; 
struct proc dir entry * dp; 


dp = PDE(inode); 



























































































































































530 0 100 UUOUOUU0O000D0 
if (!dp->write proc) 
return -EIO; 
return dp->write proc(file, buffer, count, dp->data); 
} 
PDE 函 数 用 于 从 VFS inode 使 用 container of 机 制 获 得 所 需 的 proc_qir_entry 实 例 ， 它 是 非常 简单 
的 。 它 不 过 是 执行 PROC_I (inode) ->pde 而 已 。 在 10.1.2 节 讨论 过 ，PROC_I 用 于 找到 与 inode 关 联 的 
proc_inode 实 例 ( 就 proc inode 而 论 ， 其 inode 数 据 总 是 紧 接 着 VFS inode 之 前 )。 
在 找到 了 proc_dqir_entry 实 例 后 ， 必 须 用 适当 的 参数 来 调用 注册 的 写 例 程 ， 当 然 ， 这 里 假定 该 
例 程 是 存在 的 ， 不 是 NULL 指 针 。 
PA ee 程 ? 答案 是 使 用 proc_write_foobar， 该 函数 是 一 个 示例 ， 内 
核 源 代 码 用 其 来 示范 如 何 编写 例 程 ， 来 处 理 对 proc 数 据 项 的 写 入 。 
kernel/Documentation/DocBook/procfs_example.c 
static int proc write foobar(struct file *file, 
const char *buffer, 
unsigned long count, 
void *data) 
{ 
int len; 
struct fb data t *fb data = (struct fb_ data t *)data; 
if(count > FOOBAR_ LEN) 
len = FOOBAR_ LEN; 
else 
len = count; 
if(copy_from user (fb data->value, buffer, len)) 
return -EFAULT; 
fb data->valuel[llen] = 
/* 解析 数据 ， 执 告 子 梁 统 中 的 操作 */ 
return len; 
} 
通常 ，proc_write 的 实现 会 执行 下 列 操 作 。 
(1) 首先 ， 必 须 检查 用 户 输 入 的 长 度 〔 使 用 count 参 数 确定 )， 确 保 不 超出 所 分 配 区 域 的 长 度 。 
(2) 数据 从 用 户 空间 复制 到 分 配 的 内 核 空间 区 域 。 
(3) 从 字符 串 中 提取 出 信息 。 该 操作 称 之 为 口 《parsing)， 这 是 从 编译 器 设计 借用 的 术语 。 在 上 


述 例子 中 ， 该 任务 委托 给 cpu 
(4) 接 下 来 ， 根 据 收 到 的 



















































































freq_parse_policy 孙 数 。 
用 户 信息 ， 对 该 〈( 子 ) 系统 进行 操作 。 

































































10.1.7 ”进程 相关 的 信息 

输出 与 系统 进程 相关 的 详细 信息 ， 是 proc 文 件 系 统 最 初 设 计 的 主要 任务 之 一 , 现在 仍然 如 此 。 如 
10.1.7 节 所 示 ，proc_piqd_lookup 负 责 打 开 /proc/<pid> 中 特定 于 PID 的 文件 。 相 关 的 代码 流程 图 ， 在 
图 10-4 给 出 。 

该 例 程 的 目的 在 于 ， 创 建 一 个 inode 作 为 第 一 个 对 象 ， 用 于 后 续 的 特定 于 PID 的 操作 。 这 是 因为 ， 
该 inode 表 示 了 Re 录 ， 其 中 包含 了 所 有 能 够 提供 特定 于 进程 的 信息 的 文件 。 下 文 将 分 析 两 种 
情况 ， 二 者 必须 区 分 开 来 。 
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proc_pid lookup| 
name = 





建 self 的 inoqe 





= Self? 


填充 file_operations 和 和 


| 








inode_operations 结 构 








有 


图 10-4 ”proc_pig_lookup 的 代码 流程 


1. self 目 录 
可 以 明确 地 根据 进程 的 PID 来 选择 进程 , 但 当前 运行 进程 的 数据 只 要 选择 /proc/self 目 录 即 可 获 
取 ， 无 须 提 供 PID， 内 核 会 自动 判断 当前 运行 的 进程 。 例 如 ， 用 cat 输 出 /proc/self/map 的 内 容 ， 将 
产生 下 列 结果 : 


wolfgang@meitner> cat /proc/self/cmdline 
cat/proc/self/cmdline 


如 果 使 用 Perl 脚 本 来 读 取 该 文件 ， 将 获得 下 列 信息 。 


wolfgang@meitner> perl -e 'open(DaT，"< /proc/self/cmdline"); print(<DAT>); clIose(DaT) 7 
perl-eopen (DAT, "< /proc/self/cmdline"); print (<DAT>); close (DAT); 


因为 脚本 作为 命令 行 参数 传递 到 Perl 解 释 器 ， 脚 本 执行 时 复制 了 自身 。 实 际 上 ， 它 几乎 可 称 作 是 
一 个 能 够 打印 输出 自身 的 Perl 脚 本 ”。 
如 图 10-4 中 的 代码 流程 图 所 示 ，proc_pid_lookup 中 首先 处 理 self 的 情 
在 创建 一 个 新 的 inode 实 例 时 ， 只 需 填 充 几 个 标准 的 字段 〈 不 需要 我 们 对 
述 事 实 : 静态 定义 的 proc_self_inode_operations 实 例 用 作 inode 操 作 : 


fs/proc/base.c 
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点 关注 )。 最 




















mh 





[dll 
Man 


要 的 是 下 



































static struct inode operations proc self inode operations = { 
.readlink = proc_self_ readlink, 
.follow_ link = proc_self_follow_ link, 

3}3 








self 目 录 实 现 为 一 个 指向 特定 于 PID 目 录 的 符号 链接 。 因 而 ， 相 关 的 inode 的 结构 总 是 相同 的 ， 并 
不 包含 所 引用 的 进程 的 任何 信息 。 在 读 取 链 接 的 目标 时 ， 将 动态 获取 相关 进程 的 信息 〈 在 跟踪 链接 或 
读 取 其 内 容 时 ， 这 是 必需 的 。 例 如 ， 在 列 出 /proc 的 各 个 数据 项 时 )。 这 也 是 proc_self_inode 
operations 中 两 个 函数 的 目的 ， 三 者 的 实现 都 只 需要 儿 行 代码 : 


fs/proc/base.c 
static int proc self readlink(struct dentry *dentry, char *buffer, int buflen) 


{ 












































Q@ 编写 打印 输出 自身 的 程序 ， 是 老 派 黑 客 的 乐事 。 在 www.nyx.net/~gthompso/quine.htm 网 页 可 以 看 到 很 多 此 类 程序 ， 
且 以 多 种 高 级 语言 编写 而 成 。 
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char tmp[30]; 


SHBrintE (Em, “Sd”; 


current->tgid); 


return vfs_readlink (dentry,buffer,buflen, tmp); 


} 


static void *proc_ self_ follow link(struct dentry *dentry, 


{ 


char tmp{[PROC_ NUMBUF]; 


SprintfE (tm "Sd"., 


struct 


task_tgid vnr (current)); 


return ERR_ PTR(vfs_follow link(nd,tmp)); 





} 











































































































































































































nameidata *nd) 















































这 两 个 函数 都 在 tmp 中 产生 一 个 字符 串 。 对 于 proc_self_readlink，tmp 包 含 了 当前 运行 进程 的 
线程 组 ID， 是 使 用 current->tgidq 读 取 的 。 对 于 proc_self_follow_link， 则 使 用 了 当前 命名 空间 关 
联 到 该 进程 的 PID。 回 忆 第 2 章 的 内 容 ， 由 于 命名 空间 的 缘故 ，PID 在 整个 系统 内 部 并 不 是 唯一 的 。 另 
外 还 要 记得 ,对 单线 程 进 程 来 说 ,线程 组 ID 等 同 于 通常 的 PID。 我 们 从 用 户 空间 应 用 程序 的 C 语 言 编 程 
己 经 熟悉 了 sprintf 函 数 ， 它 用 于 将 整数 转换 为 字符 串 。 

接 下 来 , 将 剩余 的 工作 委托 给 标准 的 虚拟 文件 系统 函数 , 即 负 责 将 查找 操作 引导 到 准确 的 位 置 上 。 

2. 根据 PID 进 行 选 择 

下 面 将 重点 讨论 如 何 根据 PID 选 择 特定 于 进程 的 信息 。 

euUUUU0inode 

如 果 将 一 个 PID 而 不 是 self 传 递 到 proc_pid_lookup， 那 么 查找 操作 的 过 程 如 图 10-4 中 的 代码 流 
程 图 所 示 。 

因为 文件 名 总 是 字符 串 形式 的 ， 而 PID 是 整数 ， 前 者 必须 进行 相应 的 转换 。 内 核 提 供 了 name_to_ 
int 辅 助 函 数 ， 将 由 数字 组 成 的 字符 串 转 换 为 整数 。 

获得 的 信息 用 于 查找 目标 进程 的 task_struct 实 例 ， 该 工作 借助 第 2 章 讲 述 的 fing_task_by_ 
pia_ns 函 数 完 成 。 当 然 ， 内 核 不 能 假定 目标 进程 是 确实 存在 的 。 毕 竟 ， 程 序 是 也 可 能 尝试 处 理 不 存在 
的 PID 的 。 这 种 情况 下 ， 将 报告 一 个 对 应 的 错误 〈-ENOENT)。 

在 找到 目标 进程 的 task_struct 之 后 ， 内 核 将 其 余 的 大 部 分 工作 委托 给 fs/proc/base.c 中 实现 





的 proc_piqd_ 








建 一 个 新 的 inode。 


new_inode 创 


























instantiate 国 数 ， 该 函数 又 依赖 proc_pidq_make_inode。 
这 在 本 质 上 会 归 



























































首先 ， 























loc_inode 例 程 ， 该 例 程 利 月 


proc_al 














日 自身 的 slab 缓 存 创建 








通过 VFS 的 标准 函数 


结 到 上 文 提 到 的 特定 于 proc 文 件 系 统 的 


个 broc_inode 结 构 实 例 











000000000000 struct inoas00000DD struct proc inode] [0 










































































日 卓 旧 轩 日 旧 本 日 日 醒目 卓 卓 旧 旧 站 日 VES inode 旧 旧 目 日 生 四 四 日 10.1.2 加 日 卓 旧 卓 站 旧 

可 ODODDIDIOOOODD 

在 调用 proc_pigd_make_ inode 之 后 , proc_pid_instantiate 中 剩余 的 代码 只 需要 执行 几 项 管理 
任务 。 其 中 最 重要 的 是 , 将 inode 操 作 inode->i_op 设 置 为 指向 proc_tgiqd base_inode operations, 
该 实例 是 静态 声明 的 ， 其 内 容 在 下 文 讲解 。 

euU000 











在 特定 于 PID 的 目录 /proc/pidr 
的 , 在 第 8 章 中 讨论 虚拟 文件 系统 机 制 
结构 作为 PID inode 的 inode_operati 



































FP 处 理 一 个 文 伯 








F (或 目录 ) 时 ， 这 是 使 














该 





时 提 到 过 。 0 并 








ons 实 例 。 





目录 的 inode 操 作 完 成 


日 静态 定义 的 proc_base_inode_operations 
结构 定义 如 下 : 
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fs/proc/base.c 

static const struct inode operations proc_ tgid base inode operations = { 
.lookup = proc_ tgid base_ lookup, 
.getattr piqd getattr, 
.Setattr proc_setattr, 





}3 

除了 属性 的 处 理 之 外 ， 目 录 还 支持 一 个 操作 ， 即 查找 子 目 录 项 "。 

proc_tgiqd_base_lookup 的 任务 是 根据 给 定 的 名 称 〈(cmdline、maps， 等 等 )， 返 回 一 个 inode 实 
例 ( 设 置 了 适当 的 inode_operations)。 扩 展 的 inode 操 作 (proc_inode) 还 必须 包括 一 个 函数 ， 输 
出 所 需 的 数据 。 图 10-5 给 出 了 代码 流程 图 。 


proc_tgiqd base_ lookup 
proc_ pident_lookup 


在 tgiq_base_stuff 中 检查 名 称 是 否 存在 













































































proc pident_ instantiate 


proc_pid_make_inode] 


填充 inode_operations 和 
file_operations 

















图 10-5”proc_tgiqd_base_lookup 的 代码 流程 图 


这 项 工作 委托 给 proc_pident_lookup, 该 函数 是 一 个 通用 的 方法 ,不 仪 能 够 处 理 TGID 文 件 ， 
能 够 处 理 其 他 ID 类 型 。 第 一 步 是 确认 目标 数据 项 是 否 确实 存在 。 因 为 特定 于 PID 的 目录 ， 其 内 容 总 是 
同样 的 ， 内 核 源 代码 中 定义 了 所 有 文件 的 静态 列表 以 及 其 他 一 些 信息 。 该 列表 称 之 为 tgid_base_ 
stuff， 可 以 很 方便 地 用 来 查 明 目标 目录 项 是 否 存 在 。 该 数组 各 元 素 的 类 型 为 pid_entry， 定 义 如 下 : 


fs/proc/base.c 

struct pid entry { 
char *name; 
int len; 
mode_t mode; 
const struct inode operations *iop; 
const struct file operations *fop; 
union proc_op op; 




























































































}3 

name 利 len 指 定 了 名 称 的 文件 名 和 字符 串 长 度 ， 而 mode 表 示 访 问 权 限 。 此 外 ， 还 有 用 于 与 该 数据 
项 关联 的 inode_operations 和 file_operations 的 字段 ， 以 及 proc_op 的 一 份 副本 。 回 想 前 文 ， 我 
们 知道 proc_op 包 含 了 一 个 指针 , 指向 proc_get_1ink 或 proc_read_1ink 操 作 , 具体 指向 哪个 操作 取 
决 于 文件 类 型 。 

内 核 提 供 了 一 些 宏 ， 使 得 构造 静态 的 pid_entry 实 例 比 较 容 易 : 



















































































CD proc_tgiqd base_operations( 一 个 struct file_operations 实 例 ) 中 还 提供 了 一 个 专门 的 readdir 方 法 了 
读 取 目录 中 所 有 文件 的 列表 。 之 所 以 在 这 里 没有 讨论 ， 主 要 是 因为 每 个 特定 于 PID 的 目录 所 包含 的 内 容 都 是 不 变 
的 ， 因 而 该 方法 总 是 返回 同样 的 数据 。 





















































534 D100 0U00000000 





fs/proc/base.c 

































































E&Proc_ ##OTYPE##_operations, \ 


NULL, \ 


E&PpProc_ ##OTYPE##_ link } ) 











define DIR(NAME, MODE, OTYPE) \ 
NOD(NAME, (S_IFDIR| (MODE)), \ 
&ProCc_ ##OTYPE##_inode_ operations, 
{} ) 
define LNK(NAME, OTYPE) \ 
NOD(NAME, (S_IFLNK|S_IRWXUGO), \ 
&proc_ pid link_ inode operations, 
{ DEOC yet_ link = 
define REG(NAME, MODE, OTYPE) \ 
NOD(NAME, (S_IFREG| (MODE)), NULL, \ 
E&PpProc_ ##OTYPE##_operations, {}) 
define INF (NAME, MODE, OTYPE) \ 
NOD(NAME, (S_IFREG| (MODE)), \ 
NULL, &proc_ info_ file operations, \ 
{ .proc _ read = &proc ##0TYPE } ) 
顾名思义 ， 这些 宏 可 以 创建 





























它们 不 需要 提供 专门 的 file_operations， 只 需要 填充 op 联合 的 proc_read。 考 察 下 四 





REG("environ", S_IRUSR, environ) 
/天 米 类 火炎 火炎 火炎 炎炎 火炎 火炎 炎炎 火炎 炎炎 炎炎 火炎 大火 类 大 类 类 类 类 


INF ("auxv", S_IRUSR, pid auxv) 

















二 者 展开 之 后 ， 就 可 以 看 到 REG 和 INF 的 不 同 之 处 : 
{ .name = ("environ"), 
.len = sizeof("environ") -1, 
.mode = (S_IFREG| (S_IRUSR)), 
.iop = NULL, 
.fop = &proc_ environ_ operations, 
.op = {}, 
3 
/天 汪 炎 火炎 火炎 火炎 炎炎 火炎 火炎 炎炎 火炎 炎炎 类 炎炎 类 炎炎 类 类 类 类 类 类 / 
{ .name = ("auxv"), 
.len = sizeof("auxv") -1, 
.mode = (S_IFREG| (S_IRUSR)), 
.iop = NULL, 
.fop = &proc_info_ file operations, 
.Op = { .proc_ read = &proc pid auxyv }, 
} 











这 些 宏 用 于 在 tgiq_base_stuff 中 构建 特定 于 TGID 的 


fs/proc/base.c 
static const struct pid entry tgid base stuff[] 
DIR("task", S_IRUGO|S_IXUGO, task), 








DLR( TE S_IRUSR|S_IXUSR, EO 
DIR:("f£dinEO", S_IRUSR|S_IXUSR, EEEOYS 
REG("environ", S_IRUSR, environ), 
INF("auxv", S_IRUSR, pid_ auxv), 
INF("status", S_IRUGO, pid status), 

INF ("limits", S_IRUSR, pidqd limits), 


INF ("oom score", 
REG ("oom adj", 
#ifdef CONFIG AUDITSYSCALL 


S_IRUGO, oom_ score), 





#endif 
#ifdef CONFIG_ FAULT_ INJECTION 














录 、 链接 和 普通 文件 。INF 也 创建 普通 文件 , 但 与 REG 创 建 的 文件 相 比 ， 











两 个 宏 语 句 : 





























a 


S_IRUGO|S_IWUSR, oom adjust), 


REG ("loginuid", S_IWUSR|S_IRUGO, loginuid), 


REG ("make-it-fail", S_IRUGO|S_IWUSR, fault_inject), 
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endif 
if defined (USE ELF_ CORE DUMP) && defined (CONFIG ELF_CORE) 
REG ("coredump_filter", S_IRUGO|S_IWUSR, coredump_filter), 





ss CONFIG_ TASK_IO_ACCOUNTING 
INF("io", S_IRUGO, pid io accounting), 
endif 
)s 
该 结构 按 类 型 、 名 称 、 访 问 权 限 描述 了 每 个 目录 项 。 最 后 一 项 (访问 权限 ) 是 用 通常 的 VFS 常 数 
定义 的 ， 我 们 在 第 8 章 已 经 讲 过 。 
综述 一 下 ， 各 种 类 型 的 项 可 以 如 下 区 分 。 
口 INF 风 格 的 文件 使 用 一 个 独立 的 read_proc 函 数 来 获得 所 要 的 数据 。 标 准 的 proc_info_file_ 
operations 实 例 用 作 file_operations。 它 定义 的 方法 ， 表 示 了 使 用 read_proc 将 数据 向 上 
层 传递 的 VFS 接 口 。 
口 SYM 产生 的 是 指向 男 一 个 VFS 文 件 的 符号 链接 。 通 过 proc_get_1ink 指 定 了 一 个 特定 于 类 型 函 
数 ， 借 助 该 函数 可 以 获得 链接 目标 ， 而 proc_pig_1link inode_operations 将 链接 目标 的 相 
关 信 息 以 适当 形式 转送 给 虚拟 文件 系统 。 
口 REG 创 建 普通 文件 ， 使 用 专用 的 file_operations 收 集 数据 并 转送 到 VFS 层 。 如 果 数 据 源 不 符 
合 proc_info_file_operations 提 供 的 框架 ， 就 需要 这 样 做 。 
我 们 回 到 proc_pident_lookup。 要 检查 目标 文件 名 是 否 存 在 ， 内 核 所 做 的 就 是 遍历 所 有 的 数组 
元 素 ， 将 目标 文件 名 与 其 中 存储 的 名 称 进行 比较 ， 直 至 发 现 一 个 匹配 者 ， 或 所 有 数组 项 都 不 匹配 。 在 
tgiqd_base_stuff 中 确认 文件 名 确实 存在 之 后 ， 该 函数 使 用 proc_pident_instantiate 产 生 一 个 新 
的 inode， 后 者 义 调用 了 proc_piqd make _inode 函 数 。 
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可 以 在 运行 时 通过 DUODDD 修改 内 核 行为 。 探 制 参数 从 用 户 空间 传输 到 内 核 ， 无 须 重启 机 器 。 操 
纵 内 核 行 为 的 传统 方法 是 sysct1 系 统 调用 。 但 由 于 种 种 原因 , 这 并 不 总 是 最 优雅 的 方案 。 一 个 理由 是 ， 
必须 编写 一 个 程序 读 取 参 数 并 使 用 sysct1 将 参数 传递 给 内 核 。 遗 憾 的 是 ， 该 方法 并 不 能 让 用 户 快速 了 
解 到 内 核 控 制 方案 是 如 何 提 供 的 。 不 同 于 系统 调用 ， 不 存在 POSIX 或 其 他 任何 标准 来 定义 一 个 标准 的 
sysctl 集 合 ， 使 得 所 有 兼容 系统 都 实现 该 集合 。 因 此 ，sysct1 实 现 现 在 被 认为 是 过 时 的 ， 述 早 会 被 遗 态 。 
为 解决 这 种 情况 ，Linux 借 助 于 proc 文 件 系 统 。 内 核 重 排 了 所 有 的 sysctl， 建 立 起 一 个 层次 结构 ， 
并 导出 到 /proc/sys 目 录 下 。 可 以 使 用 简单 的 用 户 空间 工具 来 读 取 或 操纵 这 些 参数 。 要 修改 内 核 的 运 
行 时 行为 ，cat 和 echo 就 足够 了 。 
本 节 不 仅 讲 解 了 sysctl 机 制 的 proc 接 口 ， 还 讨论 了 在 内 核 中 如 何 注册 管理 sysctt， 因 为 这 两 个 方面 
是 密切 相关 的 。 
1. 使 用 sysctl 
为 描绘 出 系统 控制 方案 及 其 使 用 的 一 般 图 景 ， 我 选择 了 一 个 简短 的 例子 ,来 说 明 用 户 空 间 程序 如 
可 借助 sysct1 系 统 调用 来 调用 sysctl 资 源 。 这 个 例子 也 说 明了 在 没有 proc 文 件 系 统 的 情况 下 ， 直 接 使 
jsysct1 系 统 调用 的 困难 程度 。 
每 个 类 UNIX 操 作 系 统 中 的 许多 sysctl， 都 组 织 为 一 个 明确 的 层次 结构 ， 反 映 了 文件 系统 中 所 使 用 
的 我 们 熟悉 的 树 形 结构 : 正 是 因为 这 种 特性 , 才 使 得 sysctl 能 够 如 此 简单 地 通过 一 个 虚拟 文件 系统 导出 。 
但 与 文件 系统 相 比 ，sysctl 不 使 用 字符 串 表 示 路 径 分 量 。 相 反 ，sysctl 使 用 打包 为 符号 常数 的 整数 
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来 表示 路 径 分 量 。 与 字符 串 形 式 的 路 径 名 相 比 ， 内 核 更 容易 解析 这 种 格式 。 
内 核 提供 了 几 个 “基本 类 别 ” 包括 cTL_pEv〔 外 设 有 关 信 息 )、cTL_KERN (内 核 本 身 有 关 信 息 ) 
和 cTL_VvM 内存 管理 信息 和 参数 )。 
CTL_DEV 包 含 一 个 子 类 名 为 DEV_CDROM， 提 供 有 关系 统 中 的 光驱 的 信息 《光驱 显然 是 外 设 )。 
在 CTL_DEV/DEV_CDROM 中 , 有 几 个 “端点 ”表示 实际 的 sysctl。 例如 , 有 一 个 sysctl 称 作 DEV_CDROM_ 
INFO， 提 供 了 有 关 该 驱动 器 的 能 力 的 一 般 信息 。 希 望 访问 该 sysctl 的 应 用 程序 必须 指定 路 径 名 
CTL_DEV/DEV_CDROM/DEV_CDROM_INFO， 以 便 唯一 标识 该 sysctl。 所 需 常 数 的 数值 定义 在 <sysct1.h> 
中 ， 标 准 库 也 使 用 了 该 头 文 件 (通过 /usr/include/sys/sysctl.h)。 
图 10-6 给 出 了 sysctl 层 次 结构 一 个 片段 的 图 示 ， 其 中 也 包含 了 上 述 的 路 径 。 


KERN_OSTYPE 
CTL_KERN = KERN_OSRELEASE 
KERN_SYSRQ 
CL, Vit < VM_PAGEBUF 
VM_SWAPPINESS 
和 te 
= NET_CORE_DEVWEIGHT 
CTL_NET 
NET_ IPVA ee NET_TPV4_TVP_FIN_TIMEOUT 
NET_IPV4_AUTOCONFIG 
DEV_PARPORT 


cmr_ pgv oY DEV_CDROM_INEFO 
sn CDROM DEV_CDROM AUTOCLOSE 


DEV_CDROM_ CHECK_ MEDIA 




































































































































































图 10-6 sysctl 项 的 层次 结构 


代码 的 核心 是 定义 在 C 标 准 库 中 的 sysct1 函 数 ， 函 数 声 明 在 /usr/incluge/sys/sysct1.h 中 : 


int sysctl (int *names, int nlen, void *oldval, 
size t *oldlenp, void *newval, size t newlen) 


到 具体 的 sysctl 的 路 径 由 一 个 整数 数组 给 出 ， 每 个 数组 元 素 表示 一 个 路 径 分 量 

内 核 并 不 指定 路 径 中 有 多 少 个 分 量 ， 因 此 必须 通过 nlen 参 数 明确 指定 。 

oldval 是 一 个 指针 ， 指 向 一 个 类 型 不 确定 的 内 存 区 ，olalenp 指 定 所 分 配 的 内 存 区 以 字 节 为 单位 
的 长 度 。 内 核 使 用 olaval 指 针 来 返回 sysct 的 原 值 。 如 果 该 信息 可 以 读 取 但 不 能 操作 ， 则 sysctl 调 用 前 
后 ， 其 值 是 相同 的 。 在 系统 调用 执行 完毕 后 ， 输 出 数据 的 长 度 由 oldlenp 指 定 。 因 此 ， 该 参数 是 以 指 
针 形 式 传递 ， 而 不 是 按 值 传递 的 。 

newval 和 newlen 也 形成 了 一 对 指针 和 长 度 的 组 合 。 在 sysctl 允 许 修改 内 核 参 数 时 ， 可 以 使 用 这 两 
个 参数 。newval 指 针 指向 新 的 信息 在 用 户 空 间 中 的 存储 区 ， 而 newlen 指 定 了 其 长 度 。 在 读 取 数据 时 ， 
对 mwval 传 递 NULL 指 针 ， 而 newlen 传 递 0 值 即 可 。 

在 生成 了 sysct1 调 用 所 需 的 所 有 参数 之 后 〈 路 径 名 、 ee 调用 sysct1 
结果 返回 一 个 整数 。0 意 味 着 调用 成 功 〈 为 简单 起 见 ， 跳 过 错误 处 理 )。 获 得 的 数据 保存 在 oldval 中 
可 以 像 普 通 的 C 字 符 串 那样 用 printf 输 出 。 

2. 数据 结构 

内 核定 义 了 几 个 数据 结构 来 管理 各 个 sysctl。 照 例 ， 在 研究 其 实现 之 前 ， 我 们 先 来 仔细 看 看 这 些 
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数据 结构 。 因 为 各 个 sysctl 是 按 层次 结构 排 布 的 (每 个 较 大 的 内 核子 系统 ， 都 会 定义 自身 的 sysctl 列 表 ， 
及 其 各 个 下 级 模块 )， 数 据 结构 中 不 仅 包 含 了 各 个 sysctl 及 其 读 写 操作 的 相关 信息 ， 还 必须 提供 在 各 个 
数据 项 之 间 映 射 层次 结构 的 方法 。 

每 个 sysctl 项 都 有 自身 的 ctl_table 实 例 : 


















































<sysctl.h> 
struct ctl_table 
{ 
int ctl_name; /* 二 进 制 ID */ 
const char *procname; /* /proc/sys 下 各 目录 项 的 文本 ID,， 或 NULL */ 











void *data; 

int maxlen; 

mode_t mode; 

struct ct1_table *child; 























struct ctl_ table *parent; /* 自动 设置 */ 
proc_handler *proc_handler; /* 用 于 格式 化 文本 的 回调 函数 */ 
ct1_handler *strategy; /* 用 于 所 有 读 / 写 操作 的 回调 函数 */ 














struct Proc_dqir_entry *de; /* /proc 的 控制 块 */ 
void *extral; 
void *extra2; 





DO00000000U00D sysc 0 sysctIi0U0O0O0U0O0OO0O0O0O000000 
UUUUUOUOUsysctUUOUUOUOU0ODUtabe0U0D0 


该 结构 成 员 的 语义 如 下 。 

口 ctl_name 是 一 个 ID， 在 该 sysctl 项 所 在 的 层次 上 必须 是 唯一 的 ， 但 不 必 在 整个 sysctl 表 中 是 
唯一 的 。 
<sysct1.h> 中 包含 了 无 数 的 枚 举 ， 定 义 了 用 于 各 种 目的 的 sysct 的 标识 符 。 用 于 基本 类 别 的 标 
识 符 由 下 列 枚 举 定义 ; 














































































































<sysctl.h> 

enum 

{ 
CTL_KERN=1, /* 一 般 内 核 信 息 和 控制 */ 
CTL_VM=2, /* 虚拟 内 存 管理 */ 
CTL_NET=3, /* 网 络 */ 
CTL_PROC=4, /* 进程 信息 */ 
CTL_FS=5, /* 文件 系统 */ 
CTL_ DEBUG=6, /* 调试 */ 
CTL_DEV=7, /* 设备 */ 
CTL_BUS=8, /* 总线 */ 
CTL_ABI=9, /* 二 进 制 仿真 */ 
CTL_CPU=10 /* CPU 相 关 信息 (速度 等 ) */ 











在 crr_pgv 类 别 中 ， 还 定义 了 各 种 设备 类 型 的 标识 符 ; 

















<sysctl.h> 
/* CTL_DEV 名 称 : */ 
enum { 


DEV_CDROM=1， 
DEV_HNMON=2 ， 
DEV_PARPORT=3 ， 
DEV_RAID=4， 
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3} 这 


DEV_MAC_HID=5, 
DEV_SCSI=6, 
DEV_IPMI=7, 








常数 1 (和 其 他 值 ) 在 上 面 给 出 的 枚 举 中 出 现 了 不 止 一 次 ， 如 cTL_KERN 和 DEV_CDROM。 这 不 成 
10-6 所 示 。 


问题 ， 


procname 是 一 个 字符 上 


wol 
tt 
dr- 
dr- 
dr- 
dr- 
dr- 
dr- 
dr- 
dr- 


如 果 数 据 项 不 通过 proc 文 件 系 统 导出 〔 基 
以 赋值 为 NULL 指 针 ， 尽 管 这 很 不 常见 。 
data 可 以 指定 任何 值 ， 通 常 是 一 个 函数 指针 或 
用 代码 部 分 不 会 访问 该 成 员 。 
maxlen 指 定 了 一 个 sysctl 能 够 接收 或 输出 的 数 提 





mode 控 制 了 对 数据 的 访问 权限 ， 确 定数 据 是 否 
系统 的 常数 指定 ， 读 者 在 第 8 章 已 经 熟悉 。 
child 是 一 个 指针 ， 


> 


二 上 月 











因为 二 者 位 于 不 同 的 层次 上 ， 如 图 











fgang@meitner> 1s -1 /proc/sys 


al 0 

XL-XLT-X 2 root root 0 2006-08-11 
XL-XLT-X 8 root root 0 2006-08-11 
Xr-xr-xXx 7 root root 0 2006-08-11 
Xr-xr-xXx 4 root root 0 2006-08-11 
XL-XLT-X 8 root root 0 2006-08-11 
XL-XLT-X 2 root root 0 2006-08-11 
Xr-xr-xXx 2 root root 0 2006-08-11 
Xr-xr-xX 2 root root 0 2006-08-11 


00: 
00: 
00: 
OO: 
00: 
00: 
00: 
00: 
































串 ， 包 含 了 procy/sys 下 目录 项 的 可 到 
对 应 于 几 个 基本 类 别 的 sysctl) 的 名 称 ， 都 表现 为 /proc/sys 下 的 


09 
09 
09 
09 
09 
09 
09 
09 























proc 
sunrpc 
vm 


而 只 能 通过 sysct1 系 统 调 


































































































Ar 时 





解 的 描述 信息 。 所 有 根 数据 项 〈 即 
目录 名 。 























访问 )，procname 也 可 














字符 串 
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特定 于 sysctl 的 函数 处 理 。 通 























的 最 大 长 度 〈 按 字 节 计算 )。 








前 数据 项 的 子 结 点 。 例 如 ， 在 cTL_KERN sysctl 项 中 ，chilaq 指 向 


可 以 读 / 写 ， 谁 可 以 读 / 写 。 权 限 是 使 用 虚拟 文件 


指向 一 个 数组 ， 各 个 数组 项 都 是 ct1_table 实 例 ， 
一 个 数组 ， 包 含 的 sysctl 项 











'EASE 


ww 











如 KERN_OSTYPE (操作 系统 类 型 )、KERN_OSRE 


运行 的 宿主 机 的 名 称 )， 因 为 这 些 项 在 层次 上 








































































































属于 CTL_KERN sysctl 的 






































这 些 ct1_table 实 例 是 





内 核 版 本 号 ) 和 KERN_HOSTNAME (内 核 


一 级 。 



































因为 ctl_table 数 组 的 长 度 没有 显 式 存储 ， 因 而 数组 的 最 后 一 项 必须 总 是 NULL 指 针 ， 标 志 数 
组 的 结束 。 

在 通过 proc 接 口 输出 数据 时 , 要 调用 proc_readsys。 内核 可 以 直接 输出 保存 在 内 核 中 的 数据 ， 
但 也 可 以 将 其 转换 为 更 容易 阅读 的 形式 (例如 ， 将 数值 常数 转换 为 字符 串 形式 )。 
strategy 由 内 核 用 来 读 写 sysctl 的 值 ， 在 执行 如 上 所 述 的 系统 调用 时 使 用 (注意 : proc 为 该 功 
能 ， 使 用 了 自身 的 不 同 函 数 )。ct1l_handler 是 一 个 函数 指针 ， 其 类 型 是 通过 typedef 定 义 的 ， 
如 下 所 示 : 

<sysctl.h> 


typedef int ctl handler (ct1_table *table, int _ user *name, int nlen, 









































除了 syct1 系 统 调用 的 全 部 参数 之 外 ， 该 函数 还 需 
表示 当前 处 理 的 sysctl。 

到 proc 数 据 的 接口 由 ae 建立 。 

extral 和 和 extra2 可 以 填充 特定 于 proc 的 数据 








常用 于 定义 数值 参数 的 上 下 限 。 





» 


void _ user *oldval, size t _ user *oldlenp, 


void _ user *newval, size t newlen); 


需要 一 个 指向 ct1_table 实 例 的 指针 ， 该 参数 


























通用 的 sysctl 代 码 处 理 





不 会 处 理 这 两 者 。 它 们 通 
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表 的 管理 : 


<sysctl.h> 








struct ctl_table header 


t 














吉 构 的 第 一 个 成 


三 
A 


ctl_table *ctl]_table; 
struct list head ctl]_ entry; 


3 


ctl_table 是 一 个 指针 ， 指 向 sysctl 项 的 数组 ( 





























系统 的 各 个 sysctl 表 之 间 的 层 


























内 核 提 供 了 ct1_table_heaqer 数 据 结构 ， 使 得 能 够 将 几 个 sysctl 表 维护 在 一 个 链表 中 ， 
们 熟悉 的 标准 函数 遍历 和 操作 。 该 纪 员 


1ctl_table 元 素 组 成 )。ct1l_entry 成 员 用 于 管 


ctl_entry 





能 够 用 我 





个 sysctl 表 ， 接 下 来 是 一 个 链表 元 素 ， 用 于 链 


囊 





理 链表 。 图 10-7 清 晰 地 说 明了 ctl_table_header 和 ctl_table 之 间 的 关系 %。 


ctl_entry 


图 10-7 ctl_table_header 和 ctl_table 之 间 的 关系 























的 层次 结构 。 





je 


在 内 核 
次 结 





又 反映 出 了 sysctl 
的 





\ 





中 可 以 定义 各 种 层次 结构 ， 将 sysctl 表 通过 
结构 ， 各 个 层次 结构 必须 ba 起 来 形成 一 个 单一 的 层次 结构 。 














中 有 








proc 文 件 系 统 品 
一 般 数 据 。 驱 动 和 














口 首先 ， 借 











的 层次 
个 层次 


口 
司 尝 





个 独立 的 层次 结构 。 
或 网 络 状态 的 sysctl。 该 层次 弓 
光驱 的 驱动 程序 想 要 导出 一 PN 以 便 输 


旦 序 是 如 何 














其 中 一 
; 构 也 包 舍 




















二 chi1lg 指 针 联 结 起 来 。 


次 关系 ， 通 过 ct1_table 的 child 成 员 和 使 用 ct1. 
现 的 链表 建立 起 来 。 通 过 chilq 建 立 的 关联 ， 使 得 各 个 表 之 间 可 以 建立 一 种 直接 的 








table_header 实 
关系 ， 而 这 种 联系 
































en 





中 的 /proc/sys/dev/cdrom/info), 它 是 CTL_DEV 的 一 


着 手 做 这 件 事 的 呢 ? 























结构 。 从 用 








Q 表示 链表 元 素 的 成 员 实 





助 sysctl 表 建立 一 个 4 
DEV_CDROM 有 几 个 子 结 点 ， 其 中 一 


” 一 


站 空 间 来 看 ， 不 可 外 








者 构 ， 举 例 来 说 ， 包 含 了 
一 个 容器 ， 可 以 提供 有 关系 统 外 设 的 信息 。 

上 有 关系 统 光 驱 的 信息 。 这 里 需要 的 是 一 
个 子 结 点 ， 


层 的 层次 结构 。cTL_DEV 是 起 始 层 ， 
个 是 DEV_CDROM_INFO。 





结构 加 入 到 链表 中 ， 人 





层次 结构 。 这 样 














区 分 











这 两 个 层次 结构 ， 





日 由 于 只 能 有 一 个 整体 上 
图 10-7 说 明了 这 种 情况 ， 图 
用 于 查询 宿主 机 名 称 


























个 sysctl (在 
提供 了 描述 驱动 器 的 

















一 个 子 结 点 


点 是 DEV_CDROM。 





做 的 效果 相当 于 “车 加 ”了 





因为 它们 表现 为 一 个 单一 








际 上 是 在 数据 成 员 之 后 ， 但 为 图 示 方 便 ， 我 将 链表 元 素 放置 到 了 图 中 链表 结 点 的 顶部 。 
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的 层次 结构 整体 。 

永 用 程序 在 使 用 sysctl 时 ， 无 须知 道 该 层次 结构 在 内 核 中 是 如 何 表 示 的 。 访 问 所 需 的 信息 时 ， 应 
用 程序 只 需要 知道 对 应 sysctt 的 路 径 ， 例 如 cTL_DEV->DEV_CDROM->DEVCDROM_INFO。 

当然 ， proc 文件 系统 中 /proc/sys 目 录 的 内 容 也 是 用 这 种 方式 构建 起 来 的 ， 对 应 的 层次 结构 在 内 
部 的 合成 ， 我 们 从 用 户 空 间 是 看 不 到 的 。 

3. 静态 的 sysctl 表 

对 所 有 的 sysctl 都 定义 了 静态 的 sysctl 表 ， 无 论 系 统 配 置 如 何 "”。 根 结 点 对 应 的 表 是 root_table， 
用 作 所 有 静态 定义 的 数据 的 根 : 

kernel/sysctl.c 

static ct1_table root_ tablel[]; 


static struct ctl_table header root_table header = 
{ root_table, LIST_ HEAD_ INIT(root_ table header.ctl_ entry) }; 


针对 该 表 ， 也 同样 构建 了 一 个 ctl_table_header 数 据 项 ， 以 便 将 附加 的 层次 结构 维护 到 一 个 如 
前 文 所 述 的 链表 中 。 这 些 可 以 与 root_table 定 义 的 层次 结构 车 加 。root_table 表 定义 了 对 各 种 sysctl 
进行 分 类 的 框架 : 

kernel/sysctl.c 























































































































static ct1_table root table[] = { 
{ 
.Ctl_name = CTL_KERN, 
.procname = "kernel", 
.mode = 0555, 
Chil1d = kern_ table, 
} 
{ 
.Ctl_name = CTL VM, 
.procname = "wv" 
.mode = 0555, 
eo Re = vm _ table, 
} 
#ifdef CONFIG NET 
{ 
.Ctl_name CTL NET, 
.procname = "net", 
.mode = 0555, 
Child = net_table, 
} 
#endift# 
二 
.Ctl_name = CTL DEYV, 
.procname = "dev", 
.mode = 0555, 
Child = dev_table, 
} 
{ .ctl name = 0 } 
} 








当然 ， 其 他 的 顶层 类 别 可 以 使 用 上 述 的 车 加 机 制 来 添加 。 内 核 也 可 以 采用 这 种 方法 例如， 对 所 
有 分 配 到 ABI (application binary interface, 口 口 口 口 口 口 口 口 口 ， 的 sysctl， 建 立 cTL_ABI 类 别 。 
在 root_table 的 定义 中 引用 的 表 (如 kern_table、net_table 等 )， 也 都 定义 为 静态 数组 。 因 为 


























QD 即使 此 类 sysctl 在 所 有 体系 结构 上 都 实现 了 ， 但 其 效果 也 会 因 体 系 结构 的 不 同 而 不 同 。 
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其 中 包含 了 大 量 的 sysctl， 我 们 在 这 里 略 去 这 些 表 的 见长 定义 。 特 别 地 ， 这 些 表 除了 是 静态 ct1l_table 
实例 之 外 ， 其 他 的 我 们 都 不 关心 。 其 内 容 可 以 在 内 核 源 代码 中 查看 ， 定 义 在 kernel/sysctl.c 中 。 
4. 注册 sysctl 
除了 静态 定义 的 sysctl 之 外 ， 内 核 还 提供 了 一 个 接口 ， 用 于 动态 注册 和 注销 新 的 系统 控制 功能 。 
register_sysctl_table 用 于 注册 sysctl 表 ， 而 其 对 应 的 unregister_sysctl_table 用 于 删除 sysctl 
表 ， 后 者 通常 发 生 在 模块 卸载 时 。 
register_sysctl_table 子 数 需 要 一 个 参数 , 一 个 指 问 ctl_table 数 组 的 指针 ,其 中 定义 了 新 的 
sysctl 层 次 结构 。 该 函数 由 几 个 步 又 组 成 。 首先 , 创建 一 个 新 的 ctl_table_header 实 例 , 并 与 目标 sysctl 
表 关 联 起 来 。 然 后 ， 将 ctl_table_header 添 加 到 现存 sysctl 层 次 结构 的 链表 中 。 
辅助 函数 sysct1l_check_table 用 于 检查 确认 新 的 数据 项 包含 了 适当 的 信息 。 基 本 上 ， 它 确认 没 
有 指定 一 些 范 座 的 组 合 ( 例 如 ， 包 含 数 据 的 目录 或 可 写 的 目录 )， 以 及 每 个 普通 文件 都 有 一 个 有 效 的 
strategy 例 程 。 
注册 sysctl 项 ， 不 会 自动 地 创建 将 sysctl 项 关联 到 proc 数 据 项 的 jnogde 实 例 。 因 为 大 多 数 sysctl 从 来 
都 不 通过 proc 使 用 ， 这 种 做 法 太 浪 费 内 存 。 相 反 ， 与 proc 文 件 的 关联 是 动态 创建 的 。 在 proc 文 件 系 
统 初始 化 时 ， 只 创建 了 与 sysctl 相 关 的 目录 /proc/sys: 


fs/proc/proc_sysctl.c 
int. DroOG syes. init (void) 






























































































































































































































































{ 
proc_sys_root = proc mkdir("sys", NULL); 
proc_sys_root->proc_ iops = &proc_ sys_inode operations; 
proc_sys_root->proc_ fops = &proc_ sys_file operations; 
proc_sys_root->nlink = 0; 
return 0; 

} 








在 proc_sys_inode_operations 中 指定 的 inode 操 作 确保 了 /proc/sys 下 的 文件 和 目录 将 在 需要 
时 动态 地 创建 。 该 结构 的 内 容 如 下 : 


fs/proc/proc_sysctl.c 











static struct inode operations proc_ sys_inode operations = { 
.lookup = Broc_sys. lookup, 
.permission = proc_sys_permission, 
.Setattr = proc_sys_setattr, 


1 

查找 操作 由 proc_sys_lookup 处 理 。 下 列 方法 用 于 为 proc 数 据 项 动态 地 构造 inode。 

口 do_proc_sys_lookup 以 父 目 录 的 dentry 和 文件 /目录 的 名 称 为 参数 ， 来 查找 目标 sysctl 好 
该 函数 主要 是 遍历 此 前 介绍 的 数据 结构 。 

口 给 定 父 目录 的 inode 和 sysctl 表 , 则 使 用 proc_svs_make_inode 来 构建 实现 的 inodae 实 例 。 由 于 

新 inode 的 inode 操 作 也 是 通过 proc_sys_inode_operations 实 现 的 , 这 确保 了 所 述 的 方法 也 适 
用 于 新 的 子 目 录 。 

/proc/sys 下 各 目录 项 的 文件 操作 如 下 : 


kernel/sysctl.c 



























































Dy 
局 
H 






















































































static const struct file operations proc_sys_file operations = { 
.read = proc_sys_read, 
.write = proc_sys_write, 
.readdir = proc_sys_readdir, 
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要 读 权 限 ，proc_sys_write 需 要 写 权 限 。 


(3) 调用 sysctl 表 项 中 存储 的 proc 处 理 程序 来 完成 操作 。 


类 别 中 《依据 其 参数 和 返 
下 列 函 数 使 用 得 最 频繁 。 








所 有 目录 项 的 读 写 文件 操作 ， 都 是 通过 标准 的 操作 实现 的 。 


5. /proc/sys 文 件 操作 

















proc_sys_read 和 proc_sys_write 的 实现 非常 相似 。 两 者 都 需要 执行 下 面 3 个 简单 步骤 。 

(1) do_proc_sys_1lookup 查 找 与 /proc/sys 中 文件 关联 的 sysctl 表 项 。 

(2) 不 能 保证 目标 sysctl 项 的 所 有 权限 都 已 经 授予 ， 即 使 root 用 户 也 是 如 此 。 有 些 项 可 能 只 允许 读 ， 
而 不 允许 修改 ， 即 写 入 。 因 而 需要 一 个 额外 的 权限 检查 ， 由 sysct1_perm 执 行 。 而 proc_sys_read 需 













































































在 ct1_table 定 义 时 ， 为 proc_handler 指 派 了 一 个 函数 指针 。 因为 各 种 sysctl 散 布 到 几 个 标准 的 
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值 )， 通 常会 使 用 内 核 为 此 提供 的 标准 实现 ， 而 不 使 用 特定 的 函数 实现 。 



































口 proc_dointvec 从 /向 内 核 读 / 写 

















整数 值 〈 值 的 准确 数目 由 table->maxlen/sizeof (unsigned 
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int) 指 定 )。 如 果 maxlen 等 于 sizeof (unsigned int)， 那 么 只 读 写 一 个 整数 〈 而 不 是 一 个 整 


数 数组 )。 




















口 proc_dointvec_minmax 的 工作 方式 与 proc_dointvec 相 同 ， 但 它 会 确保 每 个 值 都 在 由 table 
->extral 和 table->extra2 指 定 的 范围 内 (前 者 为 下 限 ， 后 者 为 上 限 )。 所 有 超出 该 范围 的 值 





都 被 忽略 。 





















































proc_doulongvec_minmax 的 作用 相同 ， 但 使 用 的 值 类 型 为 nsigned long， 而 不 是 int。 














proc_dointvec_ms， 其 中 的 信 























D proc_aointvec_jiffies 读 取 一 个 整数 表 。 这 些 值 都 转换 为 jiffies 。 一 个 几乎 相同 的 变 体 是 
5 都 解释 为 毫秒 。 
D proc_qostring 在 内 核 和 用 户 空间 之 间 传 输 字符 串 ， 可 以 提供 双向 传输 。 超 出 sysctl 项 内 部 组 

















冲 区 长 度 的 字符 串 将 自动 截断 。 
样 在 信息 输出 (例如 ， 使 jcat 



































10.2 简单 的 文件 系统 

















在 数据 复制 到 用 户 空间 时 ， 将 自动 地 附加 一 个 回 车 (\n)， 这 
) 后 将 增加 一 个 换行 。 






































全 功能 的 文件 系统 很 难 编写 ， 在 达到 可 用 、 高 效 、 正 确 的 状态 之 前 ， 需 要 投入 大 量 的 工作 量 。 如 
果 文 件 系统 负责 在 磁盘 上 实际 存储 数据 

















， 那 么 这 是 合理 的 。 但 文件 系统 (特别 是 虚拟 文件 系统 ) 除了 























在 块 设备 上 存储 文件 之 外 ， 还 可 用 于 许多 目的 。 这 样 的 文件 系统 仍然 在 内 核 中 运行 ， 其 代码 因而 要 经 
受 内 核 开发 者 提出 的 严格 质量 要 求 的 考 














易 。 
据 的 一 个 接口 ， 文 件 系统 就 完成 了 。 
此 外 ， 还 有 一 些 以 seq_file 机 制 提供 的 标准 例 程 
开发 者 可 能 只 是 想 要 向 用 户 空间 导出 一 两 个 值 ， 而 不 想 和 现存 的 文件 系统 (如 proc〉 打 交道 。 内 核对 
此 也 提供 了 一 种 方案 : debugfs 文 件 系统 允许 只 用 几 个 函数 调用 ， 束 实现 一 个 双向 的 调试 接口 。 























验 。 但 也 提出 了 各 种 标准 方法 ， 使 得 编写 此 类 文件 系统 更 为 容 


























一 个 小 的 文件 系统 库 libfs， 包 含 了 实现 文件 系统 所 需 的 几乎 所 有 要 素 。 开 发 者 只 需要 提供 到 其 数 












































用 ， 使 得 顺序 文件 的 处 理 宫 不 费力 。 最 后 ， 
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Sy 



































10.2.1 ”顺序 文件 


户 层 是 从 头 到 尾 顺序 读 取 的 ， 其 内 容 可 
数组 元 素 。 内 核 从 头 到 尾 遍历 整个 数组 ， 








在 讨论 任何 文件 系统 库 之 前 ， 我 们 


















































都 需要 看 一 看 顺序 文件 接口 。 小 的 文件 系统 中 的 文件 ， 通 常用 
能 是 遍历 一 些 数据 项 创建 的 。 这 些 数据 项 ， 举 例 来 说 ， 可 能 是 
对 每 个 数组 项 创建 一 个 文本 表示 。 翻 译 成 内 核 的 术语 ， 我 们 














可 以 将 其 称 之 为 根据 记录 序列 来 合成 文件 。 
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fs/seq_file.c 中 的 例 程 容许 用 最 小 代价 来 实现 此 类 文件 。 不论 名 称 如 何 , 但 顺序 文件 是 可 以 进 
行 定位 (seek) 操作 的 ， 但 其 实现 不 怎么 高 效 。 顺 序 访问 ， 即 逐个 读 取 数据 项 ， 显 然 是 首选 的 访问 模 
式 。 某 个 方面 具有 优势 ， 通 常会 在 其 他 方面 付出 代价 。 

kprobe 机 制 包含 了 到 上 述 debugfs 文 件 系 统 的 一 个 接口 。 一 个 顺序 文件 向 用 户 层 提供 了 所 有 注册 的 
探测 器 。 我 将 讲解 kprobe 的 实现 ， 来 说 明 顺 序 文件 的 思想 。 

1. 编写 顺序 文件 处 理 程序 
基本 上 , 必须 提供 一 个 struct file_operations 的 实例 , 其 中 一 些 函 数 指针 指向 一 些 seq 例 程 ， 
这 样 就 可 以 利用 顺序 文件 的 标准 实现 了 。kprobes 子 系统 的 做 法 如 下 : 


kernel/kprobes.c 


























































































































static struct file operations debugfs_ kprobes_ operations = { 
.Open = kprobes_open, 
.read = seq_read, 
.llseek = seq_lseek, 
.release = seq_ release, 
3 


这 个 file_operations 实 例 可 以 通过 第 8 章 讨论 的 方法 关联 到 一 个 文件 。 就 kprobes 来 说 ， 这 个 文 
件 将 要 在 调试 文件 系统 中 创建 ， 参 见 10.2.3 节 。 
唯一 需要 实现 的 方法 是 open。 实现 该 函数 不 需要 多 少 工作 量 , 简单 的 一 行 代码 就 可 以 将 文件 关联 
到 顺序 文件 接口 : 
kernel/kprobes.c 
static struct seq operations kprobes seq ops = { 












































.Start = kprobe_ seq start, 
.next = kprobe_ seq next, 
.Stop = kprobe_seqg_ stop, 
.Show = show_kprobe addr 


站 


static int _ kprobes kprobes open(struct inode *inode, struct file *filp) 
{ 
return seq open(filp, &kprobes_ seq ops); 



































} 
seq_open 建 立 顺序 文件 机 制 所 需 的 数据 结构 ， 结 果 如 图 10-8 所 示 。 回 忆 第 8 章 的 内 容 ，struct 
file 的 private 成 员 可 以 指向 文件 私有 的 任意 数据 ， 通 用 的 VFS 函 数 不 会 访问 该 数据 。 在 这 里 ， 











seq_open 使 用 该 指针 建立 了 与 struct seq_file 的 一 个 实例 之 间 的 关联 ，struct seq_file 中 包含 
了 顺序 文件 的 状态 信息 : 


<seq_file.h> 

struct seq file { 
Char” *burf: 
size_t size; 
size_t from; 
size_t count; 
loff t index; 








const struct seq operations *op; 
}; 
buf 指 向 一 个 内 存 缓冲 区 ， 用 于 构建 传输 给 用 户 层 的 数据 。count 指 定 了 需要 传输 到 用 户 层 的 剩 
余 的 字 节 数 。 复 制 操作 的 起 始 位 置 由 from 指 定 ， 而 size 给 出 了 缓冲 区 中 总 的 字 节 数 。inqex 是 缓冲 区 
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的 另 一 个 索引 。 它 标记 了 内 核 向 缓冲 区 写 入 下 一 个 新 记录 的 起 始 位 置 。 请 注意 ，index 和 from 的 演变 
过 程 是 不 同 的 , 因为 从 内 核 向 缓冲 区 写 入 数据 , 与 将 这 些 数据 复制 到 用 户 空间 , 这 两 种 操作 是 不 同 的 。 


























struct file struct seqg file struct seq operations 
start 
Stop 
next 
rivate 0 
| 





图 10-8 ”顺序 文件 的 数据 结构 
从 文件 系统 实现 者 的 角度 来 看 ， 最 重要 的 成 员 是 指针 op， 它 指 问 seq_operations 的 一 个 实例 。 


De 


这 将 通用 的 顺序 文件 实现 与 提供 具体 文件 内 容 的 例 程 关 联 起 来 。 内 核 需要 4 个 方法 ， 这 需要 由 文件 提 
供 者 实现 ; 


<seq_file.h> 
struct seq operations { 
Volid * (*start) (struct seq_file *m, loff _t *pos);} 
void (*stop) (struct seq_ file *m, void *v); 
void * (*next) (struct seq file *m, void *v, loff t *pos); 
int (*show) (struct seq file *m, void *v); 










































































}; 

这 些 函 数 的 第 一 个 参数 总 是 所 述 的 seq_file 实 例 。 每 当 对 一 个 顺序 文件 开始 一 个 操作 时 ， 都 调 
用 start 方 法 。 位 置 参 数 pos 是 文件 中 的 一 个 游标 ， 其 语义 由 实现 解释 。 它 可 以 作为 字 节 偏 移 量 使 用 ， 
也 可 以 解释 为 数组 索引 。kprobes 实 现 所 有 上 述 这 些 例 程 ， 我 们 将 在 下 面 讨论 kprobes 的 实现 。 
但 我 们 首先 还 是 简要 地 描述 一 下 将 何 种 信息 传递 到 用 户 层 , 在 我 们 讨论 怎样 做 之 前 ， 必 须知 道 要 
做 什么 。kprobes 机 制 允 许 向 内 核 中 某 些 位 置 附加 探测 器 。 所 有 注册 的 探测 器 散 列 到 数组 kprobe_table 
中 , 该 数组 的 长 度 是 静态 定义 的 , 即 KPROBE_TABLE_SIZE。 顺序 文件 的 文件 游标 解释 为 该 数组 的 索引 ， 
调试 文件 应 该 显示 所 有 注册 的 探测 器 的 有 关 信 息 ， 文 件 的 内 容 需 要 根据 散 列表 的 内 容 构 建 。 

start 方 法 很 简单 : 它 只 需要 检查 当前 游标 是 否 超出 数组 边界 即 可 。 

kernel/kprobes.c 


static void _ kprobes *kprobe seq start(struct seqg file *f, loff t xpos) 
{ 

























































































































































































return (*pos < KPROBE_ TABLE_SIZE) ? pos : NULL; 
} 


这 很 简单 ， 但 关闭 顺序 文件 还 要 简单 :在 几乎 所 有 情况 下 ， 都 不 需要 作 任 何 
kernel/kprobes.c 
static void _ kprobes kprobe_ seq stop(struct seqg file *f, void *v) 


{ 
/* 无 事 可 做 */ 
































山中 








} 


在 需要 将 游标 移动 到 下 一 个 位 置 时 ， 需 要 调用 next 函 数 。 除 了 将 数组 索引 加 1 之 外 ， 该 函数 还 必 
须 检 查 索 引 是 否 越界 : 
kernel/kprobes.c 


static void _ kprobes *kprobe seq next (struct seda_file *f, void *v, loff t xpos) 
{ 









































(*pPOS)++; 
if (*pos >= KPROBE_ TABLE SIZE) 
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return NULL; 
return pos; 


} 

NULL 指 针 表 示 已 经 到 达 文 件 的 末尾 。 

最 有 趣 的 函数 是 show， 顺 序 文件 的 实际 内 容 都 是 在 这 里 生成 的 。 为 易于 说 明 ， 我 介绍 的 是 一 个 轻 
微 简化 的 版 本 ， 去 掉 了 一 些 和 kprobes 有 关 的 难点 ， 这 些 会 妨碍 对 seq_file 相 关 问 题 的 讲解 : 


kernel/kprobes.c 
static int show_ kprobe addr (struct seq file *pi, void *v) 















































{ 
struct hlist_ head *head; 
struct hlist node *node; 
struct kprobe *p; 
const char *sym = NULL; 
unsigned int 1i = *(1oftt tt 上 *) v; 
unsigned long offset = 0; 
char *modname, namebuf[128]; 
head = &kprobe tablel[il]; 
hlist_ for each entry_rcu(lp, node, head, hlist) { 
sym = kallsyms_lookup( (unsigned long)p->addr, NULL, 
&offset, &modname, namebuf).; 
if (sym) 
seq printf (pi, "%p %s+0x%x Ss\n", p->addr, 
sym, offset, (modname ? modname : " ")); 
else 
seq printf(pi, "%$p\n", p->addr); 
} 
return 0; 
小 


参数 v 指 定 了 文件 游标 的 当前 值 ， 函 数 将 其 转换 为 数组 索引 i。 在 生成 数据 时 , 会 遍历 所 有 散 列 到 
该 索引 的 元 素 。 对 每 个 元 素 构建 一 行 输出 。 例 子 中 生成 了 有 关 探 测 位 置 和 与 该 位 置 相关 的 符号 的 信息 ， 
但 这 与 例子 的 目的 不 相关 。 要 紧 的 是 : 这 里 使 用 了 seq_printf 来 格式 化 信息 ， 而 不 是 printk。 实 际 
上 ,内 核 提供 了 一 些 辅助 函数 , 为 此 必须 使 用 这 些 函 数 。 所 有 这 些 函 数 的 第 一 个 参数 都 是 所 述 seq_file 
实例 。 
口 seq_printf 类 似 于 printk， 可 用 于 格式 化 任意 的 C 语 言 字 符 串 。 
D seq_putc 和 seq_puts 分 别 输出 一 个 字符 和 字符 串 ， 无 需 任何 格式 化 。 

口 seq_esc 的 参数 包括 两 个 字符 串 。 对 于 第 二 个 字符 串 中 的 所 有 字符 ， 只 要 该 字符 包含 于 第 一 个 

字符 串 之 中 ， 则 将 其 奉 换 成 八进制 的 对 应 值 。 

函数 sec_path 用 于 构建 与 给 定 struct dentry 实 例 相 关联 的 文件 名 。 特 定 于 文件 系统 或 特定 于 
命名 空间 的 代码 会 使 用 该 函数 。 

2. 与 虚拟 文件 系统 的 关联 

到 现在 为 止 ， 我 介绍 了 顺序 文件 的 用 户 所 需要 的 每 件 事 情 。 剩 下 的 ， 就 是 将 这 些 操作 关联 到 虚拟 
文件 系统 ， 该 工作 留 给 内 核 完 成 。 为 建立 关联 ， 必 须 像 上 文 的 debugfs_kprobes_operations 那 样 ， 
将 seq_read 用 作 file_operations 的 read 方 法 。 该 方法 将 VFS 和 顺序 文件 连接 起 来 。 
首先 ， 该 函数 需要 从 VFS 层 的 struct file 获 得 seq_file 实 例 。 回 想 前 文 ，seq_open 通 过 
private_data 建 立 了 该 关联 。 
如 果 有 些 数据 等 待 写 出 (如 果 struct seq_file 的 count 成 员 为 正 值 )， 则 使 用 copy_to_user 将 
其 复制 到 用 户 层 。 此 外 ， 还 需要 更 新 seq_file 的 各 个 状态 成 员 。 
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下 一 步 ， 会 产生 新 的 数据 。 在 调用 start 之 后 ， 内 核 接连 调用 show 和 next， 直 至 填 满 可 用 的 缓冲 





























到 用 户 空间 。 





区 。 最 后 ， 调 用 stop， 使 用 copy_to_user 将 生成 的 数据 复制 
10.2.2 ”用 libfs 编 写 文 件 系 统 























libfs 是 一 个 库 ， 提 供 了 几 个 非常 通用 的 标准 例 程 ， 可 用 于 创建 服务 于 特定 用 途 的 小 型 文件 系统 。 
这 些 例 程 很 运 合 于 没有 后 备 存储 器 的 内 存 文件 。 显 然 ，libfs 的 代码 无 法 与 特定 的 磁盘 格式 交互 。 这 需 



























































要 由 完整 的 文件 系统 实现 来 正确 处 理 。 该 库 的 代码 包含 在 一 个 文件 中 ， 即 fs/1ibfs.c。 




















UU0O000D0D0<ts.az0D0D0D0<iibfs.hzUUUlibs00OO0uuuao00D00 
simple0U0O0s0000000000000000000D00 generic [U0 libfs 
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使 用 libfs 建 立 的 虚拟 文件 系统 ， 其 文件 和 目录 层次 结构 可 使 用 dentry 树 产生 和 遍历 。 这 意味 着 在 























该 文件 系统 的 生命 周期 内 ， 所 有 的 aentry 都 必须 驻 留 在 内 存 中 。 除 非 通过 un1link 或 zmqir 显 式 删 
否则 不 能 消失 。 但 这 个 要 求 很 容易 做 到 : 代码 只 需要 确保 所 有 dentry 的 使 用 计数 都 是 正 值 即 可 。 








































































































为 更 好 地 理解 libfs 的 思想 ， 我 们 来 讨论 实现 目录 处 理 的 方法 。libfs 提 供 了 目录 的 inode_ 
operations 和 file_operations 的 实例 模板 ， 任 何 利用 了 libfs 来 实现 的 虚拟 文件 系统 都 可 以 重用 。 









































fs/libfs.c 


const struct file operations simple dir operations = { 


.Open = dcache dir open, 
.release = dcache_dir_close, 
.llseek = dcache dir_ lseek, 
.read = generic read dir, 
.readdir = dcache_readdir, 
-Faye = simple_sync_file, 


}3 


const struct inode operations simple dir inode operations = { 
.lookup = simple lookup, 
}3 


不 同 于 上 文 介绍 的 命名 惯例 ，simple_dir_operations 中 的 例 程 并 非 都 带 有 前 级 simple_。 但 它 


























们 也 定义 在 fs/1ibfs.c 中 。 所 用 的 命名 法 ， 反 映 了 相关 的 操作 只 用 于 aentry 绥 存 中 的 对 象 。 








































































































种 表示 本 质 上 是 一 种 机 械 的 任务 ， 这 里 不 详细 讨论 相关 的 源 代 码 了 。 


pa 











如 果 一 个 虚拟 文件 系统 建立 了 正确 的 dentry 树 ， 那 么 将 simple dir operations 和 simple_ 
dir_inode_operations 分 别 设置 为 目录 的 文件 操作 和 inode 操 作 即 可 。libfs 提 供 的 函数 可 以 确保 ， 
中 包含 的 信息 可 以 通过 像 getdents 之 类 的 标准 系统 调用 导出 到 用 户 层 。 由 于 根据 一 种 表示 来 构建 男 一 


树 




















我 们 反倒 对 向 虚拟 文件 系统 添加 文件 的 方式 更 感 兴 趣 。debugfs (在 下 文 讨论 ) 文件 系统 即 采 
libfs。 新 的 文件 (也 是 新 的 inode〉 用 下 列 例 程 创建 : 
fs/debugfs/inode.c 











Pan 


static struct inode *debugfs get inode(struct super block *sb, int mode, dev_t dev) 


{ 


struct inode *inode = new_ inode (sb); 


if (inode) { 
inode->i_mode = mode; 
inode->i uid = 0; 
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inode->i_gid = 0; 
inode->i_blocks = 0; 
inode->i_atime = inode->i mtime = inode->i_ ctime = CURRENT_ TIME; 
Switch (mode & S_IFMT) { 
default: 
init_special_inode(inode, mode, dev); 
break; 
Case S_IFREG: 
inode->i_fop = &debugfs_file operations; 
break; 














case S_IFDIR: 
inode->i_op = &simple dir inode operations; 
inode->i_fop = &simple dir operations; 


























/* 目录 inode 的 i_nlink 从 2 开始 ，2 表 示 目 录 项 " ." */ 
inc_ nlink(inode); 
break; 














} 
} 


return inode; 


} 


除了 分 配 一 个 新 的 struct inode 实 例 之 外 ， 内 核 还 需要 根据 访问 权限 信息 来 判断 将 什么 样 的 文 
件 操作 和 inode 操 作 关 联 到 该 文件 。 对 于 设备 文件 , 使 用 标准 例 程 init_special_file( 不 与 libfs 关 联 )。 
我 们 更 感 兴趣 的 是 普通 文件 和 目录 这 两 种 情形 。 目 录 需 要 的 是 libfs 提 供 的 标准 文件 操作 和 inode 操 作 ， 
上 文 已 经 讨论 过 。 这 确保 了 不 需要 其 他 工作 就 可 以 正确 地 处 理 新 目录 。 

普通 文件 不 能 使 用 libfs 的 Eile_operations 模 板 。 至 少 要 手工 指定 read、write 和 open 方 法 ， 这 
是 必需 的 。read 负 责 从 内 核 内 存 准 备 数 据 并 将 其 复制 到 用 户 空间 ， 而 write 可 用 于 读 取 用 户 的 输出 并 
以 一 定 方式 应 用 它 。 这 就 是 实现 定制 的 文件 所 需 的 全 部 工作 ! 

文件 系统 还 需要 一 个 超级 块 。 懒 惰 的 程序 员 应 当 感 恩 ，libfs 提 供 了 simple_fi1l1_super 方 法 ， 可 
用 于 填充 给 出 的 超级 块 : 

<fs.h> 

int simple_fill super(struct super block *s, int magic, struct tree descr *files); 

s 是 所 述 的 超级 块 ，magic 指 定 了 一 个 唯一 的 魔 数 ， 用 于 标识 该 文件 系统 。files 参 数 提供 了 一 种 
非常 便捷 的 方法 来 向 虚拟 文件 系统 添加 文件 。 遗 憾 的 是 ， 这 种 方法 只 能 指定 同 处 一 个 目录 下 的 文件 ， 
但 这 对 虚拟 文件 系统 来 说 并 不 是 真正 的 限制 。 更 多 的 内 容 可 以 在 以 后 动态 添加 。 

一 个 struct tree_dqescr 的 数组 用 来 描述 初始 的 文件 集合 。 该 结构 定义 如 下 : 


<fs.h> 

struct tree_ descr { 
char *name; 
const struct file operations *ops; 
int mode; 







































































































































































































































































}3 
name 表 示 文 件 名 ，ops 指 向 相关 的 文件 操作 ， 而 mode 指 定 了 访问 权限 位 。 
10.2.3 ”调试 文件 系统 


使 用 了 libfs 函 数 的 一 个 特别 的 文件 系统 是 调试 文件 系统 debugfs。 它 向 内 核 开发 者 提供 了 一 种 向 用 10 
户 层 提供 信息 的 可 能 方法 。 这 些 信息 并 不 会 编译 到 产品 内 核 中 。 它 只 是 开发 新 特性 时 的 一 种 辅助 手段 。 
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着 








启用 了 DEBUG_FS 配 
器 条 件 语句 包围 


























选项 ， 才 会 激活 对 debugfs 的 文 持 。 
， 来 检查 CONFIG_DEBUG_FS。 


仅 当 内 核 编译 时 
码 ， 都 会 被 C 预 处 理 
1. 示例 


























四 











而 向 debugf 注 才 
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回顾 本 章 前 文 阐述 顺序 文件 
过 debugfs 导 出 ， 实 在 是 简单 到 极点 了 ! 


kernel/kprobes.c 
#ifdef CONFIG DEBUG_FS 














static int _ kprobes debugfs_ kprobe init(void) 


文件 的 代 


Ne 





机 制 时 , 所 讨论 的 kprobes 例 子 。 只 需要 几 行 代码 就 可 以 将 结果 文件 














过 


{ 


struct dentry *dir, *file; 

unsigned int value = 1; 

dir = debugfs create dir("kprobes", NULL); 

file = debugfs_create file("list", 0444, dir, NULL, 
&debugfs_kprobes_operations); 

return 0; 


} 


endif /* CONFIG DEBUG_FS */ 



























































口 就 足够 了 。 但 我 











debugfs_create_dqir 用 于 创建 一 个 新 目录 ， 而 debugfs_create_file 在 该 目录 中 建立 一 个 新 文 
件 。 在 上 文 讲 述 顺 序 文件 机 制 时 ， 曾 举例 讨论 过 qebugfs_kprobes_operations。 
2. 编程 接口 
1 于 debugfs 代 码 非 党 干净、 简单、 文档 情况 良好 ， 所 以 不 必 对 其 实现 多 加 评注 。 只 讨论 其 编程 接 
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门 可 以 看 看 源 代码 ， 这 是 对 libfs 例 程 的 非常 好 的 应 


Pan 


























有 3 个 函数 可 
<debugfs.h> 


struct dentry *debugfs_ create file(const char *name, 


于 创建 新 的 文件 系统 对 象 : 


HD 


mode_t mode, 
struct dentry *parent, void *data, 
const struct file operations *fops); 


struct dentry *debugfs_create dir(const char *name, struct dentry *parent); 


struct dentry *debugfs_create_ symlink(const char *name, struct dentry *parent, 


文件 系统 对 象 可 以 是 普通 文件 、 目 录 或 


<debugfs.h> 


const char *dest); 


链接 。 两 个 附加 的 操作 可 用 于 重 命 名 和 删除 文件 : 


Ar FI 


条 "可 


TT 








void debugfs remove(struct dentry *dentry); 


struct dentry *debugfs_ rename(struct dentry *old dir, struct dentry *old dentry, 


在 调试 内 核 代码 时 ， 经 
了 儿 个 函数 ， 可 以 创建 新 的 文件 ， 允 许 从 





共同 的 原型 : 
<debugfs.h> 


struct dentry *debugfs_create XX(const char *name, 


struct dentry *new_ dir, const char *new name); 
常 需 要 导出 或 操作 一 个 基本 类 型 变量 的 值 ， 如 int 或 long。debugfs 也 提供 
] 户 空间 读 取 值 ， 并 将 新 值 传递 到 内 核 。 这 些 函 数 都 有 一 个 




































































mode_t mode, 
struct dentry *parent, XX *value); 
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name 和 mode 分 别 表示 文件 名 和 访问 权限 ， 而 parent 指 向 父 目 录 的 dentry 实 例 。value 是 最 重要 
的 , 它 指向 将 要 导出 的 值 ， 并 且 可 以 通过 向 文件 写 入 数据 来 修改 。 对 儿 种 数据 类 型 ,都 提供 了 该 函数 。 

如 果 用 内 核 的 标准 数据 类 型 u8、u16、u32 或 u64 之 一 来 代替 XX， 就 可 以 创建 一 个 文件 ， 人 允许 读 取 
对 应 的 值 ， 但 禁止 修改 。 如 果 使 用 x8、x16 或 x32， 那 么 也 可 以 从 用 户 空间 修改 该 值 。 

可 以 通过 aebugfs_create_bool 来 创建 一 个 提供 比尔 值 的 文件 : 

<debugfs.h> 


struct dentry *debugfs_create booll(const char xname，mode t mode, 
struct dentry *parent, u32 *value) 


最 后 ， 还 可 以 与 用 户 空间 交换 二 进 制 数据 (通常 称 之 为 0 口 口 口 口 口 ， 的 比较 短 的 部 分 。 下 列 函 
数 即 用 于 此 : 


<debugfs.h> 

struct dentry *debugfs_create blobl(const char *name, mode _t mode, 
struct dentry *parent, 

struct debugfs_blob wrapper *blob); 


二 进 制 数 据 由 一 个 专门 的 数据 结构 表示 ， 包 括 一 个 指向 存储 数据 的 内 存 位 置 的 指针 和 数据 的 长 度 : 


<debugfs.h> 

struct debugfs_blob wrapper { 
void *data; 
unsigned long size; 











































































































































































































过 
10.2.4 伪 文 件 系统 


回想 8.4.1 节 的 内 容 ， 我 们 知道 内 核 支 持 伪 文 件 系 统 ， 其 中 收集 了 一 些 相关 的 inode， 但 不 能 装载 ， 
因而 对 用 户 层 也 是 不 可 见 的 。libfs 也 提供 了 一 个 辅助 函数 ， 来 实现 这 种 特殊 类 型 的 文件 系统 。 
内 核 使 用 了 一 个 伪 文 件 系 统 来 跟踪 表示 块 设备 的 所 有 inode: 


fs/block_dev.c 
static int bd get_sbl(struct file system type *fs_type, 
int flags, const char *dev_name, void *data, struct vfsmount *mnt) 



















































































{ 

return get_sb pseudol(fs_ type, "bdev:", &bdev_sops, 0x62646576, mnt); 
小 
static struct file system type bd type = { 

.name = "bdev", 

.get_sb = bd_ get_sb, 

.kill_sb = kill_ anon_ super, 


}; 
代码 看 起 来 类 似 于 普通 的 文件 系统 ， 但 libfs 提 供 的 get_sb_pseudo 方 法 可 以 确保 不 能 从 用 户 空间 
装载 该 文件 系统 。 这 很 简单 ， 只 需要 设置 第 8 章 讨论 过 的 MS_NOUSER 标 志 。 男 外 ， 还 填充 了 一 个 struct 
super_pblock 的 实例 ， 并 分 配 了 伪 文 件 系 统 根 目录 的 inode。 

为 使 用 伪 文 件 系统 ,内 核 需要 使 用 kern_mount 或 kern_mount_qata 装 载 它 。 它 可 用 于 收集 inode， 
而 无 需 写 一 个 专门 的 数据 结构 。 对 于 bdaev， 所 有 表示 块 设 备 的 inode 都 群集 起 来 。 但 该 集合 只 能 从 内 
核 看 到 ， 用 户 空间 无 法 看 到 。 


10.3 sysfs 
sysfs 是 一 个 向 用 户 空间 导出 内 核对 象 的 文件 系统 ， 它 不 仅 提供 了 察看 内 核 内 部 数据 结构 的 能 力 ， 
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还 可 以 修改 这 些 数据 结构 。 特 别 重 要 的 是 ， 该 文人 
章 介绍 的 内 核对 象 (kobject)， 而 内 核对 象 的 层次 化 组 织 直 接 反 映 到 了 sysfs 的 

















统 的 所 有 设备 和 总 线 都 是 通过 kobJject 组 织 





















































系统 高 度 层 次 化 的 组 织 : sysfs 的 数据 项 来 源 于 第 1 








目录 布局 中 "。 由 于 系 
4， 所 以 sysfs 提 供 了 系统 的 硬件 拓扑 的 一 种 表示 。 























在 许多 情况 下 ,使 用 了 简短 、 易 读 的 文本 串 来 导出 对 象 的 属性 ， 但 通过 sysfs 与 内 核 传递 二 进 制 数 


























据 的 方法 也 被 频繁 采用 。sysfs 已 经 成 为 老式 的 IOCTL 机 制 的 一 种 替代 品 。 向 





内 核发 送 神秘 的 ioct 通 党 





需要 一 个 C 程 序 。 与 之 相 比 ， 从 /向 sysfs 文 件 读 / 写 一 个 值 要 简单 得 多 。 一 个 简单 的 shell 命 令 就 是 够 了 。 














另 一 个 优点 在 于 ， 一 个 简单 的 列 目录 操作 ， 








i 能 获得 可 设 人 





























类 似 于 许多 虚拟 文件 系统 ，sysfB 最 初 基 了 



































技巧 。 请 注意 ， 只 要 配置 时 启用 了 该 特性 ，sysfs 总 是 编译 到 内 























标准 装载 点 是 /sys。 


选项 的 一 个 概观 。 
Framfs。 因 而 其 实现 使 用 了 许多 与 内 核 其 他 部 分 不 同 的 














核 中 ， 不 可 能 将 其 生成 为 模块 。sysfs 的 


内 核 源 代码 包含 了 一 些 有 关 sysfs 的 文档 ， 包 插 sysfs 与 驱动 程序 模型 的 关系 、sysfs 与 kobject 框 架 
的 关系 ， 等 等 。 该 文档 可 以 在 Documentation/filesystems/sysfs.txt 和 Documentation/filesy- 























stems/sysfs-pci.txt 中 找到 。sysfs 开 发 者 本 人 对 sysfs 的 概述 ， 可 以 在 2005 年 
会 议 记 录 上 找到 ， 该 会 议 记 录 在 www.linuxsymposium.org/2005/linuxsymposium_procv1.pdf 中 
最 后 ， 请 注意 kobject 与 sysfs 之 间 的 关联 不 是 自 
































集成 到 sysfs。 要 使 一 个 对 象 在 sysfs 文 件 系 统 





品 

















内 核子 系统 的 成 员 ， 那 么 向 sysfs 的 注册 是 
10.3.1 概述 

















struct kobject 和 相关 的 数据 结构 及 其 
中 最 核心 的 部 分 。 其 中 ， 下 列 内 容 尤其 重要 。 

口 kobject 包 含 在 一 个 层次 化 的 组 织 中 。 
一 个 kset 中 。 这 决定 了 kobject 出 现在 sysfs 层 次 结构 中 的 位 置 如 果 存 在 父 对 象 ， 那么 需要 在 
父 对 和 象 对 应 的 目录 中 新 建 一 项 。 否则 ,将 其 放置 至 
录 中 (如 果 上 述 两 种 情况 都 不 成 立 ， 那么 该 kobject 对 应 的 数据 项 将 放置 到 系统 层次 结构 的 
顶级 目录 下 ， 当 然 这 种 情况 比较 罕见 )。 
口 每 个 kobject 在 sysfs 中 都 表示 为 一 个 目录 。 出 现在 该 目录 中 的 文件 是 对 象 的 0D 口 。 用 于 导出 和 
设置 属性 的 操作 由 对 象 所 属 的 子 系统 提供 《类 、 驱 动 程序 ， 等 等 )。 
口 总 线 、 设 备 、 驱 动 程 序 和 类 是 使 用 kobject 机 制 的 主要 











































































































有 的 数据 项 。 
10.3.2 ”数据 结构 
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PF 可 见 ， 需 要 调 
进行 的 。 














动 建立 的 。 独 立 的 kobject 实 例 默认 情况 下 并 不 

















屋 太 华 Linux 研 讨 会 的 


























jkobject_adgd。 但 如 果 kobject 是 某 个 








使 用 ， 都 已 经 在 第 1 章 讲 过 ， 因 而 我 们 在 这 里 只 会 强调 其 











最 上 









































照例 ， 我 们 首先 讨论 sysfs 实 现 所 用 的 数据 结构 。 


1. 目录 项 





重要 的 一 点 是 ， 它 们 可 以 有 



































个 UDUD ， 可 以 包含 到 





























内 核对 象 ， 














因而 也 


|kobject 所 在 的 kset 所 属 的 kobject 对 应 的 












































5 据 了 sysfs 中 几乎 所 














目录 项 由 <sysfs.h> 中 定义 的 struct sysfs_qirent 表 示 ， 它 是 sysfs 的 主要 数据 结构 。 整 个 实现 
都 围绕 它 进行 。 每 个 sysfs 结 点 都 表示 为 sysfs_dqirent 的 一 个 实例 ， 其 定义 如 下 : 























<sysfs.h> 
struct sysfs_ dirent { 
atormic t s_count; 














GD 因而 从 kobject 机 制 建立 的 大 量 相互 关联 的 数据 结构 也 会 直接 转 入 sysfs， 人 至 少 在 将 一 个 kobject 导 出 到 该 文件 系统 











时 是 这 样 。 
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atomic t s_active; 
struct sysfs_dirent *s parent; 
struct sysfs_dirent *s_sibling; 
const char *s_name; 
union { 
struct sysfs_elem dir s_ dir; 
struct sysfs_elem symlink s_symlink; 
struct sysfs_elem attr s_attr; 
struct sysfs_elem bin attr s_ bin attr; 





}s 


unsigned int s_flags; 

ino 七 s_ino; 

umode _t s_mode; 

Struet. labtr. “a lattrs 
外 


口 es children 用 于 捕获 数据 结 Re i a 子 关 系 。s_sipbling 用 
于 连接 同一 父 结 点 所 有 子 结 点 ， 而 s_children 由 父 结 点 使 用 ， 作 为 子 结 点 链表 的 表 头 。 

口 内 核 使 用 s_flags 有 两 方面 的 目的 。 首 先 ， 它 用 来 设置 sysfs 数 据 项 的 类 型 。 其 次 ， 它 可 以 设置 
若干 标志 。 低 8 位 用 作 类 型 ， 可 以 用 辅助 函数 sysfs_type 访 问 。 类 型 可 以 是 SYSFS_DITR、 
SYSFS_KOBJ_ATTR、SYSFS_KOBJ_BIN_ATTR 或 SYSFS_KOBJ_LINK， 取 决 于 该 数据 项 是 目录 、 
普通 属性 、 二 进 制 属性 或 符号 链接 。 
剩余 比特 位 用 作 标 志 位 。 当 前 ， 只 定义 了 SYSFS_FLAG_REMOVED。 如 果 正 在 删除 某 个 sysfs 数 据 
项 ， 则 设置 该 标志 。 

口 与 sysfs_qdirent 实 例 相 关 的 目录 项 的 访问 权限 信息 保存 在 s_mode 中 。 属 性 由 s_iattr 指 向 的 
一 个 iattr 实 例 描 述 。 如 果 s_iattr 为 NULL 指 针 ， 则 使 用 默认 属性 集合 。 

口 s_name 表 示 文 件 、 目 录 或 符号 链接 的 名 称 。 

口 根据 sysfs 数 据 项 的 类 型 不 同 ， 与 之 关联 的 数据 类 型 也 不 同 。 由 于 一 个 数据 项 一 次 只 能 
种 类 型 ， 封 装 了 与 sysfs 项 相关 数据 的 结构 ， 都 群集 到 一 个 匿名 联合 中 。 联 合 的 各 个 成 
据 类 型 定义 如 下 : 


fs/sysfs/sysfs.h 

struct sysfs_elem dir { 

struct kobject *kobj; 

/* 子 结 点 链表 由 此 开始 ， 链 表 通 过 sdq->s_sipbling 疝 后 延伸 */ 


struct sysfs_dirent *children; 







































































































































































































































































示 一 
的 数 


党 二 
























































}3 


struct sysfs_elem symlink { 
struct sysfs_dirent *target_sd; 
}s 


struct sysfs_elem attr { 

struct attribute *attr; 

struct sysfs_open dirent *open; 
} 


struct sysfs_elem bin attr { 
struct bin attribute *bin attr; 








}; 
sysfs_elem_attr 和 sysfs_bin_attr 包 含 了 指向 表示 属性 的 数据 结构 的 指针 ， 将 在 下 一 节 讨 10 
论 。sysfs_elem_ symlink 实 现 了 一 个 符号 链接 。 其 中 只 需要 提供 一 个 指向 链接 目标 的 
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与 任何 其 他 的 文件 系统 类 似 ， 
通过 gentry->qd_fsdata 建 立 关 

















struc 


器 加 1。 
也 引用 




















sysfs_dirent 实 例 的 指针 即 可 。 


目录 借助 sysfs_elem_qir 实 现 。chilaqren 是 一 个 身 
注意 ， 子 结 点 链表 中 的 所 有 结 点 按照 s_ino 以 递减 次 序 排列 。 其 中 


s_sipling 连 接 起 来 。 请 
关系 如 图 10-9 所 示 。 




















sysfs_dirent 


s_dir.children 








加 














t sysfs_dirent 的 3 




















如 果 不 

















用 计数 异乎 寻常 ， 
第 一 个 是 一 个 标准 的 引用 计数 器 ， 当 内 核 的 某 些 部 分 需要 使 
需要 ， 则 将 该 计数 器 减 1。 但 这 里 会 引发 一 个 问题 ， 











sysfs 数 据 项 也 









































[assaata | 









联 ， 该 成 员 指 向 与 aentry 实 例 相 关 的 sysfs_dqirent 实 例 。 


struct dentry 




























到 10-9 ”基于 struct sysfs_dirent 建 
































因为 提供 


























s_sbiling s_sbiling | 
sino = 1000 sin0 = 953 
立 的 sysfs 目 录 的 层次 结构 














因 














了 与 之 关联 的 kobject。 


大 














而 ， 只 要 用 户 



































































































































除 对 应 的 kobject 实 例 。 为 规避 这 种 情况 ， 内 核 要 求 每 次 
时 , 都 要 持 有 对 sysfs_qdirentry 实 例 的 一 个 口 口 引 
在 应 该 删除 一 个 sysfs 文 件 时 , 可 以 将 活动 引用 计数 器 设置 
甫 助 函 数 sysfs_qectivate 即 用 于 此 。 在 这 个 计数 器 为 负 
在 kobject 的 所 有 用 户 都 消失 时 ， 内 核 才 可 以 安全 地 删除 它 。 但 
以 存在 ， 即 使 二 者 已 经 没有 意义 了 ! 
可 以 通过 sysfs_get_active 或 sysfs get active two ( 
父 结 点 的 引用 ) 获得 活动 引用 。 
在 结束 对 内 部 对 象 的 操作 之 后 ， 必 需 立 即 月 
释放 活动 引用 。 
2. 属性 
下 面 我 们 讲解 表示 属性 的 数据 结构 ， 以 及 用 于 声明 新 属性 的 机 制 ; 
eUU00 
属性 由 下 列 数据 结构 定义 : 
include/linu/<sysfs.h> 














struct attribute { 

















灵 应 





来 





邓 保 持 





眉 程 


链表 的 表 头 ， 将 所 有 子 结 点 通过 
的 


1struct dentry 实 例 表示 。 两 种 层次 的 表示 之 间 ， 


了 两 个 引用 计数 器 : s_count 和 s_active。 
所 述 sysfs_qdirent 实 例 
为 每 当 打 


时 ， 将 该 计数 
个 sysfs 结 点 时 ， 





个 sysfs 文 件 ， 就 
(通过 sysfs_elem_*) 访问 相关 的 内 部 对 


























用 。 很 显然 , 活动 引 
为 负 信 













































































有 计数 器 是 有 











直 时 ， 就 不 能 对 相关 的 kobject 执 行 操作 
sysfs 文 件 和 sysfs_qirent 实 例 仍 锡 


日 s_active 实 现 


, 来 撤销 对 相关 内 部 对 象 的 访 


能 防止 内 核 删 


象 
的 。 
问 ， 
了 。 





和 可 
后 者 获得 对 给 定 sysfs_qdirentry 实 例 及 其 


Hsysfs_put_active (或 sysfs_put_active_two) 
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const char * name; 
struct module * Oowner; 
mode 七 mode 


和 

name 为 属性 提供 了 名 称 ， 在 sys 人 中 用 作文 件 名 〈 因 而 同一 对 象 的 各 个 属性 ， 其 名 称 都 应 该 是 唯一 
的 )， 而 moqe 指 定 了 访问 权限 。owner 指 向 属性 的 所 有 者 所 属 的 module 实 例 。 

也 可 以 借助 下 列 数据 结构 ， 来 定义 一 个 属性 组 : 










































































<sysfs.h> 
struct attribute group { 
const char * name; 
struct attribute ** ttESy 
下 
name 是 属性 组 的 名 称 ， 而 attrs 指 癌 一 个 数组 ， 数 组 项 是 指向 attribute 实 例 的 指针 ，NULL 指 针 
标志 数组 的 结束 。 
请 注意 ， 这 些 数据 结构 只 提供 了 一 种 表示 属性 的 方法 ， 但 并 没有 指定 如 何 读 取 或 修改 属性 。 属 性 





















































的 读 写 将 在 10.3.4 节 讲述 。 将 属性 的 表示 和 访问 方法 分 开 ， 是 因为 属于 某 个 实体 (例如 ， 驱 动 程序 、 
设备 类 别 ， 等 等 ) 的 所 有 属性 都 以 同样 方法 修改 ， 因 此 将 这 种 群体 性 质 转 由 导出 /导入 机 制 处 理 ， 也 是 
意义 的 。 但 要 注意 一 个 惯例 : 子 系统 的 show 和 store 操 作 依赖 属性 相关 的 show 和 store 方 法 ， 而 后 
两 者 在 内 部 与 属性 是 关联 的 ， 不 同属 性 的 show 和 store 方 法 也 不 同 。 有 具体 的 实现 细节 由 对 应 的 子 系统 
负责 ，sysfs 对 此 并 不 关注 。 
对 于 可 读 写 的 属性 ， 需 要 提供 两 个 方法 (show 和 store)。 内 核 提 供 了 下 列 数据 结构 ， 来 一 同 维 
护 这 两 个 方法 : 
<sysfs.h> 
struct sysfs_ops { 


ssize t (*show) (struct kobject *, struct attribute *,char *); 
ssize t (*store) (struct kobject *,struct attribute *,const char *, size t); 





























































































































} 
提供 适当 的 show 和 store 方 法 ， 由 声明 新 属性 类 型 的 代码 负责 。 

对 于 二 进 制 属性 ， 情 况 有 所 不 同 。 这 里 ， 用 于 读 取 和 修改 数据 的 方法 ， 通常 对 每 个 属性 都 是 不 同 
的 。 这 一 点 反映 到 了 数据 结构 中 ， 其 中 明确 指定 了 读 取 、 写 入 和 内 存 映 射 方法 : 


<sysfs.h> 
struct bin attribute { 
struct attribute attr; 
size 七 size; 
void *private; 
ssize t (*read) (struct kobject *, struct bin attribute *, 
char *; Toff t; Sizet)s 
ssize t (*write) (struct kobject *, struct bin attribute *, 
char *, loff t, size t); 
int (*mmap) (struct kobject *, struct bin attribute *attr, 
struct vm area_struct *vma); 


















































Le 








































































































二 

size 表 示 与 属性 关联 的 二 进 制 数 据 的 长 度 ， 而 private (通常 ) 指向 数据 实际 存储 的 位 
eUU00D0 

在 内 核 中 有 许多 方法 可 以 声明 特定 于 子 系统 的 属性 ， 但 这 些 方法 的 实现 都 具有 共同 的 基本 结构 。 
































因此 ， 以 其 中 一 个 实现 为 例 来 讲解 其 底层 机 制 ， 就 足够 了 。 例 如 ， 考 虑 通用 硬盘 代码 如 何 定义 一 个 结 
构 ， 即 可 将 一 个 属性 以 及 读 写 该 属性 的 方法 关联 起 来 : 
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<genhd.h> 


struct disk attribute { 
struct attribute attr; 


ssize_t 
ssize_t 


二 


(*show) (struct gendisk *, 
(*store) (struct gendisk *, 





attz 成 员 就 是 此 前 介绍 的 所 
里 的 show 和 store 函 数 指针 ， 其 原型 不 
特定 于 子 系统 的 属性 函数 ， 如 何 被 sysfs 层 调 


























block/genhd.c 


static struct sysfs_ops disk_ sysfs_ops 























.Show = &disk attr_show, 


.Store = 


}; 





会 更 详细 地 说 明 。 





在 访问 一 个 与 通用 硬盘 属性 相关 的 sysfs 文 件 有 








&disk_attr_store, 

















方法 来 读 取 和 修改 属性 的 值 











。 每 当 需 要 从 内 核 读 


= { 





数 。 该 函数 充当 了 sysf 和 genhd 实 现 之 间 的 胶水 层 : 


block/genhd.c 
static ssize_t dis 


struct gendisk *disk = 


char *page) 


to_disk(kobj); 


k_attribute *disk attr = 


char *)s 
const char *, 


村 ， 内 核 使 月 
区 此 类 型 属 怕 





k_attr_ show(struct kobject *kobj, 


























E 的 值 时 ， 都 会 调 


Size 七 ) ; 


性 。 在 需要 attribute 实 例 时 ， 可 以 将 其 提供 给 sysfs。 但 要 
同 于 sysfs 所 需要 的 函数 ! 
呢 ? 该 关联 








下 述 结构 建立 : 














struct attribute *attr, 


container_ of (attr,struct disk attribute,attr); 





struct dis 
ssize_t ret 
if (disk_ at 
ret 
return ret; 
} 


= -EIO; 


tr->show) 


= disk attr->show(disk,page); 





通过 与 sysfs 关 联 的 属 牧 
内 核 确 
构 传 输 到 sysfs 文 件 。 


























以 没 必 要 在 这 里 详细 讲解 。 
需要 的 各 个 步骤 。 子 系统 和 
10.3.3 ”装载 文件 系统 
照例 ， 我 们 首先 来 了 角 
sysfs_fill_super， 相 关 

实际 上 ，sysfs_fil11 




















许多 其 他 子 系统 实现 了 





E， 可 使 用 container_of 机 制 来 
该 方法 





认 该 属性 有 一 个 show 方 法 之 后 , 将 调 














类 似 的 方法 ， 
相反 ， 我 会 讲解 在 最 终 调 
sysfs 之 间 的 关联 ， 则 留 给 4 








但 





























| 和 








在 图 10-10 中 给 出 。 














sysfs_ge 





t_inode 用 于 创建 








J 


狼 


1 于 这 些 方法 的 代码 在 本 质 上 与 上 文 给 出 的 例子 
特定 于 sysfs 的 show 和 store 方 法 的 过 
特定 于 子 系统 的 代码 。 





得 其 























获得 sysfs 根 目录 的 inode， 
已 经 存在 于 inode 散 列表 中 。 











它 也 是 

















个 通 


因 

















为 文件 系统 尚未 装载 ， 在 我 们 的 例子 中 ， 这 个 检查 会 失败 ， 




















作 : 首先 需要 进行 一 些 无 趣 的 初始 化 工作 。 
个 新 的 struct inode 实 例 ， 作 为 整个 sysfs 树 的 起 点 。 该 例 程 不 仅 用 于 
可 用 于 任何 sysfs 数 据 项 。 该 作 














ph 包含 的 disk_attribute 实 例 。 在 
把 数据 从 内 核 传输 到 用 户 空间 ， 即 从 内 部 数据 结 


WE 
汪 忌 ， 辽 





在 进程 想 要 从 /向 一 个 sysfs 文 件 读 取 / 写 入 数据 时 ， 将 调用 sysfs_ops 的 show 和 store 方 法 ， 下 文 


Haisk attr_showlldisk_attr_store 
jdisk_attr_show 畏 





相同 ， 所 


程 中 ， 所 





坚 文 件 系 统 的 装载 方式 。mount 系 统 调用 最 终 将 填充 超级 块 的 工作 委托 给 
的 代码 流程 区 
_super 并 不 需要 做 太 多 工 





| 程 首 先 检查 inode 是 否 





























大 | 














sysfs_init_inode 从 头 开始 构造 一 个 新 的 inode 实 例 。 稍 后 我 会 讲解 这 个 函数 。 


此 会 调 














Paul 
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sysfs_fill_ super 
sysfs_get_inode 



















sysfs_init_ inode 








root->d_fsdata = &sysfs_root | 





图 10-10 sysfs_fil1_supezr 的 代码 流程 图 























之 后 ， 将 建立 sysfs 数 据 和 文件 系统 项 之 间 的 关联 : 


sysfs/mount.c 








最 后 一 步 仍 然 是 在 sysfs_fil1_super 中 进行 。 在 用 q_alloc_root 为 根 目录 分 配 一 个 dentry 实 例 


static int sysfs_fill super(struct Super_block *sb, void *data, int silent) 


{ 
struct inode *inode; 
struct dentry *root; 
root->d_ fsdata = &sysfs_root; 
sb->s_root = root; 
} 


























器 想 可 知 ，dentry->d_fsdata 是 一 个 函数 指针 ， 由 文件 系统 内 部 使 用 ， 这 样 sysfs 就 能 够 在 








Tr 








sysfs_dirent 和 dentry 实 例 之 间 建 立 一 个 关联 。sysfs_root 是 一 个 静态 的 stuct sysfs_dirent 实 





例 ， 表 示 sysfs 根 目录 对 应 的 数据 项 。 其 定义 如 下 : 


sysfs/mount.c 


struct sysfs_dirent sysfs_root = { 
.S_name = "", 
-SCoOunt ATOMIC_INIT(1), 


.SsS_flags SYSFS_DIR., 


.Ss_mode = S_IFDIR | S_IRWXU | S_IRUGO | S_IXUGO, 


oo 


下 


请 注意 ，Q_fsdqata 总 是 指向 相关 的 struct sysfs_dirent 实 例 。 在 sysfs 中 ， 不 仅 根 数据 项 如 此 ， 











所 有 其 他 的 数据 项 也 是 一 样 。 这 种 关联 使 得 内 核能 够 从 通用 的 VFS 数 据 结 构 得 到 特定 于 sysfs 的 数据 。 



































现在 ,我 来 更 详细 地 讲述 sysfs_init_inoge 中 所 进行 的 inode 初 始 化 工作 。 该 函数 的 代码 流程 图 


如 图 10-11 所 示 。 


sysfs_init_inode 


设置 inode 操 作 、 文 件 操作 和 地 址 空间 操作 























指定 了 非 标准 能 sysfs_inode attr 
set_default_inode attr 





图 10-11 sysfs_new_inode 的 代码 流程 








图 
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sysfs_init_inode 安 置 的 inode 操 作 中 ， 只 有 setattr 实 现 为 一 个 特定 于 文件 系统 的 函数 ， 即 
sysfs_setattr。 接 下 来 ， 内 核对 inode 各 个 属性 进行 赋值 。 这 些 属性 或 者 通过 sysfs_dirent->iattr 


显 式 指定 ， 或 者 如 果 iattz 字 段 为 NULL 指 针 ， 贝 

































































fs/sysfs/inode.c 


static inline void set_ default_ inode attr(struct 





inode->i_mode = mode; 
inode->i_ uid = 0; 
inode->i gid = 0; 
inode->i_atime = 























| 设置 为 默认 值 。 下 列 辅助 函数 可 月 


inode * inode, 


来 设置 属性 的 默认 























mode_t mode) 


inode->i_ mtime = inode->i_ctime = CURRENT_ TIME; 


虽然 文件 的 访问 权限 可 以 由 调用 者 任意 选择 , 但 文件 的 所 有 权 属 于 root。 在 默认 情况 下 ， 所有权 


值 : 

{ 

} 
属于 root。 
































最 后 ， 需 要 根据 sysfs 数 据 项 的 类 型 来 初始 化 inode: 


fs/sysfs/inode.c 


static void sysfs_ init inode(struct sysfs_dirent *sd, 


{ 


/* initialize inode according to type */ 

Switch (sysfs_ type(sd)) { 

Case SYSFS_DIR: 
inode->i_op = &sysfs_dir inode operations; 
inode->i_fop = &sysfs_dir operations; 
inode->i_nlink = sysfs_count nlink(sd); 
break; 

Case SYSFS_KOBJ_ATTR: 
inode->i_size = PAGE_ SIZE; 
inode->i_fop = &sysfs_file operations; 
break; 

Case SYSFS_KOBJ_BIN_ATTR: 
bin attr = sd->s_bin attr.bin attr; 
inode->i_size = bin attr->size; 
inode->i_fop = &bin fops; 
break; 

Case SYSFS_KOBJ_LINK: 
inode->i_op = &sysfs_symlink inode operations; 
break; 

default: 
BUG (); 





} 








不 同 的 类 型 可 通过 不 同 的 inode 操 作 和 文件 操作 来 区 分 。 


10.3.4 文件 和 目录 操作 
因为 sysfs 将 其 数据 结构 暴露 到 一 个 文件 系统 中 ， 用 标准 的 文件 系统 操作 ， 即 可 实现 其 中 最 有 趣 的 
因而 ， 实 现 文件 系统 操作 的 函数 在 sys 名 和 内 部 数据 结构 之 间 充 当 了 胶水 层 的 角色 。 类 似 于 
于 操作 文件 的 方法 收集 到 了 一 个 struct file_operations 实 例 中 。 对 sysfs， 有 下 





一 些 操作 。 


每 个 文件 系统 ， 
列 file_operations 实 例 可 用 : 




































































fs/sysfs/file.c 
const struct file operations sysfs_file operations = { 


struct inode *inode) 
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.read = sysfs_read file, 

.write = sysfs_ write file, 

.llseek = generic file llseek, 

.open = sysfs_open file, 

.release = sysfs_release, 

-BOll = Svete poll, 
} 
接 下 来 ， 我 们 不 仅 会 讲述 负责 读 写 数据 的 函数 〈sysfs_{readq,write}j_file)， 还 会 讲述 打开 文 
件 的 方法 (sysfs_open_file)， 因 为 sysfs 内 部 与 虚拟 文件 系统 之 间 的 关联 是 在 打开 文件 时 建立 的 。 
在 目录 的 inode 操 作 中 ，sysfs 只 明确 提供 了 少量 方法 : 
fs/sysfs/dir.c 
struct inode operations sysfs_ dir inode operations = { 


.lookup sysfs_lookup, 
.Setattr sysfs_setattr, 
























































}3 - 
大 多 数 操作 都 可 以 通过 标准 的 VFS 操 作 处 理 ， 只 有 目录 查找 和 属性 操作 需要 显 式 处 理 。 在 后 面 儿 
节 里 我 将 讨论 这 些 方 法 。 

普通 文件 的 inode 操 作 更 为 简单 ， 只 有 属性 操作 需要 明确 处 理 : 


fs/sysfs/inode.c 
static struct inode operations sysfs_inode operations ={ 
.Setattr = sysfs_setattr, 

























































































3 
1. 打开 文件 
对 普通 文件 系统 来 说 ， 打 开 文 件 是 一 个 相当 无 趣 的 操作 。 就 sysfs 来 说 ， 该 操作 还 有 些 趣 味 ， 因 为 
sysfs 内 部 数据 需要 与 文件 系统 中 用 户 看 到 的 表示 之 间 建 立 关 联 。 
e0000 
为 便于 在 用 户 层 和 sysf 实 现 之 间 交 换 数 据 ， 内 核 需要 提供 一 些 缓冲 区 。 组 冲 区 由 下 列 数据 结构 提 
供 〈 简 化 过 ): 
fs/sysfs/file.c 
struct sysfs_ buffer { 
size_t count; 
loff_t pos; 
char * page; 
struct sysfs_ops * ops; 


int needs_read fill; 
struct list head list; 


































































































}; 

该 结构 的 内 容 如 下 : count 指 定 了 缓冲 区 中 数据 的 长 度 ，pos 表 示 数 据 内 部 当前 的 位 置 ， 用 于 读 
取 部 分 数据 和 定位 ;page 指向 一 页 ， 用 于 存储 数据 "。ops 指 向 一 个 sysfs_ops 实 例 ， 该 实例 属于 与 打 
开 文 件 相关 联 的 sysfs 数 据 项 。neeqs_read_fil1 指 定 缓冲 区 的 内 容 是 否 需要 填充 〈 盾 充 数据 在 第 一 次 
读 操 作 时 进行 ， 如 果 同 时 不 进行 写 操 作 ， 那 么 后 续 的 读 操 作 不 必 重 复 填充 )。 

为 理解 1ist 的 语义 ， 请 读者 注意 观察 图 10-12， 该 图 说 明了 sysfs_buffer 是 如 何 关 联 到 struct 
file 和 struct sysfs_dirent 的 。 每 个 打开 的 文件 都 由 一 个 struct file 的 实例 表示 ， 它 通过 
file->private_data 关 联 到 一 个 sysfs_buffer 的 实例 。 多 个 打 的 文件 可 以 引用 同一 sysfs 数 据 页 ， 
因此 多 个 sysfs_buffer 实 例 可 以 关联 到 同一 个 struct sysfs_dirent 实 例 。 所 有 这 些 缓冲 区 都 集中 






















































































































































































Q 限制 为 一 页 ， 这 是 有 意 的 。 因 为 每 个 sysfs 文 件 都 只 会 导出 一 个 简单 的 属性 ， 并 不 需要 更 多 的 空间 。 
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到 一 个 链表 中 ， 链 表 元 素 是 sysfs_jbuffer->1ist。 表 头 是 sysfs_open_aqirent 的 一 个 实例 。 为 简单 
起 见 ， 我 们 不 详细 讨论 该 结构 了 。 只 要 知道 该 结构 关联 到 sysfs_dirent， 并 且 是 sysfs_buffer 链 表 
的 表 头 即 可 。 



































file file 








sysfs_dirent private data private data 

















sysfs_elem attr.open sysfs_buffer sysfs_buffer 









sysfs_open dirent 








buffers 





图 10-12 struct sysfs_dirent、struct file 和 struct sysfs_buffer 之 间 的 关联 


e000 
回顾 前 文 ，sysfs_file_operations 提 供 了 sys_open_file 方 法 ， 在 打开 文件 时 调用 。 相 关 的 
代码 流程 图 在 图 10-13 中 给 出 。 






































sysfs_put active_ two 
























图 10-13 ”sysfs_open_file 的 代码 流程 图 
第 一 项 任务 是 查找 打开 文件 的 sysfs_ops 操 作 。 回 想 一 下 ， 我 们 知道 struct kobj_type 提 供 了 
一 个 指针 ， 指 问 一 个 sysf_ops 的 实例 : 


<kobject.h> 
struct kobj_type { 
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struct sysfs_ops * sysfs_ops; 

}; 

但 在 能 够 查找 到 sysfs_ops 的 适当 实例 之 前 ， 内 核 还 需要 获得 与 sysfs 文 件 相 关 的 kobject 实 例 的 
活动 引用 。 前 文 讲 过 要 使 用 sysfs_get_active_two 函 数 来 获取 活动 引用 。 如 果 该 kobject 是 一 个 集 
合 的 成 员 ， 那 么 将 从 该 kset 实 例 获 取 上 述 指针 。 和 否则 ， 将 kobject 本 喘 作 为 获取 指针 的 来 源 。 如 果 二 
者 都 没有 提供 指向 sysfs_ops 实 例 的 指针 ， 则 使 用 sysfs_sysfs_ops 给 出 的 一 组 通用 操作 。 但 是 ， 只 
有 那些 /sys/kernel 中 的 直接 的 内 核 属性 ， 这 样 做 才 是 必要 的 。 


fs/sysfs/file.c 
static int sysfs_open file(struct inode *inode, struct file *file) 


C 






















































































struct sysfs_ dirent *attr sd = file->f _ path.dentry->d_ fsdata; 
struct kobject *kobj = attr_ sd->s_parent->s_dir.kobj; 

struct sysfs_ buffer * buffer; 

struct sysfs_ops * ops = NULL; 





























/* 需要 对 attr_sd 对 应 的 kobj 及 其 父 对 象 ， 获 取 活 动 引 用 */ 
If (!sysfs_get active twol(lattr_ sd)) 
return -ENODEV; 












































/* 如 果 kobject 没 有 ktype， 那 么 我 们 假定 它 是 一 个 子 系统 自身 ， 使 用 对 应 的 ops。*/ 
if (kobj->kset && kobj->kset->ktype) 


Oops = kobj->kset->ktype->sysfs_ops; 
else if (kobj->ktype) 
ops = kobj->ktype->sysfs_ops; 





else 
ops = &subsys_sysfs_ops; 











由 于 内 核子 系统 的 所 有 成 员 都 集中 在 一 个 kset 中 , 这 使 得 可 以 在 一 个 特定 于 子 系统 的 层次 上 将 属 
性 关联 起 来 ， 因 为 同一 子 系统 的 所 有 属性 可 以 使 用 同样 的 访问 函数 。 如 果 所 述 kobject 并 不 包含 在 


kset 中 ， 那 么 它 也 可 能 有 ktype， 可 以 由 此 获得 sysfs_ops。sysfs_ops 的 实现 归 子 系统 负责 ， 但 实 
际 上 使 用 的 方法 都 十 分 相似 ， 见 10.3.5 节 所 述 。 
如 果 需 要 向 文件 写 入 数据 ， 那 么 只 检查 访问 权限 位 是 否 允许 是 不 够 的 。 相 应 的 数据 项 还 需要 在 
sysfs_ops 中 提供 一 个 store 操 作 。 如 果 没 有 向 用 户 空间 提供 数据 的 函数 可 用 ， 那 么 授予 读 访问 权限 
是 没有 意义 的 。 因 此 ， 对 读 取 数据 的 情形 ， 也 有 类 似 的 条 件 : 
fs/sysfs/file.c 
/* 文件 需要 写 操作 支持 。 
* inode 权 限 确 认 没 有 问题 ; 
* 我 们 还 必须 有 store 方 法 。 
*/ 





















































dL 





































































































if (file->f_ mode & FMODE WRITE) { 
if (!(inode->i_ mode & S_IWUGO) || !ops->store) 
goto err_out; 


} 


/* 文件 需要 读 操作 支持 。 

* inode 权 限 确认 没有 问题 ， 我 们 还 必须 有 show 方 法 。 
本 水 

if (file->f mode & FMODE_READ) { 
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if (!(inode->i_mode & S_IRUGO) 
goto err_out; 


lops->show) 


} 


在 内 核 决定 允许 访问 后 ， 会 分 配 一 个 sysfs_buffer 的 实例 ， 填 充 了 适当 的 成 





file->private_data 关 联 到 文件 ， 如 下 所 示 : 


fs/sysfs/file.c 
buffer 


kzalloc (sizeof (struct sysfs_ buffer), GFP_ KERNEL); 
mutex_init(&buffer->mutex); 

buffer->needs_read fill 二 

buffer->ops ODS: 

file->private data = buffer; 











/* 确认 有 打开 的 Qirent 结 构 */ 

error sysfs_get_open dirent (attr_ sd, buffer); 
/* 打开 操作 成 功 ， 降 低 活动 引用 */ 
sysfs_put active twol(lattr_ sd); 

return 0; 
































} 


De 




















最 后 ，sysfs_get_open _ dirent 通 过 图 10-12 中 的 sysfs_open_dirent， 将 新 分 配 的 缓冲 

















结 





到 sysfs 数 据 结 构 。 请 注 于 不 
sysfs_put_active_two 放 弃 活 动 引 用 
2. 读 写 文 件 内 容 
回想 一 下 , sysfs_file_operations 指 定 了 一 些 由 VFS 使 用 的 方法 ， 
在 介绍 了 所 有 必需 的 用 于 读 写 数据 的 数据 结构 之 后 ， 我 们 来 讨论 这 些 操作 。 
eUU00 
读 取 数据 委托 给 sysfs_reag_file， 相 关 的 代码 流程 图 在 图 


需要 重新 填充 缓冲 区 ? 























心 \ » 




















(这 也 是 必须 的 )。 

































































10-14 中 给 出 。 


















fill_ read buffer 
simple read from buffer| 























图 10-14 ”sysfs_reagd_file 的 代码 流程 医 
其 实现 相对 简单 : 如果 因为 是 第 一 次 访问 ， 或 是 写 操作 造成 的 修改 (这 两 种 情况 都 











f 先 需要 调 








needs_read_fil1 表 示 )， 致 使 数据 缓冲 器 尚未 填充 ， 那 么 我 们 
充 缓冲 区 。 该 函数 负责 下 面 两 个 任务 : 

(1) 分 配 一 个 页 帧 《填充 0) 用 于 存储 数据 ; 

(2) 调用 struct sysfs_ops 实 例 的 show 方 法 提供 缓冲 




























































































在 缓冲 区 已 经 填充 数据 后 ， 剩 余 的 工作 委托 给 simple_readq_from_buffer。 
需要 检查 一 些 边 界 ， 并 从 内 核 向 用 户 空间 进行 一 次 内 存 复 制 操 作 。 























数 的 任务 比较 简单 ， 只 
e0U00 
其 逆 过 程 ， 即 从 

取 操 作 ， 其 实现 十 分 简单 ， 代 码 流程 图 如 图 





























10-15 所 示 。 








需要 访问 与 sysfs 数 据 项 相关 的 kobject， 所 以 可 以 


] 于 访问 sysfs 中 的 文件 


并 通 





内 ， 


区 关 














Pan 

















buffer-> 














jfi11_read_pbuffer 来 填 


区 内 容 ， 即 向 分 配 的 页 帧 填 入 数据 。 
名 称 可 知 ， 该 函 


户 空间 向 内 核 空间 写 入 数据 ， 内 核 提 供 了 sysfs_write_file 方 法 。 类 似 于 读 
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首先 ，fill_write_buffer 分 配 一 个 页 帧 ， 将 来 自用 户 空 间 的 数据 复制 到 页 帧 中 。 这 会 设置 
buffer->needqs_refil1， 因 为 如 果 在 写 入 之 后 发 生 读 请 求 ， 那 么 需要 刷新 缓冲 区 的 内 容 。 剩 余 的 工 
作 委 托 给 flush_write_buffer， 其 主要 工作 是 调用 特定 于 文件 的 sysfs_ops 实 例 提供 的 store 方 法 。 


sysfs_write_ file 


Ed wnt tle 













































flush write buffer 


图 10-15 ”sysfs_write_file 的 代码 流程 图 








3. 目录 遍历 
sysfs_dir inode_operations 的 lookup 方 法 是 目录 过 历 的 关键 。 因 而 我 们 需要 更 仔细 地 讲解 
sysfs_lookup。 图 10-16 提 供 了 相应 的 代码 流 程 图 。 


sysfs_lookup 
sysfs_fingd dirent 
sysfs_get_inode 


更 新 并 重新 散 列 dentry 


































图 10-16 ”sysfs_lookup 的 代码 流程 图 


属性 组 成 了 目录 的 各 个 目录 项 ， 该 函数 试图 找到 一 个 具有 特定 名 称 、 属 于 某 个 struct 
sysfs_dirent 实 例 对 应 的 目录 下 的 属性 。 通 过 遍历 各 个 数据 项 ， 一 一 比较 名 称 ， 即 可 找到 所 要 的 数 
据 项 。 回 顾 前 文 可 知 ， 与 一 个 kobject 关 联 的 所 有 属性 都 保存 在 一 个 链表 中 ， 链 表 的 表 头 是 
sysfs_dirent.s_dir.children。 这 个 数据 结构 现在 就 派 上 用 场 了 : 


fs/sysfs/dir.c 


struct sysfs_dirent *xsysfs_find_ qirent (Struct sysfs_dirent *Dparent_sd， 
const unsigned char *name) 




































































struct sysfs_dirent *sd; 
for (sd = parent sd->s_dir.children; sd; sd = sd->s_sibling) 
if (!strcmp(sd->s_name, name)) 
return sd; 
return NULL; 
} 




















sysfs_lookup 使 用 sysfs_fing_dirent 来 查找 与 给 定 文 件 名 对 应 的 目标 sysfs_qdirent 实 例 。 得 
到 目标 sysfs_qdirent 实 例 之 后 ， 内 核 接 下 来 需要 建立 sysfs、 内 核子 系统 和 文件 系统 表示 之 间 的 关联 。 
这 需要 将 属性 对 应 的 sysfs_qirent 实 例 附 加 到 属性 文件 的 aentry 实 例 。 
然后 用 sysfs_get_inode 将 dentry 和 inode 关 联 起 来 。 该 方法 借助 了 sysfs_init_inode， 后 者 已 
经 在 10.3.3 节 讨论 过 。 
最 后 一 步 并 不 是 特定 于 sys 全 的: 将 inode 信 息 填充 到 gdentry 中 。 这 还 需要 在 全 局 的 dentry 散 列表 
中 重新 散 列 对 应 的 dentry 实 例 。 
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10.3.5 ”向 sysfs 添 加 内 容 


于 sys 氏 是 从 内 核 导 出 数据 的 一 个 接口 ， 只 有 内 核 本 吴 可 以 向 sysf 添 加 文件 和 目录 项 。 内 核 中 很 
多 场合 都 会 触发 此 类 行为 。 实 际 上 ， 这 样 的 操作 在 内 核 代码 树 中 普遍 存在 ， 因 而 详细 阐述 所 有 情形 是 
不 可 能 的 。 因 此 ， 我 们 只 会 示范 将 sysfs 关 联 到 各 个 子 系统 内 部 数据 的 通用 方法 。 内 核 中 各 处 用 于 该 
的 的 方法 都 十 分 类 似 。 
注册 子 系统 
这 里 ， 我 再 次 以 通用 硬盘 代码 为 例 ， 来 说 明 如 何在 syfs 中 表示 子 系统 使 用 的 kobject。 请 读者 注 
意 ，/sys/block 目 录用 来 表示 该 子 系统 。 系 统 中 每 个 块 设备 都 对 应 于 一 个 子 目录 ， 其 中 包含 儿 个 属 
性 文件 : 


root@meitner # ls -了 /sys/block 
total 0 



















































































































































































drwxr-xr-x 4 root root 0 2008-02-09 23:26 loop0 
drwxr-xr-x 4 root root 0 2008-02-09 23:26 loopl 
drwxr-xr-x 4 root root 0 2008-02-09 23:26 loop2 
drwxr-xr-x 4 root root 0 2008-02-09 23:26 loop3 
drwxr-xr-x 4 root root 0 2008-02-09 23:26 loop4 
drwxr-xr-x 4 root root 0 2008-02-09 23:26 loop5 
drwxr-xr-x 4 root root 0 2008-02-09 23:26 loop6 
drwxr-xr-x 4 root root 0 2008-02-09 23:26 loop7 
drwxr-xr-x 10 root root 0 2008-02-09 23:26 sda 

Grwxr-xr-x 5 root root 0 2008-02-09 23:26 sdb 

drwxr-xr-x 5 root root 0 2008-02-09 23:26 sr0 


root@meitner # ls -1 /sys/block/hda 

total 0 

-r--r--r— 1 root root 4096 2008-02-09 23:26 capability 
-rr--r--r— 1 root root 4096 2008-02-09 23:26 dev 


lrwxrwxrwxl EOOt TOOt 0 2008-02-09 23:26 device -> ../../devices/pci0000:00/ 
0000:00:1f.2/ host0/target0:0:0/0:0:0:0 

drwxr-xr-x2 OOt LOGt 0 2008-02-09 23:26 holders 

drwxr-xr-x3 root root 0 2008-02-09 23:26 queue 


-rr--r--r--1 root root 4096 2008-02-09 23:26 range 
-rr--r--r--1 root root 4096 2008-02-09 23:26 removable 


drwxr-xr-x3 root root 0 2008-02-09 23:26 sdal 

drwxr-xr-x3 LOOt LOGt 0 2008-02-09 23:26 sda2 

drwxr-xr-x3 root root 0 2008-02-09 23:26 sda5 

drwxr-xr-x3 FOGt. EOOt 0 2008-02-09 23:26 sda6 

drwxr-xr-x3 EOt TO0t 0 2008-02-09 23:26 sda7 

-Ir--r--r--1 root root 4096 2008-02-09 23:26 size 

drwxr-xr-x2 root root 0 2008-02-09 23:26 slaves 

-rr--r--r--1 root root 4096 2008-02-09 23:26 stat 

lrwxrwxrwxl OGt EOOt 0 2008-02-09 23:26 subsystem -> ../../block 
--W- 一 一 一 一 一 一 1 root root 4096 2008-02-09 23:26 uevent 

















上 述 输出 背后 核心 要 素 之 一 是 下 列 数 据 结 构 ， 它 将 特定 于 sysfs 的 attribute 结 构 与 特定 于 genhd 
的 store 和 shov 方 法 关联 起 来 。 请 注意 ， 这 些 方法 的 签名 与 sysfs 所 需 的 show/store 方 法 不 同 ， 后 者 如 


稍 后 提供 : 


<genhd.h> 
struct disk attribute { 
struct attripbute attr; 
ssize t (*show) (struct gendisk *, char *); 
ssize t (*store) (struct gendisk *, const char *, size_t); 











上 
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一 些 属性 将 附加 到 genhd 子 系统 表示 的 所 有 对 象 ， 因 此 内 核 建立 一 个 aisk_attribute 实 例 的 集 
合 ， 如 下 所 示 : 

block/genhd.c 

static struct disk attribute disk attr uevent = { 


.attr = {.name = "uevent", .mode = S_IWUSR }, 
.Store = disk uevent_store 





和 

static struct disk attribute disk attr dev = { 
.attr = {.name = "dev", .mode = S_IRUGO }, 
.Show = disk_ dev_read 

3 


static struct disk_ attribute disk attr_ stat = { 
.attr = {.name = "stat", .mode = S_IRUGO }, 
.Show = disk_stats_read 
































站 

static struct _ attribute * default attrs[] = { 
&disk attr uevent.attr, 
&disk attr_ dev.attr, 
&disk attr range.attr, 
&disk attr_stat.attr, 
NULL, 

ji 

特定 于 属性 的 show/store 方 法 ， 与 sysfs_ops 中 的 show/store 方 法 之 间 的 关联 ， 由 下 列 结构 建 

TL: 

block/genhd.c 

static struct sysfs_ops disk sysfs_ ops = { 
.Show = &disk attr_show, 
.Store = &disk_ attr_store, 


}3 

我 们 不 需要 深入 了 解 任何 实现 细节 ， 请 注意 sysfs 调 用 这 两 个 方法 时 都 提供 了 一 个 attribute 实 
例 ， 将 该 实例 转换 为 qisk_attribute 实 例 ， 然 后 调用 与 具体 属性 相关 的 show/store 方 法 ， 来 完成 特 
定 于 子 系统 的 底层 工作 。 

最 后 ， 还 需要 考虑 如 何 将 默认 属性 集 关 联 到 属于 genhd 子 系统 的 所 有 kobject。 为 此 ， 使 用 了 一 个 
kobj_type: 


block/genhd.c 

static struct kobj_type ktype block = { 
.release = disk_release, 
.Sysfs_ops = &disk_ sysfs_ops, 
.default_attrs = default_attrs, 







































































}; 

将 该 数据 结构 关联 到 sysfs， 还 需要 下 面 两 个 步 又 。 

(1) 使 用 decl_subsys， 创 建 一 个 对 应 于 kobj_type 的 kset。 

(2) 用 register_subsystem 注 册 该 kset 。 该 函数 最 终 会 调用 kset_adda， 后 者 接 下 来 会 调用 
kobject_add， 用 create_qdir 创 建 一 个 适当 的 目录 。 而 该 函数 义 会 调用 populate_dir， 裔 历 所 有 默 
认 属 性 ， 并 为 每 个 属性 分 别 建立 一 个 sysfs 文 件 。 
因为 通用 硬盘 的 子 元 素 〈 即 ， 分区) 关联 到 上 面 介绍 的 kset， 根 据 kobject 模 型 ， 它 们 自动 继承 
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了 所 有 默认 属性 。 
10.4 小结 


文件 系统 不 见得 必然 需要 一 个 后 端的 物理 块 设备 ,其 内 容 也 可 以 动态 生成 。 这 使 得 可 以 从 内 核 向 
] 户 层 传递 信息 《反之 亦 然 )， 信 息 的 传递 可 以 通过 普通 的 文件 VO 操作 轻松 完成 。/proc 文 件 系统 是 
Linux 使 用 的 第 一 批 虚拟 文件 系统 之 一 ， 新 近 增 加 的 一 个 是 sysfs， 后 者 为 内 核 中 几乎 ) 所 有 对 象 提 
供 了 一 个 层次 结构 表示 。 
本 章 还 讨论 了 一 些 用 于 实现 虚拟 文件 系统 的 通用 例 程 ， 还 考虑 了 用 户 层 不 可 见 的 伪 文 件 系统 ， 其 
中 承载 了 对 内 核 自 身 比较 重要 的 信息 。 










































































































































































扩展 属性 和 访 间 控制 表 











A\/ 厅 多 文件 系统 都 提供 了 一 些 特性 ， 志 








六 展 了 VFS 层 提供 的 标 疹 








系统 不 可 能 为 想 


























到 每 个 特性 都 提供 具体 的 数据 结构 。 幸 运 的 是 ， 我 们 的 想象 力 足够 3 








新 想法 。 超 出 标准 的 UNIX 文 件 模型 的 附加 



































每 个 文件 系统 对 














象 。 但 内 核能 够 提供 的 是 一 个 框架 ， 容 许 增加 特定 于 文 伯 


xattrs》 是 能 够 关联 到 文件 的 (或 多 或 少 ) 任 














E (extended attribute， 


了 只 关联 了 所 有 可 能 扩展 属性 
























































的 一 个 子 集 , 扩展 属性 存储 在 常规 的 inode 数 据 结构 





得 空间 。 这 实际 上 容许 使 用 一 个 通用 的 属 怕 


影响 。 


Fh， 以 避免 增加 该 结 
集合 ， 而 不 会 对 文人 


4 构 在 内 存 中 的 长 度 和 浪费 磁 
能 或 磁盘 空间 需求 有 任何 显著 



































扩展 的 一 种 用 途 是 实现 0 口 口 口 口 (access control list)， 对 UNIX 风 格 的 权限 模型 进行 扩 
允许 实现 细 粒 度 的 访问 控制 ， 不 仅仅 使 用 OD 、 口 、0D DODD 的 概念 ， 而 是 将 各 个 用 






































] 途 是 为 SE-Linux 提 供 D 0 DDO。 
11.1 扩展 属性 














攻 组 成 一 个 明确 的 列表 ， 关 联 到 文件 。 这 种 列表 很 





融合 到 扩展 属性 模 





PhP。 扩展 属性 的 男 一 种 





























从 文件 系统 用 户 的 角度 来 看 ， 一 个 扩展 属性 就 是 与 文 伯 
称 是 一 个 普通 的 字符 串 ， 内 核对 值 的 内 容 不 作 限 人 















































美的 一 个 “名 称 / 值 ”对 。 
日 也 可 以 包含 任意 的 二 进 
多)。 如 果 定 义 了 属性 























央 。 它 可 以 是 文本 
据 。 属 性 可 以 定义 ， 也 可 以 不 定义 (如 果 文 件 没有 关联 属 怕 
































以 有 值 ， 也 可 以 没有 。 就 这 方面 而 言 ， 显 然 没 人 能 指责 内 核 提 供 的 自由 度 不 够 。 




















属性 名 称 会 按 命 名 空间 细 分 。 这 意味 着 ， 访 问 属 性 也 命名 空间 。 按 照 符号 约定 ， 用 一 个 











点 来 分 隔 命 名 空间 和 属性 名 (例如 user.mime_type)。 这 里 只 提供 









































甫 助 性 的 宏 XATTR_*_PREFIX_LEN 是 比较 有 月 


<xattr.h> 
/* Namespaces */ 
define XATTR_ OS2_ PREFIX "OS2." 


























define XATTR 
define XATTR 








ECURITY_PREFIX_LEN 






































t 了 基本 的 细节 ， 本 书 介 
j 宏 定义 了 有 效 的 顶层 命名 空间 日 
与 命名 空间 前 缀 比较 时 ， 一 纪 























和 页 attz (5) 的 内 容 比 较 熟悉 ， 其 中 给 出 了 更 六 
列表 。 形 如 XATTR_*_PREFIX。 在 从 用 户 空间 传递 来 一 个 名 字 
































define XATTR_OS2_PREFIX_LEN (sizeof 


ECURITY_PREFIX "security." 








define XATTR_SYSTEM PREFIX "system." 
define XATTR_SYSTEM PREFIX_LEN (sizeof (XATTR_SYSTI 
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#define XATTR_TRUSTED_ PREFIX "trusted." 





#define XATTR_TRUSTED_ PREFIX_LEN 








(sizeo 








#define XATTR_ USER_PREFIX "User." 








#define XATTR_ USER_ PREFIX. 


EN 





(sizeof 











内 核 提供 了 几 个 系统 调用 











来 





























口 getxattr 获 取 某 个 扩 





口 removexattr 











出 除 一 个 扩 
口 listxattr 列 出 与 给 定 的 文 





f (XATTR_TRUSTED_ PREFIX) 








-1) 





(XATTR_USER_PREFIX) 
































D setxattr 用 于 设置 或 蔡 换 某 个 扩展 属性 的 全 























读 取 和 操作 扩展 属性 : 
展 属性 的 值 
展 属性 ; 




















请 注意 ， 这 些 系统 调 





休 。 

















扩 























为 £ 的 变 体 不 处 理 





生 系 统 对 象 相关 的 所 有 扩 
都 还 有 前 缀 为 1 的 变 
展 属性 进行 操作 。 另 外 ， 前 绥 











展 属 性 








-1) 





， 或 创建 一 个 新 的 扩展 属性 ; 


这 些 变 体 不 跟踪 符号 链接 ， 而 是 对 符号 链接 本 身上 





文件 名 ， 而 是 对 通过 文件 





























照例 ， 相 关 的 手 
11.1.1 
虚拟 文件 系统 向 用 

















页 提供 了 如 何 使 用 这 些 系统 调 用 的 更 多 信息 ， 
到 虚拟 文件 系统 的 接口 
户 室 间 提供 了 





























个 抽象 层 ， 使 得 所 有 应 
虑 底层 文件 系统 实现 如 何在 磁盘 上 存储 该 信息 。 以 下 各 节 讨 论 了 所 需 的 数据 结构 和 系统 调用 。 要 注 


















































尽管 VFS 为 扩 


展 属性 提供 了 一 个 抽象 层 ， 这 并 不 意味 着 每 个 文 


况 刚 好 相反 。 内 核 中 的 大 多 数 文 件 系统 都 不 支持 扩 








1. 数据 结构 

















艺 
Xr 
滞 












































牛 系统 都 必须 实现 该 特 怕 


























展 属性 。 但 我 们 也 应 该 汶 
的 硬盘 文件 系统 (Ext3、reiserfs、xfs 等 都 支持 扩展 属性 。 




















于 扩展 属性 的 结构 非常 简单 ， 内 核 并 没有 提 
更 用 了 一 个 简单 的 字符 串 来 表示 名 称 ， 














且 仍 然 需要 一 些 方法 来 设 











置 、 检 索 、 








删除 、 列 








此 它们 归 入 struct inode_operations: 


<fs.h> 


struct inode operations { 


上 一 个 特定 的 结构 来 封装 这 样 的 名 称 / 信 
而 用 一 个 

















上 § 述 符 指 定 的 对 象 进 行 处 理 。 











并 提供 了 准确 的 调用 约定 。 
程序 都 可 以 使 用 扩展 属性 ， 而 无 需 考 


[局 \， 





E。 实 际 上 ， 情 
FE 意 到 ，Linux 上 所 有 主要 


















































出 扩展 属性 。 














对 。 相 反 ， 
void 指针 来 表示 值 在 内 存 中 的 存储 位 置 。 
1 于 这 些 操作 是 特定 于 inode 的 ， 因 





int (*setxattr) (struct dentry *, const char *,const void *,size t,int); 
ssize t (*getxattr) (struct dentry *, const char *, void *, size t); 
ssize t (*listxattr) (struct dentry *, char *, size t); 

int (*removexattr) (struct dentry *, const char*); 


. 





事实 上 ， 文 





牛 系统 可 以 为 这 些 操作 提供 定 


























Ext3 文 件 系统 即使 用 了 内 核 的 通 








数据 结构 。 对 每 一 类 扩展 属性 ， 都 需要 





<xattr.h> 
struct xattr handler { 
char *prefix; 


size_t (*list) (struct inode *inode, 
const char *name, 
int (*get) (struct inode *inode, 
size_t size); 
int (*set) (struct inode *inode, 
size t size, int flags 








辣 实 现 ， 但 内 核 也 提供 了 
实现 ， 本 章 下 文 会 讨论 这 一 点 。 在 i 
函数 与 块 设备 之 间 来 



































组 通用 的 处 理 程序 。 例 如 ， 


























Ehar *L1St,; 
size_t name_len); 
const char *name, 


const char *name, 


ji 


# 解 实现 之 前 ， 我 需 
回 传输 信息 。 这 些 函数 封装 在 下 列 结构 中 








Size 七 list_ size, 


void *buffer， 


const voidq xbuffer， 





要 介绍 基本 的 
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prefix 表 示 一 个 命名 空间 ， 该 操作 即 应 用 到 这 个 命名 空间 的 属性 上 。 它 可 以 是 本 章 上 文 讨论 过 
的 XATTR_*_PREFIX 中 的 任何 值 。get 和 set 方 法 分 别 从 /向 底层 块 设备 读 取 / 写 入 扩展 属性 ， 而 1ist 列 
出 与 一 个 文件 相关 的 所 有 扩展 属性 。 
超级 块 提供 了 到 一 个 数组 的 关联 ， 该 数组 给 出 了 相应 文件 系统 的 所 有 支持 的 处 理 程序 : 


<fs.h> 
struct super_ block { 





















































struct xattr_ handler *%S Xattre? 
a 
处 理 程序 在 数组 中 出 现 的 次 序 不 是 固定 的 。 内核 通过 比较 处 理 程序 的 前 级 与 所 述 扩展 属性 的 命名 
空间 前 级 ， 可 以 找到 一 个 适当 的 次 序 。 图 11-1 给 出 了 相应 的 图 示 。 


struct super block 




























































































xattr_handler 


指针 的 数组 


S_xdttr 

















图 11-1 通用 xattr 实 现 所 用 的 数据 结构 
2. 系统 调用 
回忆 前 文 ， 我 们 知道 每 个 扩展 属性 操作 (get、set 和 1ist) 都 对 应 了 3 个 系统 调用 ， 三 者 的 区 别 
在 于 指定 目标 的 方式 。 为 避免 代码 复制 ， 这 些 系统 调用 在 结构 上 分 为 两 部 分 : 

(1) 查找 与 目标 对 象 相 关联 的 dentry 实 例 ; 

(2) 其 他 工作 委托 给 一 个 函数 ， 该 函数 对 3 个 系统 调用 是 通用 的 。 

查找 dentry 实 例 时 , 可 使 用 user_path_walk 或 user_path_walk_link, 或 直接 读 取 包含 在 file 
实例 中 的 指针 ， 具 体 的 做 法 取决 于 使 用 了 哪个 系统 调用 。 在 找到 dentry 实 例 后 ， 就 为 3 个 系统 调用 建 
立 了 一 个 公共 的 基础 。 
将 setxattz 来 说 ， 用 于 进一步 处 理 的 通用 函数 是 setxattz， 相 关 的 代码 流程 图 如 图 11-2 所 示 。 


























































































































































































] 户 2 
1 Es 








间 复 制 名 称 和 
图 11-2”setxattr 的 代码 流程 图 


首先 , 该 例 程 将 属性 的 名 称 和 值 从 用 户 空间 复制 到 内 核 空间 。 由 于 扩展 属性 的 值 可 以 有 任意 内 容 ， 
所 以 其 长 度 不 能 预先 确定 。 该 系统 调用 有 一 个 显 式 的 长 度 参数 ， 指 定 需 要 读 入 多 少 字 节 。 为 避免 滥用 
内 核 内 在 ， 需 要 确保 属性 名 称 和 值 的 长 度 不 超过 下 列 限制 : 












































































































































limits.h 
#define XATTR NAME MAX 255 /* 扩展 属性 名 称 中 的 字符 数目 的 限制 */ 
#define XATTR_ SIZE MAX 65536 /* 扩展 属性 值 长 度 限 制 (64k) */ 



































经 过 这 个 预备 步骤 之 后 , 进一步 的 处 理 委 托 给 vfs_setxattr。 相 关 的 代码 流程 图 在 图 11-3 中 给 出 。 
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xattr permission 





















属于 security 命 名 空间 ?| 一 >| 。 将 决策 委托 给 安全 模块 


11-3 ”vfs_setxattr 的 代码 流程 图 















有 setxattr 可 用 ? 
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和 先 ， 内 核 需 要 确认 用 户 是 否 有 执行 目标 操作 的 权限 ， 即 通过 xattr_permission 来 检查 。 对 于 
只 读 或 不 可 修改 的 inode， 操 作 会 立即 失败 ;， 否则， 将 进行 下 列 检查 
fs/xattr.c 
Statle. Tit 
xattr_ permission(struct inode *inode, const char *name, int mask) 


{ 























/* 
* _ VFS 不 限制 security.* 和 system.*。 

* 对 此 类 属性 的 判断 留 给 底层 文件 系统 /安全 模块 。 
类 
























































if (!strncmp (name，XATTR_SECURITY_PREFIX，XATTR_SECURITY_PREFIX_LEN) | 
1Strncmp (name, XATTR_ SYSTEM PREFIX, XATTR_ SYSTEM PREFIX_ LEN)) 
return 0; 
/* 
* trusted.* 命 名 空间 只 能 由 特权 用 户 访 问 。 
A 
IE (!strncmp (name, XATTR_ TRUSTED_ PREFIX, XATTR_ TRUSTED_ PREFIX_ LEN)) 
return (capable(CAP_SYS ADMIN) ? 0 : -EPERM); 











/* 在 user.* 命 名 空间 中 ， 只 有 普通 文件 和 目录 可 以 有 扩展 属性 


Lo 


* 对 于 “粘着 位 ” 置 位 的 目录 来 说 ， 只 有 所 有 者 和 特权 用 户 能 够 写 入 属性 值 。 















































IE (!strncmp (name, XATTR_ USER PREFIX, XATTR USER PREFIX LEN)) { 
if (!S_ISREG(inode->i mode) && !S_ISDIR(inode->i_ mode)) 
return -EPERM; 
if (S_ISDIR(inode->i mode) && (inode->i mode & S_ISVTX) && 
(mask & MAY WRITE) && !is_ owner_ or_ cap (inode)) 
return -EPERM; 











} 


return permission(inode, mask, NULL); 


} 

VFS 层 并 不 关注 security 或 system 命 名 空间 中 的 属性 。 请 注意 ， 如 果 xattr_permission 返 回 0， 
则 允许 请 求 。 内 核 忽 略 这 些 命名 空间 ， 并 将 选择 权 委 派 给 安全 模块 〈 通 过 许多 安全 相关 的 调用 载 入 内 
核 ， 即 内 核 中 很 多 地 方 都 能 看 到 的 security_* 调 用 ) 或 底层 文件 系统 。 
但 VFS 层 会 关注 trusteq 命 名 空间 。 只 有 权限 足够 的 用 户 〈《 即 root， 或 有 适当 能 力 的 用 户 ) 允许 
对 这 种 属性 进行 操作 。 对 于 user 命 名 空间 中 的 属性 如 何 处 理 , 源 代码 中 的 注释 已 经 对 内 核 的 策略 做 
了 明确 的 说 明 ， 故 此 不 再 袭 述 。 
对 上 述 命 名 空间 以 外 的 其 他 命名 空间 中 属性 的 判断 ， 则 由 8.5.3 节 讨论 的 通用 的 permission 函 数 
进行 。 请 注意 ， 这 其 中 包含 了 借助 于 扩展 属性 实现 的 ACL 检 查 。 这 些 检查 的 实现 将 在 11.2.2 节 讨论 。 
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如 果 inode 通 过 了 权限 检查 ， 则 vfs_setxattz 继 续 进 行 以 下 步骤 。 

(1) 如 果 inode_operations 中 提供 了 特定 于 文件 系统 的 setxattr 方 法 ， 则 调用 该 方法 与 文件 系 
统 进行 底层 交互 。 接 下 来 ，fsnotify_xattr 使 用 inotify 机 制 将 扩展 属性 的 改变 通知 用 户 层 。 

(2) 如 果 没 提供 setxattz 方 法 〈 即 底层 文件 系统 不 支持 扩展 属性 )， 但 所 述 的 扩展 属性 属于 
security 命 名 空间 ， 那 么 内 核 试图 使 用 由 安全 框架 〈 如 SELinux) 提供 的 一 个 函数 。 如 果 没 有 注册 此 
类 框架 ， 那 么 拒绝 该 操作 。 
在 不 文 持 扩展 属性 的 文件 系统 中 ， 这 种 做 法 能 够 在 文件 上 加 安全 标记 。 以 一 种 合理 的 方式 来 存储 
该 信息 ， 则 是 安全 子 系统 的 任务 。 

请 注意 , 在 扩展 属性 系统 调用 期 间 , 还 调用 了 安全 框架 的 其 他 一 些 挂 钓 函 数 。 这 里 略 去 相关 描述 ， 
主要 是 因为 在 没有 附加 安全 框架 (如 SELinux)〉 存在 的 情况 下 ， 这 些 调用 是 无 效 的 。 
于 getxattr 和 removexattr 系 统 调用 的 实现 几乎 完全 是 按照 setxattr 的 方案 进行 ， 因 而 没有 
必要 更 深入 地 讨论 。 这 两 者 与 setxattr 的 区 别 如 下 所 示 : 
口 getxattr 不 需要 使 用 fhnotify， 因 为 没有 进行 修改 ; 
口 removeattr 不 需要 复制 属性 值 ， 只 需要 从 用 户 空间 复制 属性 名 称 ， 不 需要 对 安全 处 理 程序 进 

行 特 别 的 包装 。 

列 出 与 一 个 文件 相关 联 的 所 有 扩展 属性 的 代码 与 上 述 的 方案 差别 更 大 ， 主 要 是 因为 没有 使 用 
vfs_1listxattz 国 数 。 所 有 的 工作 都 在 1istxattz 中 进行 。 其 实现 步骤 很 简单 ， 如 下 所 示 : 

(1) 修改 用 户 空间 程序 给 出 的 列表 的 最 大 程度 ， 使 之 不 超过 内 核 所 允许 的 扩展 属性 列表 的 最 大 长 
度 XATTR_LIST_MAX， 并 分 配 所 需 的 内 存 ; 

(2) 调用 inode_operations 的 1istxattr 方 法 ， 用 各 个 名 称 / 值 对 来 填充 分 配 的 空间 ; 

(3) 将 结果 复制 回 用 户 空间 。 

3. 通用 处 理 程序 函数 

安全 是 一 项 重要 的 工作 。 如 果 做 出 错误 的 决策 ， 那 么 即使 最 佳 的 安全 机 制 也 毫 无 价 企 于 代码 
的 复制 增加 了 细节 出 错 的 可 能 性 ， 所 以 内 核对 处 理 扩展 属性 的 inode_operation 方 法 提供 了 通用 实 
现 ， 文 件 系统 开发 者 可 以 依赖 这 些 实现 。 还 有 一 个 好 处 是 ， 文 件 系统 开发 者 不 必 辛 苦 地 关注 每 个 边 边 
角 的 安全 问题 的 处 理 ， 可 以 将 心思 集中 在 更 重要 的 方面 。 以 下 的 例子 将 讲解 内 核 提 供 的 默认 实现 。 
如 前 所 述 ， 用 于 不 同类 型 访问 的 代码 非常 相似 ， 因 此 我 们 会 首先 讨论 generic_setxattr 的 实现 ， 然 
后 讨论 其 他 方法 与 前 者 的 区 别 。 

我 们 现在 来 看 代码 : 

fs/xattr.c 

ee dentry *dentry, const char *name, const void *value, size t size, int 


flags) 
{ 
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struct xattr handler *handler; 
struct inode *inode = dentry->d_ inode; 


if (size == 0) 
value = ""; /* empty EA, do not remove */ 
handler = xattr_ resolve name (inode->i_ sb->s_ xattr, &name); 
If (!handler) 
return -EOPNOTSUPP; 
return handler->set (inode, name, value, size, flags); 
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首先 ，xattr_resolve_name 查 找 适用 于 所 述 扩展 属性 的 命名 空间 的 xattr_handler 实 例 。 如 果 
存在 一 个 处 理 程序 ， 则 调用 其 set 方 法 来 执行 设置 属性 值 的 操作 。 显 然 ， 接 下 来 的 步骤 不 可 能 是 通用 
的 。 因 此 handler->set 必 然 是 一 个 特定 于 文件 系统 的 方法 (Ext3 中 这 些 方法 的 实现 将 在 11.1.2 节 讨论 )。 
查找 适当 的 处 理 程序 并 不 困难 : 
fs/xattr.c 


static struct 


xattr_resolve . 


{ 


for_each xattr_ handler (handlers, 


} 


xattr_ handler * 
name(s 


Const char *n = 
if (n){ 
*name = 
break; 


} 


return handler; 


} 


for_each xattr_hand] 











序 。 


其 他 扩展 属性 操 人 





D generic ge 














所 需 的 字 


DQ generic_ removexat 
导致 属性 被 删除 。” 
generic_1istxattr 以 两 种 模式 运作 : 如 果 问 函数 传递 的 用 

则 代码 人 遍历 超级 块 中 注 
节 数 ， 这 些 可 
genetric_1istxattt 仍 然 过 历 所 有 处 理 和 有 























的 通用 实现 ， 




















rt 


Ler 是 一 个 宏 ， 


E 程 序 前 级 与 属性 名 称 的 命名 空 


Ggeneric setxat 


handler **handlers, 


handler) { 
strcmp_prefix(*name, 


n; 




















程序 项 ， 直 至 过 到 一 


省 。 如 果 匹 配 ， 那 么 





遍历 所 有 人 处理 
间 部 分 











tr 的 代码 只 











txattr 调 用 handler- 
tr 调 

















和 了 handler->set， 但 


Lo 


>get 而 不 是 handler->set 
对 属性 
































handler- 


有 轻微 不 


值 指定 了 NULL， 


于 存储 结果 的 缓冲 


const char **name) 


>prefix); 


个 NULL 项 。 


对 于 每 个 数 











么 就 找到 了 适当 








el 

















册 的 所 有 处 理 
以 累加 起 来 ， 





程 
预计 需 

















11.1.2 ”Ext3 中 的 实现 


在 所 有 文件 
为 人 所 理解 。 我 人 
出 了 一 个 我 们 此 前 

1. 数据 结构 

作为 文件 系统 1 


























性 
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系统 


世界 的 模范 








中 ，Ext3 是 





公 
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通用 实现 。 它 提供 
按照 字符 中 标识 符 
识 号 只 需要 存 


fs/ext3/xattr.c 











static struct xattr handler *ext3_xattr handler mapl[] 
3_XATTR_INDEX_ USERI] 


[EXT 
#ifdef CONFIG 
[EXT 





若干 处 理 程 请 
这 简化 了 许多 操作 ， 








嵌 一 个 数字 。 


EXT3_FS_POSIX_ACL 








3_XATTR_INDEX_POSIX_ ACL ACCESS] 


序 ， 


最 杰出 的 成 员 之 一 ， 
] 将 考察 下 列 源 代码 ， 来 更 多 地 了 解 在 文件 
和 尚未 接触 过 的 问题 


民 ，Ext3 采 纳 了 一 些 提高 编码 效率 的 
函数 ， 而 下 列 映射 使 得 可 








调用 所 述 inode 的 list 方 法 。 











于 1list 将 返 

















# 要 分 配 多 少 内 存 。 如 果 指 定 了 由 








于 保存 结果 的 缓冲 














星 序 ， 但 这 一 次 将 使 用 缓冲 区 来 实际 











系统 层 盏 














， 即 扩展 属性 妇 


























并 能 够 更 高 效 地 利用 磁盘 空间 ， 





{ 





因为 它 提 供 了 对 扩展 属性 的 
1 上 对 扩展 
[何在 磁盘 上 持久 存储 。 


按照 标识 号 来 访问 处 
因为 与 前 


存储 结果 。 





良好 支持 ， 



































&ext3_ xattr_ user_ handler, 














Q( 请 注意 ， 





时 指定 NULL 指 针 和 长 度 0， 








因为 可 能 有 长 度 为 0 的 属性 ， 即 空 


的 属性 值 字符 串 








的 处 到 


长 度 指 定 为 0。 














E 程 





这 将 


区 为 NULL 指 针 ， 


回 保存 


结果 





区 ， 则 


并 使 该 特 
属性 的 实现 。 这 同样 





恨 好 建议 ， 并 采用 了 上 文 介绍 的 
时 程序 函数 ， 而 不 是 
级 字符 串 相 比 ， 标 


&ext3_xattr_acl_access_handler, 


(这 不 同 于 NULL 值 )。 
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[EXT3_XATTR_INDEX _ POSIX ACL_ DEFAULT] = &ext3_ xattr acl_ default_ handler, 
#endif 

[EXT3_XATTR_INDEX_ TRUSTED] = &ext3_ xattr_ trusted handler, 
#ifdef CONFIG EXT3_FS_ SECURITY 

[EXT3_XATTR_ INDEX SECURITY] = &ext3_ xattr_security_handler, 
#endif 
}3 
图 11-4 给 出 了 Ext3 扩 展 属性 的 磁盘 布局 。 

















目 sea xattr_entry 
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struct ext3_xattr_entry 











一 一 > e_ Value offs 























图 11-4 Ext3 文 件 系统 中 扩展 属性 的 磁盘 格式 


扩展 属性 所 占 的 空间 ， 由 一 个 短 的 标识 头 开 始 ， 接 下 来 是 一 系列 数据 项 的 列表 。 每 个 数据 项 都 包 
含 了 属性 名 称 和 指 问 属性 值 存储 区 域 的 一 个 指针 。 在 向 文件 添加 新 的 扩展 属性 时 ， 列 表 向 下 增长 。 
属性 值 存储 在 扩展 属性 数据 空间 的 尾部 ， 值 表 与 属性 名 称 表 相 对 增长 。 属性 值 可 以 按 任意 次 序 存 
储 ， 通 常 与 属性 名 排序 不 同 。 
这 种 类 型 的 结构 可 以 放置 在 两 个 地 方 : 
口 inode 末 尾 的 未 使 用 空间 ; 
口 磁盘 上 一 个 独立 的 数据 块 。 

第 一 种 情况 ， 只 有 使 用 了 允许 动态 inode 长 度 的 新 文件 系统 格式 时 〈 即 ，EXT3_DYNAMIC_REV)， 
才 可 能 出 现 。 空闲 空间 的 长 度 保存 在 ext3_inode_info->i_extra_isize。 这 两 种 方案 可 以 同时 使 用 ， 
但 所 有 扩展 属性 头 和 值 的 总 长 度 不 能 超过 一 个 数据 块 加 上 inode 中 空闲 空间 的 长 度 。 除 了 inode 中 的 空 
亲 空 间 之 外 ， 最 多 只 能 再 使 用 一 个 数据 块 来 存储 扩展 属性 。 实 际 上 ， 所 需 的 空间 通常 比 一 个 完整 的 磁 
盘 块 要 少 得 多 。 
请 注意 : 如 果 两 个 文件 的 扩展 属性 集合 是 相同 的 ， 那 么 二 者 可 以 共享 同一 磁盘 表示 。 这 有 助 于 节 
省 一 些 磁盘 空间 。 

实现 上 述 布 局 的 数据 结构 是 什么 样 的 呢 ?” 首 部 的 数据 结构 定义 如 下 : 
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fs/ext3/xattr.h 

struct ext3_xattr_ header { 
_ le32 h magic; /* 用 于 标 0 :pf 
__ 1e32 h_refcount; /* 引用 计 交 
__ le32 h_ blocks; /* 使 用 磁盘 赤 的 数 */ 
_ le32 h_hash; /* 所 有 属性 的 散 列 值 */ 
_u32 h reserved[4]; /* 目前 为 0 */ 














了 
代码 中 的 注释 确切 地 描述 了 各 个 成 员 的 语义 ， 无 须 男 行 袭 述 。 唯 一 的 例外 是 h_blocks: 尽 
成 员 暗 示 可 使 用 多 个 人 磁盘 块 来 存储 扩展 属性 数据 ， 但 现在 总 是 设置 为 1 。 任 何其 他 值 都 是 错 的 。 
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在 结 
连同 e_value_offset， 即 可 确定 与 该 属 履 
则 将 ext3_value_offs 月 





每 个 数据 项 由 下 列 数据 结构 








fs/ext3/xattr.h 


struct ext3_ xattr_entry { 


_u8 e name_len; 
_u8 e name index; 


lel6 e_value 





le32 e_value 





le32 e_value 





_ le32 e_hash; 
char e_name[0]; 


je 








构 末 尾 的 原 








要 注意 ， 各 个 数据 项 的 长 度 不 见得 是 相同 的 ， 
因 。e_name_len 用 于 确定 属 怕 
E 名 相关 联 的 属性 值 
日 作 偏 移 















DDOUUUUO 
表示 : 
/* 名 称 长 度 */ 
/* 属性 名 索引 尖 / 
offs; /* 属性 值 在 所 处 磁盘 块 中 的 偏 移 量 */ 
block; /* 存储 属性 的 磁盘 块 */ 
size; /* 属性 值 长 度 */ 
/* 属性 名 和 值 的 散 列 值 */ 
/* 属性 名 */ 

















三 


里 ， 





义 的 ext3_xattr_handl er_map 表 o 


实现 。 其 他 命名 空间 


2. 实现 









































fs/ext3/xattr_user.c 


struct xattr handler ext3_xattr _ user handler 













































































1 于 对 不 同 的 属性 命名 空间 来 说 ， 处 到 
的 处 理 程序 函 




















因为 属性 名 的 长 度 是 可 变 的 。 这 也 是 将 属性 名 存储 
名 的 长 度 ,进而 计算 各 个 数据 项 的 长 度 。e_value_block 
的 位 置 ( 如 果 扩 展 属性 存储 在 inode 内 ， 
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数 , 仅 有 
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表示 第 一 个 数据 项 的 开始 位 置 )。e_name_index 用 于 索引 上 文 定 





程序 的 实现 十 分 相似 ， 所 以 以 下 讨论 仅 限 于 user 命 名 空间 的 
少许 不 同 或 完全 相同 。 ext3_xattr_user_hangdler 定 义 如 下 : 





















































































































































.prefix = XATTR USER_ PREFIX, 
alist = ext3_xattr_ user_list, 
.get = ext3_xattr_ user_get, 
.Set = ext3_xattr_ user_set, 
Ts 
e000U0 
首先 了 解 ext3_xattr_user_get。 该 代码 只 是 一 个 标准 例 程 的 包装 器 ， 后 者 不 依赖 属性 的 类 型 。 
只 需要 类 型 的 标识 号 ， 以 便 从 所 有 属性 的 集合 中 选择 正确 的 属性 : 
fs/ext3/xattr_user.c 
Statie int 
ext3_xattr_user_get (struct inode *inode, const char *name, 
void *buffer, size t size) 
{ 
if (!test_ opt (inode->i_ sb, XATTR_ USER)) 
return -EOPNOTSUPP; 
return ext3_ xattr get (inode, EXT3_ XATTR INDEX USER, name, buffer, size); 
} 
对 XATTR_USER 的 测试 确保 该 文件 系统 支持 user 命 名 空间 中 的 扩展 属性 。 可 以 在 装载 文件 系统 时 
启用 或 禁用 该 支持 。 
请 注意 ， 所 有 get 类 型 的 函数 都 可 用 于 两 个 目的 。 如 果 分 配 了 缓冲 区 ， 则 将 结果 复制 到 缓冲 区 中 。 
如 果 只 给 出 了 NULL 指 针 ， 没 指定 适当 的 缓冲 区 ， 那 么 将 只 计算 并 返回 属性 值 的 长 度 。 这 使 得 调用 代码 
可 以 首先 确定 需要 为 缓冲 区 分 配 的 内 存 的 长 度 。 在 缓冲 区 分 配 之 后 , 第 二 次 调用 将 向 缓冲 区 填充 数据 。 
在 图 11-5 中 给 出 了 ext3_xattr_get 的 代 人 码 流程 图 。 该 函数 是 一 个 分 派 器 ， 首 先 使 用 
ext3_xattr_ibody_get, 试图 在 inode 的 空 闪 空间 中 找到 所 需 的 属性 。 如 果 失 败 , 则 使 用 ext3_xattr_ 











block_get 从 外 部 的 属性 数据 块 中 读 取 属 性 值 。 
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ext3_xattr_get 
ext3_ xattr ibody get 


没有 找到 直接 存储 在 inode 中 的 扩展 属性 ? | 


[| 


图 11-5”ext3_xattr_get 的 代码 流程 图 
首先 考虑 在 inode 空 闲 空 间 中 进行 的 直接 搜索 。 相 关 的 代码 流程 图 在 图 11-6 中 给 


ext3_xattr ibody get 


ext3_ xattr _ check names 































































Ls 
o 























ext3_xattr_ fingd entry 





如 果 缓 冲 区 不 是 NULL， 则 将 属性 值 复制 到 缓冲 区 











图 11-6 ”ext3_xattr_ibody_get 的 代码 流程 图 


在 确定 inode 的 位 置 并 确认 有 访问 裸 数 据 的 权限 之 后 , ext3_xattr_check_names 进 行 儿 个 合理 性 
检查 ， 以 确认 数据 项 表 确 实 位 于 inode 空 闲 空间 内 。 实 际 工作 委托 给 ext3_xattr_find_entry。 该 例 
程 在 下 文中 几 处 还 将 使 用 ， 因 此 我 们 需要 更 详细 地 讨论 它 。 


fs/ext3/xattr.c 

static int 

ext3_xattr_ find entry(struct ext3_ xattr_ entry **pentry, int name_index, 
const char *name, size t size, int sorted) 












































| 

















{ 
struct ext3_xattr_ entry *entry; 
size t name_ len; 
int cmp= 1; 
if (name == NULL) 
return -EINVAL; 
name_len = strlen(name); 
entry = *pentry; 
for (; !IS_LAST ENTRY (entry); entry = EXT3_ XATTR_ NEXT(entry)) { 
cmp = name index -entry->e name index; 
if (!cmp) 
cmp = name_len -entry->e_name_len; 
iE (temp) 
cmp = memcmp (name, entry->e name, name_len); 
if (cmp <= 0 && (sorted || cmp == 0)) 
break; 
} 
*pentry = entry; 
return cmp ? -ENODATA : 0; 
} 


























pentzry 指 向 扩展 属性 表 的 各 表 项 的 起 始 处 。 代 码 遍 历 所 有 属性 项 ， 在 属性 项 类 型 正确 的 情况 下 
《如 果 cmp 等 于 0， 即 表示 类 型 正确 。 计 算 cme 时 ， 将 当前 属性 项 的 命名 空间 索引 与 所 查询 的 索引 相 减 即 
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可 ， 这 种 方法 有 些 异 乎 寻常 ， 但 确 





ext3_xattr_entry 数 据 纪 



























































EXT3_XATTR_LEN 宏 处 理 )。 
fs/ext3/xattr.h 


#define 








操作 过 程 与 此 前 考虑 的 情形 《属性 数 和 


属性 项 列表 的 未 尾 





EXT3_XATTR_NEXT(entry) \ 





( (struct ext3_ xattr_ entry *)( 


(char *) (entry) 




















i 实 是 有 效 的 )， 比 较 


二 构 的 长 度 ， 再 加 上 属 怕 











\ 






























































ext3_ xattr block get 























目标 名 称 与 当前 属性 项 的 名 称 。 由 于 各 属性 项 
的 长 度 并 不 一 致 ， 内 核 使 用 EXT3_XATTR_NEXT 来 计算 表 中 下 一 项 的 地 址 : 将 当前 项 的 地 址 ， 加 上 
FE 名 的 长 度 ， 再 加 上 一 些 填充 字 节 (后 三 项 都 






























































+ EXT3_XATTR_LEN( (entry)->e_ name len)) ) 
0 标记 ， 通 过 IS_LAST_ENTRY 检 查 。 

在 ext3_xattr_find_entry 返 回 目 标 项 的 数据 之 后 , ext3_xattr_ibody_get 需 要 将 属性 值 复制 
到 参数 指定 的 缓冲 区 《如果 不 是 NULL 指 针 ); 否则， 只 返 
如 果 在 inode 内 部 找 不 到 所 要 的 扩展 属性 ， 内 核 使 
的 代码 流程 图 在 图 11-7 中 给 出 。 








一 


回 属性 值 的 长 度 。 
用 ext3_xattr_block_get 来 搜索 属性 项 。 相 关 





读 取 i_file_acl 指 向 的 块 








ext3_xattr_cache_insert] 
ext3 xattr find_entry] 











如 果 缓 冲 区 不 是 NULL， 则 将 属 怕 


E 值 复制 到 缓冲 区 





图 11-7 ext3_xattr_block_get 的 代码 流程 图 

















口 调 



































在 inode 内 ) 基本 相 
口 内 核 需 要 读 取 扩展 属性 所 在 的 块 ， 块 地 址 存储 在 struct 
员 中 。 


用 ext3_xattr_cache_insert 绥 存 元 数据 块 。 内 核 使 用 


数据 块 缓存 来 完成 该 任务 "。 由 于 其 中 没什么 重要 


en0U0000 





对 user 命 名 空间 设置 扩展 属性 的 任务 


























该 函数 不 过 是 通用 辅助 函数 sxt3_xattr_set 的 包装 器 。 民 










































































a 











lext3_xattr_user_set 处 理 。 


， 但 需要 做 两 个 修改 。 
ext3_inodqe_info 的 1_file_ac1 成 


fs/mbcache.c 中 实现 的 文件 系统 元 


内 容 ， 所 以 我 们 无 需 详细 讨论 相关 代码 。 























类 似 于 获取 属性 值 的 操作 ， 


























11-8 给 出 的 代码 流程 图 , 说 明了 后 者 也 不 过 





是 一 个 包装 器 函数 ， 负 责 处 理 与 日 志 的 交互 。 实 际 工作 委托 给 ext3_xattr_set_handle， 其 代码 流程 
图 见 图 11-9。 


ext3_ xattr set 
















获取 句柄 
ext3_xattr_set_handle] 


停止 日 志 


i 
































QD 尽管 该 缓存 的 结构 是 通用 的 ， 但 















































前 仅 用 于 Ext 文 件 系 统 族 。 


图 11-8 ext3_xattr_set 的 代码 流程 图 
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ext3_ xattr_ set handle 


获取 inode 位 置 























Bano el 













属性 没有 直接 存储 在 inode 内 ? 


























否 









当 的 位 置 设置 属 


ext3 xattr block find 
是 
value == NULL? ext3_ xattr {ibody,block}_ set 


性 值 














各 inode 标 记 为 脏 

































中 使 用 了 下 列 调用 约定 。 





y 





口 如 果 传 递 到 函数 的 数据 缓冲 区 为 NoLL， 则 删除 现存 扩展 属性 。 
口 如 果 数 据 缓冲 区 包含 了 属性 值 ， 则 蔡 换 现存 扩展 属性 的 值 或 创建 一 个 新 的 扩展 
































册页 setxattr (2) 的 文档 ， 标 志 XRATTR_REPLRACE 和 有 


属性 必须 是 存在 的 还 是 不 存在 的 。 











图 11-9 ”ext3_xattr_set_handle 的 代码 流程 





A| 
































属性 。 按 照 手 











[xATTR_CREATE 分 别 表示 在 调 





ext3_xattr_set_handle 利 用 此 前 介绍 的 框架 实现 了 这 些 需求 ， 如 下 所 示 。 








(1) 查找 inode 的 位 置 。 





(2) 使 用 ext3_xattr_ibody_fingd 查 找 扩展 属 性 的 数据 。 如 果 失 败 , 则 








在 inode 外 部 的 数据 块 中 查找 属性 。 



































用 之 前 ， 所 述 





jext3_xattr block_ find 





(3) 如 果 没 有 给 出 属性 值 , 则 用 ext3_xattr_ibody_set 或 ext3_xattr_block_set (使 用 哪 一 个 ， 
取决 于 属性 项 包含 在 inode 内 部 还 是 独立 的 数据 块 中 ) 删除 该 属性 。 
(4) 如 果 给 出 了 属性 值 ， 则 使 用 ext3_xattr_*_set 修 改 属性 值 或 建立 一 个 新 的 属性 , 或 者 在 inode 






























































内 部 ， 或 者 在 外 部 数据 块 中 《取决 于 何 处 有 足够 的 剩余 空间 )。 


ext3_xattr_ibody set 和 ext3_xattr block set 
































函数 处 理 从 11.1.2 节 讲述 的 数据 结构 中 删除 
































一 个 属性 项 的 底层 工作 。 如 果 没 有 给 出 要 更 新 的 值 ， 则 这 些 函数 会 相应 地 建立 一 个 新 属性 项 。 这 主要 

















是 对 数据 结构 的 操作 ， 在 这 里 不 详细 讨论 了 。 
en0U0000 





























尽管 内 核 包含 了 一 个 通用 函数 (generic_listxattr)， 用 于 列 出 与 某 个 文件 相关 的 所 有 扩展 属 

















性 ， 
的 实现 。 





于 





Ext3 的 inodqe_operations 实 例 中 ， 将 ext3_1istxattr 作 为 1istxattz 的 处 理 程序 函数 。 该 方法 
只 有 一 行 ， 是 ext3_xattr_list 的 包装 器 。 后 者 又 根据 扩展 属性 存储 的 位 置 ， 调 用 了 
慢性 的 位 置 并 读 取 数 据 ， 然 后 将 工 f 























iboqy_ 1ist 和 ext3_xattr_block_ list。 这 两 个 函数 计 


日 该 函数 在 文件 系统 实现 中 不 太 受 欢迎 ; 只 有 共享 内 存 实 现 使 用 了 该 函数 。 因 此 我 们 先 来 讨论 Ext3 






































算 扩展 


A 


























委托 给 ext3_xattr_1list_entries, 该 函数 负责 完成 最 终 的 实际 工作 。 它 使 用 此 前 介绍 





ext3_xattr 





mt | 


的 宏 壳 历 inode 




















的 名 称 ， 并 将 结果 收集 到 缓 








定义 的 所 有 扩展 属性 ， 调 用 handqler->1list 取 得 每 个 属性 


fs/ext3/xattr.c 
static int 


ph 区 中 ; 
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ext3_xattr_ list _ entries(struct inode *inode, struct ext3_ xattr_ entry *entry, 
char *buffer, size tt buffer size) 


{ 


size_t rest = buffer_ size; 


for (; !IS_LAST _ ENTRY (entry); entry = EXT3_XATTR_ NEXT(entry)) { 
struct xattr_ handler *handler = 
ext3_xattr handler (entry->e_ name index); 


if (handler) { 


size_t size = handler->list(inode, buffer, rest, 
entry->e_name, 
entry->e_name_len); 
if (buffer) { 
if (size > rest) 
return -ERANGE; 
buffer += size; 











} 
rest -= size; 
} 
} 


return buffer_ size -rest; 





























于 各 种 属性 类 型 的 1ist 处 至 
主意 下 列 代码 : 

fs/ext3/xattr_user.c 

static size 七 


ext3_xattr user_ list(struct inode *inode, char *list, size t list_ size, 
const char *name, size_t name_len) 

















Iw 





ee 





{ 
const size t prefix len = sizeof (XATTR_ USER_ PREFIX)-1; 


const size t total len = prefix len + name len + 1; 


if (!test_ opt (inode->i_ sb, XATTR_ USER)) 
return 0; 


if (list && total_len <= list_size) { 
memcpy (list, XATTR USER_ PREFIX, prefix len); 
memcpy (list+prefix_ len, name, name_ len); 
list[lprefix len + name len] = '\0'， 

} 

return total_len; 


} 




















程序 实现 都 十 分 类 似 ， 所 以 只 考虑 user 命 名 空间 的 实现 就 足够 了 。 


该 例 程 将 前 级 user .后 接 属 性 名 称 和 一 个 NULL 字 节 复 制 到 缓冲 区 1ist 中 , 然后 结果 返回 复制 的 字 


节 数 。 
11.1.3 ”Ext2 中 的 实现 








Ext2 中 的 扩展 属性 的 实现 与 上 文 介 绍 的 Ext3 的 实现 非常 相似 。 这 并 不 令 人 意外 ， 因 为 Ext3 是 Ext2 
的 直接 后 ， 但 由 于 Ext3 中 的 一 些 特 性 在 Ext2 中 是 不 可 用 的 ， 这 也 是 二 者 扩展 属性 的 实现 有 所 差别 的 




































































原因 。 
口 由 于 Ext2 并 不 支持 动态 的 inode 长 度 , 所 以 磁盘 上 的 inode 中 没有 足够 空间 存储 扩展 属性 的 数据 
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ml 



































性 的 不 同 存储 位 置 了 。 


因此 ， 扩 展 属性 总 是 存储 在 一 个 独立 的 数据 块 中 。 这 简化 了 一 些 函数 ， 因 为 无 须 区 分 扩展 属 
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口 Ext2 并 不 使 用 日 志 , 因此 所 有 日 志 相 关 函 数 的 调用 都 是 不 必要 的 。 这 也 使 得 一 些 只 处 理 句柄 操 

作 的 包装 器 函数 变 得 不 必要 。 

此 外 ， 二 者 的 实现 几乎 相同 。 上 文 描述 的 大 部 分 函数 ， 将 前 缀 ext3_ 蔡 换 为 ext2_ 之 后 ， 都 是 可 
的 。 


11.2 访问 控制 表 


POSIX 访 问 控 制 表 (ACL) 是 POSIX 标 准 定 义 的 一 种 扩展 , 用 于 细 化 Linux 的 自主 访问 控制 (DAC) 
模型 。 照 例 ， 我 假定 读者 对 这 个 概念 已 经 有 一 定 的 认识 。 当 然 ， 你 也 可 以 参考 手册 页 acl (5) 进 一 步 了 
解 相关 概念 。 "ACL 借 助 扩 展 属性 实现 , 修改 ACL 所 用 的 方法 与 其 他 扩展 属性 也 是 相同 的 。 内 核对 其 他 
扩展 属性 的 内 容 并 不 感 兴趣 , 但 ACL 扩 展 属性 将 集成 到 inode 的 权限 检查 中 。 尽 管 文 件 系 统 可 以 自由 选 
择 用 于 表示 扩展 属性 的 物理 格式 ， 但 内 核 仍然 定义 了 用 于 表示 访问 控制 表 的 交换 结构 。 对 于 承载 访问 
控制 表 的 扩展 属性 ， 必 须 使 用 下 列 命名 空间 : 


<posix_acl_xattr.h> 
define POSIX ACL XATTR ACCESS "system.posix acl access" 
define POSIX ACL XATTR DEFAULT "system.posix acl _ default" 


用 户 层 程 序 getfacl、setfacl 和 chacl 用 于 获取 、 设 置 和 修改 ACL 的 内 容 。 它 们 使 用 可 以 操作 扩 
展 属性 的 标准 系统 调用 ， 并 不 需要 与 内 核 进行 非 标准 交互 。 许 多 其 他 实用 程序 (例如 1s) 也 内 建 了 对 
访问 控制 表 的 支持 。 


11.2.1 ”通用 实现 


用 于 实现 ACL 的 通用 代码 包含 在 两 个 文件 中 : fs/posix_acl.c 包 含 了 分 配 新 ACL、 复 制 ACL、 
进行 扩展 权限 检查 等 功能 的 代码 ， 而 fs/xattr_acl.c 包 含 的 函数 用 于 在 扩展 属性 和 ACL 的 通用 表示 
之 间 进 行 转换 ， 并 且 转 换 是 双向 的 。 所 有 通用 数据 结构 都 定义 在 include/1inux/posix_acl.h 和 
include/linux/posix acl xattr.h 中 。 

1. 数据 结构 
用 于 存储 与 ACL 相 关 的 所 有 数据 的 内 存 表示 的 主要 数据 结构 定义 如 下 : 


<posix_acl.h> 
struct posix acl entry { 




































































































































































































































































































































































































































































short etag.y 
unsigned short e_perm; 
unsigned int e_id; 

于 

struct posix acl { 
atomic_t a_refcount; 
unsigned int a_count; 


struct posix acl entry a entries[0]; 


每 个 ACL 项 都 包含 一 个 标记 、 一 个 权限 和 一 个 (用 户 /组 ) ID， 该 ACL 项 即 定 义 了 该 ID 对 某 文件 
的 权限 。 属 于 给 定 inode 的 所 有 ACL ,都 收集 到 一 个 struct posix_acl 中 。 其 中 ACL 项 的 数 a_count 






























































Q@ 请 注意 ， 另 一 篇 很 好 的 综述 性 文章 是 Andreas Griinbacher 的 Usenix 论 文 [Grii03]， 其 中 给 出 了 ACL 的 一 般 性 概述 ， 以 
及 Linux 支 持 的 各 种 文件 系统 ACL 实 现 的 当前 状态 。Andreas Griinbacher 是 Ext2 和 Ext3 文 件 系 统 中 ACL 支 持 的 主要 
开发 者 之 一 。 
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给 出 。 由 于 包含 所 有 ACL 项 的 数组 位 于 结构 末尾 ， 所 以 ACL 项 的 最 大 数目 除了 受到 扩展 属性 最 大 长 度 
的 限制 之 外 ， 并 无 其 他 限制 。a_refcount 是 一 个 标准 的 引用 计数 器 。 
用 于 ACL 类 型 、 标 记 、 权 限 的 符号 常数 ， 由 以 下 预 处 理 器 定义 给 出 : 


<posix_acl.h> 





















































上 上 



















































































/* 用 于 acl_user_posix_entry t 中 的 a_type 字 段 */ 
define ACL _ TYPE ACCESS (0x8000 ) 
define ACL_TYPE_DEEFRAUTLT (0x4000) 

/* 用 于 struct posix_acl_entry 中 的 e_tag 项 */ 
define ACL USER OBJ (Ox01) 
define ACL USER (0x02) 
define ACL GROUP_OBJ (Ox04) 
define ACL GROUP (Ox08) 
define ACL MASK (0x10) 
define ACL OTHER (0x20) 

/* e_perm 字 段 中 的 权限 值 */ 
define ACL_ READ (0x04) 
define ACL WRITE (0x02) 
define ACL EXECUTE (Ox01) 






































内 核定 义 了 男 一 组 数据 结构 ， 与 上 文 介绍 的 类 似 ， 用 于 ACL 的 扩展 属性 表示 。 但 这 一 次 它们 是 用 
于 与 用 户 层 的 外 部 交互 : 
<posix_acl_xattr.h> 
typedef struct { 




















_ 1e16 e_tag; 
_ le16 e_perm; 
_ le32 eid;: 


} posix _ acl xattr_entry; 


typedef struct { 
_ le32 a_version; 
posix acl xattr_entry a_entries[0]; 

} posix_ acl xattr header; 


于 内 部 和 外 部 表示 的 结构 十 分 相似 ,但 用 于 外 部 表示 的 类 型 明确 指定 了 字 节 序 (参见 附录 A.8) 
和 位 长 。 此 外 ， 对 磁盘 表示 来 说 ， 引 用 计数 是 不 必要 的 。 
有 两 个 函数 用 于 在 两 种 表示 之 间 来 回转 换 : posix_acl_from xattr 和 posix acl_to xattr。 
1 于 转换 完全 是 机 械 的 ， 所 以 没 必要 更 详细 地 讨论 。 但 重要 的 是 ， 要 注意 到 函数 的 工作 是 独立 于 底层 
文件 系统 的 。 
2. 权限 检查 
对 涉及 访问 控制 表 的 权限 检查 ， 内 核 通常 需要 底层 文件 系统 的 支持 。 或 者 文件 系统 自行 实现 [0 口 
的 权限 检查 (通过 struct inoqe_operations 的 permission 困 数 )， 或 者 文件 系统 提供 一 个 回调 函数 
供 generic_permission 使 用 。 内 核 中 的 大 多 数 文件 系统 ， 都 使 用 了 后 一 种 方法 。 
generic_permission 中 使 用 的 回调 函数 如 下 (请 注意 ，check_acl 表 示 回 调 函 数 ): 


fs/namei.c 
int generic permission(struct inode *inode, int mask， 
int (*check_ acl) (struct inode *inode, int mask)) 
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{ 
if (IS_POSIXACL (inode) && (mode & S_IRWXG) && check acl) { 
int error = check acl (inode, mask); 














if (error == -EACCES) 
goto check capabilities; 
else if (error != -EAGAIN) 





return error; 


} 

IS_POSIXACL 检 查 〔 装 载 时 ) 是 否 设 置 了 标志 MS_POSIXACL， 该 标志 表明 需要 使 用 ACL。 

即使 文件 系统 提供 了 进行 ACL 权 限 检查 的 专用 函数 ， 但 各 个 例 程 通常 会 归结 到 一 些 技术 性 的 工 
作 ， 如 获得 ACL 数 据 。 而 真正 的 权限 检查 仍然 会 委托 给 内 核 提 供 的 标准 函数 posix_ac1_permission。 
因此 ， 我 们 需要 更 详细 地 讨论 posix_acl_permission。 其 参数 包括 一 个 指向 inode 的 指针 ， 一 个 
指向 ACL (的 内 存 表 示 〉 的 指针 ， 要 检查 的 权限 (mode 中 的 MAY_READ、MAY_WRITE 或 MAY_EXEC 权 限 
位 )。 如 果 授 予 访问 权限 ， 则 函数 返回 0， 和 否则 返回 相应 的 错误 码 。 其 实现 如 下 : 

fs/posix_acl.c 

rit 

posix acl permission(struct inode *inode, const struct posix acl *acl, int want) 


{ 















































































































































const struct posix acl _ entry *pa, *pe, *mask_ obj; 
int found = 0; 


FOREACH_ACL_ENTRY (pa, acl, pe) { 
switch(pa->e_ tag) { 
Case ACL_USER_OBJU : 
/* 《可 能 已 经 检查 过 ) */ 
if (inode->i_uid == current->fsuid) 
goto check_ perm; 


break; 
Case ACL_USER: 
if (pa->e_id == current->fsuid) 
goto mask; 
break; 
Case ACL_GROUP_OBJ: 





If (in group pl(inode->i gid)) { 
Found SS 十 > 
if ((pa->e perm & want) == want) 
goto mask; 
} 
break; 
Case ACL_GROUP : 
if (in group_p(pa->e_id)) { 
ound 4 
if ((pa->e_ perm & want) == want) 
goto mask; 





} 
break; 
case ACL MASK: 
break; 
Case ACL_OTHER: 
if (found) 
return -EACCES; 














else 
goto check perm; 
default: 
return -EIO; 
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return -EIO; 


} 








代码 使 用 FoREACH_AcIL，ENTRY 宏 来 遍历 所 有 的 ACL 项 。 对 每 个 ACL 项 ， 都 需要 比较 文件 系统 UID 














CFSUID) 和 当前 进程 赁 
型 的 项 ， 需 要 比较 ACL 项 
































导致 拒绝 授权 : 
fs/posix_acl.c 
ey 

for 


} 





会 很 快 破 











的 相应 部 分 (对 _OBJ 类 型 的 ACL 项 ， 需 要 比较 inode 的 UID/GID， 对 其 他 类 
中 指定 的 ID )。 显 然 ， 此 中 的 逻辑 需要 与 ac1 (5) 手 册页 的 定义 完全 相同 。 

代码 涉及 两 个 位 于 循环 之 后 的 跳 转 标号 。 如 果 从 根本 上 来 说 ， 将 授予 访问 权限 ， 那 么 代码 的 控制 
流 在 mask 标 号 结束 。 但 这 种 情况 下 ， 仍 然 需要 确认 ， 在 授权 ACL 项 之 后 没有 声明 ACL_MASK 项 ， 所 以 





























(mask_obj = pa+l; mask_ obj != pe; mask obj++) { 
if (mask_obj->e_ tag == ACL MASK) { 
IE ((pa->e_ perm & mask_ obj->e perm & want) == want) 
return 0; 


} 





return -EACCES; 


在 找到 授权 ACL 项 之 后 ， 似 乎 已 经 非常 接近 成 功 了 。 但 如 果 ACL_MASK 项 拒绝 了 授权 ， 那 么 希 归 


的 访问 ( 读 、 写 或 执行 ): 


fs/posix_acl.c 
check_perm: 


了 入 


} 









































下 列 代码 片段 确保 : 权限 不 仅仅 因为 适当 的 UID/GID 而 有 效 ， 而 且 授权 ACL 项 也 允许 了 所 要 进行 








((pa->e_perm & want) == want) 


return 0; 
return -EACCES; 


11.2.2 ”Ext3 中 的 实现 





的 实现 相当 简洁 。 
1. 数据 结构 


正如 前 文 的 讨论 ， 








ACL 的 人 磁 撤 于 
fs/ext3/acl.h 
































于 ACL 基 于 扩展 属性 实现 ， 并 借助 了 许多 通用 的 辅助 例 程 ， 所 以 Ext3 对 ACL 












































示 的 格式 与 通 


typedef struct { 
_ 1e16 
_ 1e16 
_ le32 

} ext3_acl entry; 
































的 POSIX 辅 助 函 数 所 需 的 内 存 表 示 非 常 类 似 : 















































结构 成 员 的 语义 与 上 文 讨论 的 内 存 表示 相同 。 为 节省 磁盘 空间 , 还 定义 了 一 个 没有 e_ig 字 有 段 的 版 





























本 。 该 版 本 用 于 ACL 列 表 的 前 四 项 ， 因 为 这 几 项 不 需要 具体 的 UID/GID: 


fs/ext3/acl.h 





typedef struct { 
le16 





e_tag; 
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_ le16 e_perm; 
} ext3_acl entry_short; 


ACL 项 的 列表 总 是 有 一 个 头 ， 定 义 如 下 : 


fs/ext3/acl.h 
typedef struct { 

_ le32 a_version; 
} ext3_acl_header; 


a_version 字 段 使 得 能 够 区 分 ACL 实 现 的 不 同 版 本 。 幸 运 的 是 ， 当 前 的 实现 尚未 显露 出 弱点 ， 因 
此 不 需要 引入 新 版 本 ， 使 用 目前 的 版 本 号 ExT3_AcL_ VERSION ( 即 0x0001) 就 可 以 了 。 尽 管 这 个 字段 
目前 是 不 相干 的 ， 但 如 果 未 来 开发 了 一 个 不 兼容 的 版 本 ， 该 字段 就 会 变 得 很 重要 。 

Ext3 inode 的 内 存 表示 增加 了 两 个 与 ACL 实 现 相关 的 字段 : 


<ext3_fs_i.h> 
struct ext3_inode_ info { 

























































































#ifdef CONFIG EXT3_FS_ POSIX_ ACL 

struct posix acl *i_acl; 

struct posix acl *i_default_ acl; 
#endif 








} 

i_acl 指 问 的 posix_acl 实 例 用 作 与 inode 关 联 的 常规 ACL 列 表 ， 而 i_gefault_acl 指 问 默 认 
ACL， 可 以 关联 到 目录 ， 并 由 子 目 录 继 承 。 由 于 所 有 信息 都 存储 到 磁盘 上 的 扩展 属性 中 ， 所 以 无 须 对 
基于 磁盘 的 struct ext3_inodqe 进 行 扩展 。 

请 注意 ， 内 核 并 不 自动 为 每 个 inode 构 建 ACL 信 息 。 如 果 该 信息 不 在 内 存 中 ， 则 上 述 字 段 设置 为 
EXT3_ACL_NOT_CACHED [定义 为 (void *)-1]。 

2. 磁盘 和 内 存 表示 之 间 的 转换 
有 两 个 转换 函数 可 用 于 磁盘 和 内 存 表示 之 间 的 转换 : ext3_acl_ to gdisk 和 ext3_acl_from_ 
disk。 二 者 的 实现 在 fs/ext3/acl.c 中 。 

后 者 从 inode 中 包含 的 信息 获取 裸 数 据 ， 剥 去 头 信息 ， 将 ACL 列 表 中 每 个 ACL 项 的 数据 从 小 端 序 
格式 转换 为 适用 于 系统 本 机 CPU 的 格式 。 

与 此 相对 的 函数 是 ext3_acl_to_qisk， 工 作 原 理 类 似 ， 它 人 遍历 给 定 的 posix_acl 实 例 中 的 所 有 
ACL 项 ， 将 其 中 包含 的 数据 从 特定 于 CPU 的 格式 转换 为 小 端 序 格式 ， 并 指定 适当 的 位 长 。 

3. inode 初 始 化 

在 用 ext3_new_inode 创 建新 inode 时 ，ACL 的 初始 化 委托 给 sxt3_init_ac1。 除 了 事务 句柄 和 新 
inode 的 struct inodae 实 例 之 外 ， 该 函数 还 需要 一 个 指针 ， 指 向 新 inode 所 在 目录 的 inode: 


fs/ext3/acl.c 
int 
ext3_init_acl(handle t *handle, struct inode *inode, struct inode *dir) 


{ 
































































































































































































































struct posix acl *acl = NULL; 
int error = 0; 


if (!S_ISLNK(inode->i mode)) { 

if (test _ opt(dir->i_sb, POSIX ACL)) { 
acl = ext3_get acl (dir, ACL TYPE _ DEFAULT).; 
if (IS_ERR(acl)) 
return PTR_ERR(acl); 














582 DUIlIU UUOUUOUO0OU0D0D 





} 


了 上 上 


} 


} 


(lacl) 


inode->i mode &= ~current->fs->umask; 


inode 参 数 指向 新 的 inode， 而 dir 表 示 包 含 inode 对 应 文件 的 目录 的 inode。 之 所 以 需要 目录 信息 ， 





[a 
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站 






































为 如 果 目 录 包 含 了 默认 ACL， 那 么 其 内 容 需 要 应 用 到 新 的 文件 。 如 果 目 录 的 超级 块 不 支持 ACL 或 





没有 关联 默认 ACL， 那 么 内 核 只 是 将 进程 的 当前 umask 设 置 应 用 到 文件 。 





我 们 更 感 兴 趣 的 情 
































是 ，inode 所 在 的 文件 系统 支持 ACL， 








如 果 新 的 inode 是 一 个 目录 ， 则 继承 父 目 录 的 默认 ACL: 





fs/ext3/acl.c 


ext3_set_acl 月 








if (test_opt(inode->1l_sb，POSIX_ACTL) 








struct posix acl *clone; 
mode _t mode; 


if (S_ISDIR(inode->i mode)) { 
error = ext3_set_acl (hand 























而 且 父 目录 有 与 之 关联 的 默认 ACL。 


&& acl) { 


le, inode, 


ACL_TYPE_DEFAULT, acl); 


if (error) 
goto cleanup; 





对 目录 以 外 的 所 有 文件 类 型 ， 将 执行 下 列 代码 : 


fs/ext3/acl.c 


cleanup: 





} 


日 来 设置 特定 inode 的 ACL 内 容 ， 该 函数 将 在 下 文 讲解 到 。 





clone = posix acl clone(acl, GFP_ KERNEL); 


error = -ENOMEM; 
if (!clone) 
goto cleanup; 


mode = inode->i_mode; 
error = posix acl create masqg(clo 
i€ (EEEOr SS 0) { 
inode->i_mode = mode; 
if (error > 0) { 
/* 这 是 一 个 扩展 ACL 





ne, &mode); 


wh 


error = ext3_set acl (handle, inode, 


} 
} 


posix acl release(clone); 


posix_acl_ release(acl); 
return error; 














SE 




















posix acl_ crea 








posix_acl_clone 对 默认 ACL 的 内 存 表 示 创 建 一 个 可 工作 的 副本 。 然 后 ， 调 用 
te_masq， 从 inode 创 建 进程 指定 的 访问 权限 


























这 可 能 导致 下 














机 两 种 情 














搬 。 


ACL_TYPE_ACCESS, clone); 

















Ph， 删除 默认 ACL 不 能 授予 的 所 有 权限 。 


11.2 DO0OO000 583 





(1) 为 符合 ACL 的 要 求 , 访问 权限 可 能 不 变 , 也 可 能 需要 删除 某 些 权限 位 。 这 种 情况 下 , 新 的 inode 
的 i_mode 字 上 段 ， 需 要 设置 为 posix_acl_create_masqg 计 算出 来 的 mode 值 。 
(2) 除了 对 原来 指定 的 访问 权限 进行 必要 的 调整 之 外 ， 默 认 ACL 可 能 包含 了 一 些 ACL 项 ， 不 能 
通常 的 用 户 /组 /其 他 方案 来 表示 。 在 这 种 情况 下 ， 需 要 为 新 的 inode 创 建 一 个 ACL， 包 含 相关 的 扩展 权 
限 信 息 。 
4. 获取 ACL 

给 出 struct inode 的 一 个 实例 ，ext3_get_acl 可 用 于 获取 ACL 的 内 存 表 示 。 请 注意 ， 男 一 个 参 
数 type 指 定 了 是 获取 默认 ACL， 还 是 获取 由 于 控制 inode 访 问 权 限 的 ACL。 这 两 种 情况 由 ACL_TYPE_ 
DEFAULT 和 ACL_TYPE_ACCESS 来 区 分 。 该 函数 的 代码 流程 图 在 图 11-10 中 给 出 。 


ext3_get_acl 


ext3_iget_acl | 


ACL 已 经 缓存 ? 
| 返回 指向 ACL 内存 表示 的 指针 


ext3_xattr_get | 
exbteeaclleromerelke | 


更 新 ext3_inode_info 中 的 ACL 绥 存 
图 11-10 ext3_get_acl 的 代码 流程 图 

首先 ， 内 核 使 用 辅助 函数 sxt3_iget_ac1 检 查 ACL 的 内 存 表示 是 否 已 经 缓存 到 了 ext3_inoqe_ 
info->i_acl〈 如 果 是 请 求 默认 ACL， 则 检查 1_dqefault_ac1 字 段 )。 如 果 已 经 缓存 ， 该 函数 将 创建 
该 表示 的 一 个 副本 ， 将 其 作为 ext3_get_acl 的 结果 返回 即 可 。 

如 果 ACL 并 无 缓存 ， 那 么 首先 调用 ext3_xattr_get 从 扩展 属性 子 系统 获取 裸 数据 "。 从 磁盘 表示 
到 内 存 表示 的 转换 借助 于 ext3_ac1l_from_disk 进 行 。 在 返回 指向 内 存 表 示 的 指针 之 前 ， 需 要 相应 地 
更 新 ext3_inode_info 中 的 缓存 字段 ， 这 样 后 续 的 请 求 就 能 直接 获得 ACL 的 内 存 表 示 了 。 

5. 修改 ACL 
在 通过 ext3_setattr 改 变 文件 的 (通用 ) 属性 时 ，ext3_acl_chmod 函 数 负 责 保持 ACL 为 最 新 数 
据 并 维护 其 一 致 性 。 一 般 来 说 ， 用 户 空间 通过 系统 调用 来 调用 VFS 层 ，VFS 层 又 通过 ext3_setattz 来 
修改 属性 。 由 于 ext3_setattr 最 后 才 调 用 ext3_acl_chmod， 因 而 新 的 权限 已 经 设置 到 inode 中 的 访问 
控制 部 分 。 因 而 需要 将 指向 所 述 struct inode 实 例 的 指针 作为 ext3_acl_chmod 的 输入 参数 。 
ext3_acl_chmogd 的 运作 逻辑 如 图 11-11 的 代码 流程 图 所 示 。 
在 获得 指向 ACL 数 据 内 存 表示 的 指针 之 后 , 使 用 辅助 函数 posix_acl_clone 创 建 一 个 可 工作 的 副 
本 。 主 要 工作 委托 给 posix_ac1_chmod masq， 将 在 下 文 讲 述 。Ext3 代 码 还 需要 做 的 是 : 在 获得 事务 
句柄 之 后 ，ext3_set_acl 用 来 将 修改 后 的 ACL 数 据 写 回 。 最 后 , 通知 日 志 相 关 操 作 结束 ， 并 释放 ACL 
副本 。 






























































































































































































































































































































































































































































































































































Q 请 注意 ， 实 际 上 对 ext3_xattr_get 函 数 有 两 个 调用 : 第 一 次 计算 存储 数据 所 需 内 存 的 长 度 ， 然 后 用 vmalloc 分 配 
适量 内 存 ， 接 下 来 的 第 二 次 调用 ext3_xattr_get 才 会 实际 传输 所 要 的 数据 。 
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ext3_acl_chmod 


ext3_get _acl 

















获得 句柄 


ext3_set_acl 














停止 日 志 








释放 ACL 副 本 

图 11-11 ext3_acl_chmod 的 代码 流程 图 
更 新 ACL 数 据 的 一 般 性 工作 在 bosix_acl_chmod_masgq 中 进行 ， 其 中 将 遍历 所 有 的 ACL 项 。 与 所 
有 者 用 户 和 组 相关 的 ACL 项 ， 以 及 对 应 于 “其 他 ”用 户 的 一 般 的 ACL 项 ， 还 有 ACL_MASK 类 型 的 ACL 


项 都 会 相应 地 更 新 ， 以 反映 最 新 的 ACL 数 据 。 
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fs/posix_acl.c 

int 

posix acl chmod masq(struct posix acl *acl, mode t mode) 

{ 
struct posix _ acl entry *group_obj = NULL, *mask_ obj = NULL; 
struct posix_ acl_ entry *pa, *pe; 


/* assert(atomic read(acl->a_ refcount) == 1); */ 


FOREACH_ACL_ ENTRY (pa, acl, pe) { 
Switch (pa->e_tag) { 
Case ACL_USER_OBJU : 
pa->e_perm = (mode & S_IRWXU) >> 6; 
break; 





Case ACL_USER: 
Case ACL_GROUP : 
break; 


Case ACL_ GROUP_OBJ: 
group_obj = pa:; 
break; 


Case ACL_ MASK: 
mask_obj = pa; 
break; 





Case ACL_OTHER: 
pa->e_perm = (mode & S_IRWXO); 
break; 


default: 
return -EIO; 
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if (mask_ obj) { 
mask_obj->e_perm = (mode & S_IRWXG) >> 3; 
} else { 
if (troup oo 可) 
return -EIO; 
group_obj->e_ perm = (mode & S_IRWXG) >> 3; 





} 

return 0; 
} 
6. 权限 检查 








回想 一 下 ， 我 们 知道 内 核 提 供 了 通用 的 权限 检查 函数 generic_permission， 其 中 可 以 集成 一 个 
特定 于 文件 系统 的 处 理 程序 ， 用 于 ACL 检 查 。 实 际 上 ，Ext3 就 利用 了 该 选项 ，ext3_permission 隙 数 
(在 进行 权限 检查 时 ， 由 VFS 层 调用 ) 指示 generic_permission 将 ext3_check_acl 作 为 处 理 ACL 相 
关 工 作 的 回调 函数 : 


fs/ext3/acl.c 




















































































































int 
ext3_permission(struct inode *inode, int mask, struct nameidata *nd) 
{ 
return generic permission(inode, mask, ext3_check acl); 
} 








从 图 11-12 中 的 代码 流程 图 来 看 ,ext3_check_acil 没 什么 可 做 的 。 在 通过 ext3_get_acl 读 入 ACL 
数据 之 后 ， 所 有 的 策略 性 工作 都 委托 给 posix_acl1_permission， 该 函数 已 经 在 11.2.1 节 介绍 过 。 


ext3_check _ acl 
ext3_get_acl 


图 11-12”ext3_check_ac1l 的 代码 流程 图 



































11.2.3 ”Ext2 中 的 实现 


Ext2 对 ACL 的 实现 ， 几 乎 与 Ext3 完 全 相同 。 差 别 甚 至 比 二 者 在 扩展 属性 实现 方面 的 差别 还 小 ， 因 
为 对 于 ACL， 和 句柄 相关 的 部 分 并 没有 划分 为 独立 的 函数 。 因 此 ， 将 所 有 函数 和 数据 结构 中 的 ext3_ 前 
级 符 换 为 ext2_， 本 章 中 有 关 ACL 的 注释 同时 适用 于 Ext2 和 Ext3。 


11.3 小结 


传统 上 ，UNIX 和 Linux 使 用 自主 访问 控制 模型 来 判断 哪些 用 户 可 以 访问 给 定 的 资源 ， 资 源 一 般 表 
示 为 文件 系统 中 的 文件 。 尽 管 该 方法 对 平均 意义 上 的 系统 工作 得 很 好 ， 但 它 是 一 种 非常 粗 粒 度 的 安全 
手段 ， 在 某 些 环境 中 可 能 是 不 适用 的 。 
在 本 章 中 ,读者 已 经 看 到 如 何 通过 ACL 向 文件 系统 对 象 提 供 更 细 粒 度 的 访问 控制 手段 ， 即 向 每 个 
对 象 附 加 一 个 显 式 列 出 访问 控制 规则 的 列表 。 
读者 还 看 到 了 如 何 基于 扩展 属性 来 实现 ACL， 与 Linux 从 UNIX 继 承 而 来 的 传统 模型 相 比 ， 扩 展 属 
性 方法 能 够 向 文件 系统 对 象 增加 额外 的 、 更 复杂 的 属性 。 
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inux 是 














网 的 服务 器 
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E 的 。 











因特网 的 产物 ， 这 是 无 可 争议 的 。 首 先 ， 得 感谢 因 

一 个 很 多 人 曾 持 有 的 观点 是 荒 鹰 的 :对 分 散 
的 。 第 一 个 内 核 源 代码 版 本 是 在 十 多 纪 
无 论 是 概念 和 代码 的 天 
乎 没有 改变 过 。 每 个 人 都 能 够 看 到 最 新 贡献 的 代码 ， 并 为 促进 Linux 
得 假定 所 表达 的 意见 是 合 型 








在 世界 各 地 








FE 前 通过 FTP 服 务 器 提供 的 ， 此 后 网 络 便 成 了 数据 交换 的 文 柱 ， 
F 发 ， 还 是 内 核 错误 的 消除 ， 都 是 如 此 。 内 核 邮 件 列 表 是 个 活生生 











Linux 对 各 种 网 络 适 应 得 都 很 好 ， 这 是 可 以 至 








LE 解 的 ， 因 为 它 





Ph， 大 部 分 是 运行 Linux 的 计算 机 。 不 



































特 网 通信 ，Linux 的 开发 过 程 证 明了 
的 一 组 程序 员 进 行 项 目 管理 是 不 可 能 



































的 例子 ， 它 几 
H 自 己 的 意见 ， 当然 ， 











的 开发 提 











是 与 


因特网 共同 成 长 的 。 在 构成 





因 特 





出 所 料 ， 网 络 实现 是 Linux 内 核 中 一 个 关键 的 部 分 ， 


正在 获得 越 来 越 多 的 关注 。 实 际 上 ，Linux 不 支持 的 网 络 方案 很 少 。 











器 ， 但 这 
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尽管 如 此 ，Linux 














得 简单 。 














出 了 一 种 结 


























然 本 章 是 本 书 最 长 的 章 之 





也 超时 


议 ， 





子 系统 的 C 语 言 实 : 
网 络 相关 的 头 文件 
中 ， 而 不 是 存储 到 标 # 
的 逻辑 


系统 
三 | 











网 络 功能 的 实现 是 内 核 最 复杂 、 牵 涉 最 广 的 一 部 分 。 除 了 经 
相关 的 卫 传 输 机 制 之 外 ，Linux 还 支持 许多 其 他 的 互联 方案 ， 
互 操 作 。Linux 也 支持 大 量 用 于 数据 传输 的 硬件 ， 如 以 太 网 卡 科 
没有 使 内 核 的 工作 变 
发 人 员 提 
， 但 并 


使 








构 良 好 得 令 人 惊讶 的 模型 ， 
有 涵盖 网 络 实现 的 每 个 细节 。 


得 所 有 想得到 的 计算 机 /操作 系统 能 够 


I 令 











的 因特网 协议 (如 TCP、UDP) 和 














牌 环 网 适配器 及 ISDN 卡 和 调制 解 调 


二 | 


统一 了 各 种 不 同 的 方法 。 虽 
即使 概述 一 下 所 有 的 驱动 程序 和 协 



































上 了 一 本 书 的 范围 


轩 






































由 支柱 ， 我 人 

















前 使 














下 





哟 吉 
当然 ， 


数 十 年 之 久 ， 这 些 都 为 大 家 所 熟 和 
互联 的 计算 机 

[之 间 的 通信 是 一 个 复杂 的 主题 ， 引 上 
可 建立 物理 连接 ? 使 


12.1 


计算 


口 如 
口 如 
口 如 





路 





， 由 于 


门 在 本 章 中 
用 最 广泛 的 网 络 协 议 。 
网 络 子 系统 的 开发 ， 并 不 是 从 头 开始 的 。 在 计算 机 之 间 交 换 数据 的 标准 和 惯例 都 已 经 存在 
日 治 用 已 久 。Linux 也 实现 了 这 些 标准 ， 以 连接 到 其 他 计算 机 。 





没 
百 





息 量 











巨大 ， 实际 上 可 能 需要 许 
纲 在 内 核 源 代 码 中 就 占 了 15 MiB， 如 果 将 相应 的 代码 打印 到 纸 上 要 有 6 000 多 页 。 





多 本 书 。 不 算 网 卡 驱动 程序 ， 网 络 
与 





























中 





























可 处 到 


传输 错误 ? 

















? 








可 识别 网 络 中 的 每 
口 如 果 两 台 计 算 机 通过 其 他 








用 何 种 线 缆 ? 通 





一 台 计 算 机 ? 





F 的 数目 巨大 ， 使 得 内 核 开发 者 将 这 些 头 文件 存 
住 位 置 include/1linux。 网 络 相 关 的 代码 中 包含 了 许多 概念 ， 这 些 
最 感 兴趣 的 就 是 这 些 概 念 。 我 们 的 讨论 主要 限于 TCP/IP 实 现 ， 





上 了 许多 问题 ， 




















庄 到 一 个 专门 的 


录 include/net 
成 了 网 络 子 
天 为 它 






































诸如 : 





党 介 质 有 哪些 限 人 


由 和 特殊 要 求 ? 





| 算 机 连接 ， 那 么 二 者 之 间 的 数据 交换 如 何 进行 ? 如 何 查 找 最 佳 的 
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寸 于 如 何 处 至 
决 明 确 定义 的 问题 ， 





ISO/OSI 模 型 的 一 些 层 合并 
口 口 ， 卫 表示 Internet Protocol (网际 协议 )， 而 TCP 表 示 Transmission Control Protocol〔 传 输 控制 协议 )。 





口 如 何 打包 数据 ， 使 之 不 依赖 于 特定 计算 机 的 特性 ? 
口 如 果 一 台 计 算 机 提供 了 几 个 网 络 服务 ， 如 何 识别 这 些 服务 ? 



































这 类 问题 还 有 很 多 。 令 人 遗憾 的 是 ,答案 的 数目 以 及 问题 的 数目 几乎 是 无 限 的 ， 因 此 随 着 时 间 流 
特定 的 问题 ， 提 出 了 许多 建议 。 最 “合理 ”的 系统 是 : 将 问题 分 类 ， 创 建 各 种 层 来 解 
层 间 借助 固定 的 机 制 进行 通信 。 这 种 方法 大 大 简化 了 实现 、 维 护 ， 尤 其 是 调试 。 





















































ISO/OSI| 和 TCP/IP 参考 模型 2 


众所周知 的 ISO (Inter 
1， 定义 了 组 成 网 络 的 各 个 层 。 该 模型 由 7 层 组 成 ， 称 为 OST (Open Systems Interconnection， 开 放 
系统 互 连 ) 模型 ， 如 图 12-1 所 示 。 











national Organization for Standardization， 国 际 标准 化 组 织 ) 设计 了 一 种 参考 




































































应 用 层 
CHTTP、FTP 等 ) 








传输 层 (TCP、UDP) 


互联 网 络 层 (IP 层 ) 





主机 到 网 络 层 














图 12-1 TCP/IP 参 考 模型 和 ISO/OSI 参 考 模型 






































但 对 某 些 问题 来 说 ， 划 分 为 7 层 过 于 详细 了 。 因 此 ， 实 际 上 通常 使 用 另 一 种 参考 模型 ， 其 中 将 

















为 新 层 。 该 模型 只 有 4 层 ， 因 此 其 结构 更 为 简单 。 这 种 模型 称 为 TCP/IPD 口 
























































手 层 都 只 能 与 紧邻 (| 





今 因特网 上 的 大 部 分 通信 都 是 基于 该 模型 的 。 两 个 模型 的 各 个 层 的 比较 见 图 12-1。 








上 方 或 下 方 ) 的 层 通 信 。 例如，TCP/IP 模 型 的 传输 层 只 能 与 互联 网 络 层 和 应 






































口 主机 至 








层 执 行 的 任务 如 下 。 











E 机 到 网 络 层 (理论 上 ， 它 其 至 不 知道 存在 这 样 的 一 个 层 )。 


通信 ， 而 完全 独立 于 了 














网络 层 负责 将 信息 从 一 台 计 算 机 传输 到 远程 计算 机 。 它 处 理 传输 介质 ”的 物理 性 质 ， 并 














将 数据 流 划 分 为 定 长 的 0 (frame)， 以 便 在 发 生 传输 错误 时 重 传 数据 块 。 如果 几 台 计 算 机 共享 





烧 进 硬件 中 。 各 
08:00:46:2B:FE: 








同一 传输 线路 ， 网 络 接口 卡 必须 有 一 个 唯一 的 ID 号 ， 称 之 为 MACD 口 “MAC address )， 通 常 
> [= 
人 丰 












































商 之 间 的 协议 保证 该 一 是 全 球 唯一 的 。MAC 地 址 的 一 个 例子 
E8。 











从 内 核 看 来 ， 该 层 是 由 网 卡 的 设备 驱动 程序 实现 的 。 




















口 OSI 模 型 的 网 络 层 在 TCP/IP 模 型 中 称 为 0 吕 D 口 口 口 (Internet layer， 也 称 IP 层 )， 二 者 在 本 质 上 


是 相同 的 ， 都 是 指 


























Q 主要 使 用 的 是 同 轴 电 缆 、 











在 网 络 中 的 任何 计算 机 之 间 交 换 数 据 的 任务 ， 所 述 计 算 机 不 一 定 是 直接 连 























双 绞 线 、 光 纤 链 路 ， 但 使 用 无 线 传输 的 趋势 在 不 断 增长 。 
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接 的 ， 如 图 12-2 所 示 。 

计算 机 A 和 B 之 间 的 直接 传输 链 路 是 不 存在 的 ， 因 为 二 者 在 物理 上 是 
未 连接 的 。 因 此 ， 网 络 层 的 任务 是 找到 一 条 线路 ， 使 得 计算 机 可 以 彼此 通 
言 ， 例 如 ，A-E-B 或 A-E-C-B。 

网 络 层 也 负责 其 他 连接 细节 ， 如 将 传输 的 数据 划分 为 特定 长 度 的 分 
。 这 是 必要 的 ， 因 为 对 传输 线路 上 的 各 个 计算 机 而 言 ， 所 能 够 处 理 的 分 
最 大 长 度 可 能 是 不 同 的 。 在 发 送 数据 时 ， 数 据 流 划 分 为 分 组 ， 这 些 分 组 ”图 12-2 网络 互联 的 计算 机 
在 接收 端 重新 组 合 。 这 样 ， 高 层 协议 可 以 透明 地 处 理 任 意 长 度 的 数据 ， 而 无 需 费力 考虑 互联 网 络 层 或 
络 层 的 特定 性 质 。 

网 络 层 还 分 配 网 络 中 唯一 的 地 址 ， 以 便 计算 机 可 以 彼此 通信 (这 与 前 述 的 硬件 地 址 是 不 同 的 ， 因 
为 网 络 通 常 由 物理 子 网 组 成 )。 
在 因特网 中 ， 网 络 层 借助 IP 协 议 (Internet Protocol) 实现 ，IP 协 议 有 两 个 版 本 (IPv4 和 IPv6 )。 
当前 ， 大 多 数 连接 是 根据 IPv4 处 理 的 ， 但 IPv6 将 在 未 来 代替 它 "”。 下 文 讨 论 IP 连 接 时 ， 总 是 指 IPv4 
连接 
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IP 使 用 一 定格 式 的 地 址 来 寻 址 计算 机 ， 格 式 如 192.168.1.8 或 62.26.212.10。 这 些 地 址 由 正式 
主 册 的 权威 机 构 或 提供 者 分 配 (有 时 候 是 动态 的 )， 或 可 以 自由 选择 (在 定义 为 私有 的 范围 内 )。 
IP 支 持 各 种 地 址 类 别 ， 允 许 在 地 址 层次 上 将 网 络 灵 活 地 划分 为 0 口 (subnet)， 子 网 的 大 小 取决 于 












































四 
下 

























































































需求 ， 子 网 甚至 可 以 容纳 数 千 万 台 计 算 机 。 但 本 书 不 会 详细 阐述 该 主题 。 读 者 可 以 参考 网 络 和 系统 管 
理 方面 的 大 量 文 献 ， 例 如 [Ste00] 和 [Fri02]。 


























口 在 两 种 模型 中 ， 第 4 层 都 是 0] 口 口 (transport layer)。 其 任务 是 在 两 个 建立 了 链 路 的 计算 机 上 ， 
控制 应 用 程序 之 间 的 数据 传输 。 在 计算 机 之 间 建 立 通 信 链 路 还 不 够 ， 还 必须 在 客户 和 服务 器 
应 用 程序 之 间 建 立 连 接 ， 当 然 ， 这 预先 假定 了 计算 机 之 间 有 一 个 现存 的 链 路 。 在 因特网 中 ， 
TCP〈Transmission Control Protocol， 传 输 控制 协议 ) 或 UDP (User Datagram Protocol， 用 户 数 
据 报 协议 ) 用 于 该 目的 。 每 个 对 互联 网 络 层 数据 感 兴趣 的 应 用 程序 都 使 用 一 个 唯一 的 端口 号 ， 
来 唯一 地 标识 目标 系统 上 的 服务 器 应 用 程序 。 通常 ， 端 口 80 用 于 Web 服 务 器 。 浏览 器 客户 端 必 
须 向 服务 器 地 址 发 送 请 求 ， 以 获得 所 需 的 数据 。( 自 然 ， 客 户 端 也 必须 有 一 个 唯一 的 端口 号 ， 
使 得 Web 服 务 器 可 以 响应 该 请 求 ， 但 客户 端的 端口 号 是 动态 生成 的 。) 为 完全 定义 一 个 端口 地 
址 ， 通 常 将 端口 号 附加 在 IP 地 址 后 ， 用 冒号 分 阳 。 例 如 ， 在 地 址 为 192 .168.1.8 的 计算 机 上 的 
Web 服 务 器 ， 可 以 通过 地 址 192 .168.1.8:80 来 唯一 标识 。 
传输 层 的 另 一 项 任务 是 可 以 〈 但 不 是 必须 的 ) 提供 一 种 可 靠 的 连接 ， 使 得 通过 该 连接 的 数据 按 给 
定 的 顺序 到 达 。 上 述 特性 和 TCP 协 议 将 在 12.9.2 节 讨论 。 
口 TCP/IP 参 考 模型 中 的 应 用 层 ， 对 应 OSI 模型 中 的 5 一 7 层 〈 会 话 层 、 表 示 层 和 应 用 层 )。 顾 名 
思 义 ， 应 用 层 表 示 从 应 用 程序 视角 来 看 的 网 络 连 接 。 在 两 个 应 用 程序 之 间 建 立 通信 连接 之 



















































































































































































































































































































































































后 ， 应 用 层 负 责 传输 实际 的 内 容 。 上 毕 竞 ，Web 服 务 器 与 其 客户 端 之 间 的 通信 ， 不 同 于 邮件 
服务 器 。 














为 因特网 定义 了 大 量 的 标准 协议 。 通常 ， 它 们 是 以 RFC (Request for Comments) 文档 的 形式 定义 
的 ， 打 算 使 用 或 提供 特定 服务 的 应 用 程序 必须 实现 相关 的 协议 。 大 多 数 协 议 可 以 使 用 简单 的 telnet 






































QD 向 IPv6 的 转移 本 应 已 经 完成 ， 但 实际 上 目前 正 处 于 这 个 缓慢 的 转移 过 程 中 ， 特 别 是 在 学 术 和 商业 部 门 。 或 许 IPv4 
也 址 空间 即将 耗 尽 ， 能 够 在 一 定 程度 上 刺激 转移 过 程 的 加 速 。 
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一 到 


流程 ， 如 下 : 





连接 


一 个 














可 来 。 





测试 ， 





wolfgang@meitner> telnet 192.168.1.20 80 
Trying 192.168.1.20... 

Connected to 192.168.1.20. 

Escape character is '^]' 


GET /index.html HTTP/1.1 
Host: www.sample.org 
Connection: close 





HTTP/1,1 2200 :OK 

Date: Wed, 09 Jan 2002 15:24:15 GMT 
Server: Apache/1.3.22 (Unix) 
Content-Location: index.html .en 


因为 它们 是 用 简单 的 文本 命令 进行 操作 的 。 




















典型 的 例子 是 浏览 器 与 Web 服 务 器 之 间 的 通信 


Vary: negotiate,accept-language,accept-charset 


TCN: choice 
Last-Modified: Fri, 
ETag: "83617-5b0-3aflf126;3bf57446" 
Accept-Ranges: bytes 
Content-Length: 1456 

Connection: close 

Content-Type: text/html 
Content-Language: en 








<!DOCTYPE html PUBLIC 


04 May 2001 00:00:38 GMT 


"-//W3C//DTD XHTML 1.0 Transitional//EN" 





"http://www.w3.0org/TR/xhtml1/DTD/xhtmll-transitional.dtd"> 


<html] xmlns="http://www.w3.org/1999/xhtml"> 


<head> 


</html> 











telnet 用 来 与 计算 机 192.168.1.20 的 80 端 口 建立 一 个 TCP 连 接 。 所 有 的 用 户 输入 都 通过 该 网 络 
转发 到 与 该 地 址 (由 IP 地 址 和 端口 号 唯一 标识 的 ) 相关 联 的 进程 。 在 接收 到 请 求 之 后 ， 立 即 发 送 




















响应 。 所 要 的 HTML 页 
























































甸 的 内 容 ， 连 同一 个 包含 了 文档 有 关 信息 和 其 他 资料 的 HTTP 首 部 , 会 发 送 
Web 浏 览 器 使 用 同样 的 过 程 来 访问 数据 ， 这 对 用 户 























是 透明 的 。 

















于 网 络 的 功能 已 经 系统 地 划分 为 各 个 层 ， 希 望 与 其 















































。 计 算 机 之 间 的 实际 链 路 由 较 低 的 层 实 现 ， 









































他 计算 机 通信 的 应 用 程序 ， 只 需要 关注 少量 





而 应 用 程序 只 需要 产生 和 读 取 文 本 串 ， 无 论 两 台 计 算 





在 同一 房间 里 并 排 安 放 ， 还 是 分 别 位 于 两 个 不 同 的 地 方 。 























12.3 


即 可 


的 运 





明确 定义 的 接口 来 交换 数据 或 转发 命令 。 
通过 套 接 字 通 信 


从 程序 员 的 视 人 
访 问 如 第 8 章 所 述 。 










































































作 方 式 与 普通 的 块 设备 和 字符 设备 完全 不 同 ， 





网 络 的 层 状 结构 在 内 核 中 反映 为 下 述 事实 : 不 同 的 层次 由 分 离 的 代码 实现 ,不 同 层次 的 代码 之 间 




















来 看 ， 外 部 设备 在 Linux (和 UNIX) 中 不 过 是 普通 的 文件 ， 通 过 正常 的 读 写 操作 
于 只 需要 一 个 通用 接口 ， 这 简化 了 对 资源 的 访问 。 
但 对 网 卡 而 言 ， 情 况 有 点 复杂 ， 因 为 上 述 方案 或 者 根本 不 能 采 


市 得 
使 得 经 











及， 或 者 会 带 来 极 大 的 困难 。 网 卡 
的 UNIX 艇 言 “ 万 物 皆 文件 ”不 再 完全 适 
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ek 
当然 ， 


在 20 世 纪 80 名 





和 9。 一 个 原 
在 打开 设备 文件 


套 接 字 现在 





大 | 








是 (所 有 











灵 次 ) 使 
对 完成 这 些 任 务 。 





内 核 ， 





套 接 字 。 








因 








入 了 许多 不 同 的 通 
在 /dev 目 录 


此 ， 











必须 提供 一 个 尽 可 能 通 
FE 代 它 也 让 BSD UNIX 的 程序 员 们 很 头 y 
殊 结 构 用 作 到 网 络 实现 的 接 
而 Linux 也 实现 了 


口 ， 这 种 











用 





方案 ] 


的 接 


岗 在 已 经 成 为 工业 标 ?Y 














下 没有 与 网 卡 对 应 的 项 。” 
供 程序 访问 网 络 功能 。 


调 。 他 们 采 

















辣 5 






























































广 问 网 络 。 


函数 ， 还 包括 几 个 增强 和 
在 创建 套 接 字 时 ， 不 





为 从 用 户 角 
项 。 相 关内 容 的 


创建 套 接 


12.3.1 





于 定义 和 建立 网 络 连 接 ， 











从 程序 员 的 





























的 函数 。 用 了 
区 分 地 址 和 协议 族 ， 还 
流 的 套 接 字 来 说 ) 同样 重要 的 一 点 是 ， 套 接 字 是 为 客 
度 来 说 明 套 接 字 的 功能 ， 下 面 月 





度 来 看 ， 创 建 套 





接 
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| 





字 的 最 终结 果 是 一 个 文件 




















仅 要 





实际 数据 交换 的 接 

















HE 









































ms 


子 





套 接 字 不 仅 可 以 
如 ，IPX、Appletalk、 本 地 UNIX 套 接 字 、DECNet， 还 有 在 <socket .h> 中 列 出 
4， 在 创建 套 接 字 时 ， 必 须 指定 
也 址 和 协议 族 的 组 合 ， 但 


( 例 
为 出 
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任意 选择 

















Ne 





和 国 
书 工 














CP (用 











J 了 


| 问 数据 提 


也 址 族 和 通 














民 的 通 








信 。 例 如 











有 于 各 种 传输 协议 的 人 连接 ， 也 可 以 


所 需要 的 地 址 和 协议 类 型 的 组 合 。 尺 管 作为 过 去 
目前 每 个 地 二 

















不 必要 的 ， 
默认 协议 。 
0 





大 




















F 细 描述 可 以 参考 许多 专门 著作 ， 如 [Ste00]。 
































信 协 议 ， 为 建立 连接 需要 指定 许多 选项 ， 

















无 法 








这 个 问题 不 是 Linux 特 有 的 


] 的 解决 方案 是 将 一 种 称 为 套 接 字 的 生 














ey 








信 。POSIX 标 准 中 也 定义 了 套 接 字 ， 





上 一 个 简短 的 程序 来 示范 几 个 网 络 编程 方 夯 





本 


以 便 可 以 用 操作 inode 的 普通 方法 “特别 是 读 写 操 作 〉 来 
映 述 符 ， 它 不 仅 提 供 所 有 的 标准 
口 对 所 有 的 协议 和 地 址 族 都 是 同样 的 。 

区 分 基于 流 的 通信 和 数据 报 的 通信 。( 对 面向 
户 端 程序 建立 的 ， 还 是 为 服务 器 程序 建立 的 。 








的 几 个 选 














利于 内 核 支持 的 所 有 其 他 地 址 和 协议 类 型 
的 许多 其 他 类 型 )。 
的 一 项 遗迹 ， 可 


以 
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内 He 


区 分 








信 








面向 流 的 通 

















， 对 一 个 已 经 分 配 
于 流 ) 或 UDP《〈 用 于 数据 报 服务 ) 作为 传输 
套 接 字 是 使 用 socket 库 函数 生成 的 ， 该 函 
信 类 型 “ 流 或 数据 报 ) 之 外 ， 可 使 用 第 三 
为 前 两 个 参数 已 经 唯一 地 定义 了 


了 因特网 地 址 如 192.168.1.20 的 套 


协议 。 











数 通过 12.10.3 节 讨论 的 一 个 系统 调 月 


与 内 核 通信 。 























个 参数 来 选择 协议 。 但 1 
办 议 。 将 第 三 个 参数 所 











近 照 前 文 的 说 法 ， 
肯定 为 0， 即 通知 函数 使 用 适当 的 


榜 字 来 说 ， 只 能 
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除 


这 是 





UUsockeUUOOOOUO0OU00000000000000000000000 
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bindq 卫 
为 不 同 地 址 族 


地 址 。 基 

















数 





于 该 




















各 种 不 


瑟 





<in.h> 


因特网 地 址 由 IP 





也 址 和 端 





的 地 址 类 型 也 不 同 ， 所 以 该 
j 的 要 求 。type 指 定 了 所 需 的 地 址 类 型 。 








结 

















站 号 


struct sockaddr in { 











总 肖 开 星 





网 
= 个 








本 身 的 
， 在 Linux 中 ， 仅 当 使 
络 操作 。 


例外 是 TUITAP 驱 动 程序 ， 它 在 














然 , 也 有 几 种 UNIX 变 体 直接 通过 设备 文件 来 实现 网 络 连接 ， 例 刀 


度 来 看 ， 这 种 方法 远 不 如 套 接 字 方法 那么 优雅 。 





1/dev/tcp( 参 见 [Vah96 
打开 连接 时 ， 网 





天 为 在 
































套 接 字 记 











多 
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。 基 





为 它 在 发 送 或 接收 数据 时 并 


I 











I 建立 




















| 








了 连接 之 后 ， 才 会 利用 文件 描述 符 〈 可 以 用 




















全 一 定义 ， 这 也 是 sockaaqqr_in 定 义 为 下 列 形式 的 原 























或 aev/tapx 与 内 核 通信 。 








户 空 





5 间 模 拟 了 一 个 虚 把 


的 ， 必须 向 该 函数 传递 一 个 sockaddr_type 结 构 作 为 参数 。 该 结构 定义 了 本 地 
构 对 每 个 地 址 族 都 有 一 个 不 同 的 版 本 ， 以 便 满足 





)。 从 应 用 程 
络 设备 与 普通 设备 的 
常规 的 文件 方法 处 理 ) 进 


BH 


序 员 和 内 
区 别 特别 


























网 卡 ， 对 i 





Y 
该 工作 





不 与 真 J 








E 的 设备 进行 通信 ， 





周 试 、 网 卡 仿 真 、 建 立 虚拟 隧道 连接 都 4 
由 一 个 程序 完成 , 这 个 程序 通过 /dev/tunX 
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sa_family 七 sin family; /* 地 址 族 */ 
_ bel6 sin port; /* 端口 号 A 
struct in_addr sin_addr; /* 因特网 地 址 */ 








除了 地 址 族 (这 里 是 AF_INET) 之 外 ， 还 需要 一 个 卫 地 址 和 端口 号 。 

















吾 各 轩 加 加 
DU 192.168.1.100UOUOOUOUOUOU0O00D0 inet atond DOUDASCUUUUO 
gogonoggogogeoooououuucoou ui .18.1.200 
国有 
国 
DOUOOOOOD 


如 第 1 章 所 述 ，CPU 存 储 数 值 有 两 种 惯例 ， 即 小 端 序 和 大 端 序 。 为 确保 不 同 字 节 序 的 机 器 之 间 能 
彼此 通信 ， 显 式 定 义 了 一 种 0 0DDDOUD network byte order)， 它 等 价 于 大 端 序 格式 。 因 而 ， 协 议 首 
出 现 的 数值 都 必须 使 用 网 络 字 节 序 。 卫 地址 和 端口 号 实际 上 都 是 数字 ， 因 而 在 定义 sockaqqr_in 结 
中 的 数值 时 ， 必 须 考虑 到 这 个 事实 。C 库 带 有 许多 函数 ， 用 于 将 数值 在 CPU 的 本 地 格式 和 网 络 字 节 
格式 之 间 转 换 (如果 CPU 和 网 络 字 节 序 相同 ， 这 些 函 数 实际 上 不 进行 处 理 )。 好 的 网 络 应 用 程序 总 
是 使 用 这 些 函数 ， 即 使 是 在 大 端 序 的 机 器 上 进行 开发 也 应 该 如 此 ， 这 可 以 确保 程序 能 够 移植 到 不 同类 
型 的 机 器 上 。 

为 明确 地 表示 小 端 序 和 大 端 序 类 型 ， 内 核 提供 了 几 种 数据 类 型 。_be16、_be32 和 _ be64 分 别 
表示 位 长 为 6、32、64 位 的 大 端 序数 据 类 型 ， 而 前 级 为 _1e 的 变 体 则 表示 对 应 的 小 端 序数 据 类 型 。 这 
些 类 型 都 定义 在 <types.h> 中 。 请 注意 ， 小 端 序 和 大 端 序 类 型 最 终 都 映射 到 同样 的 数据 类 型 〈 即 u32 
等 ， 在 第 1 章 介绍 过 )， 但 显 式 指定 字 节 序 使 得 自动 化 的 类 型 检查 工具 可 以 检查 代码 的 正确 性 。 


12.3.2 ”使 用 套 接 


这 里 假定 读者 对 用 户 层 网 络 编程 比较 熟悉 。 但 为 了 简要 说 明 套 接 字 如 何 表示 到 内 核 网 络 子 系统 的 
接口 ， 这 里 需要 讨论 两 个 非常 简短 的 示例 程序 ， 一 个 充当 echo 请 求 的 客户 端 ， 另 一 个 充当 服务 器 。 窜 
户 端 会 向 服务 器 发 送 一 个 文本 串 ， 服 务 器 原样 返回 该 文本 串 。 例 子 使 用 了 TCP/P 协 议 。 

1. echo 客 户 端 

echo 客 户 端的 源 代码 如 下 ": 

#include<stdio.h> 

#include<netinet/in.h> 


#include<sys/types.h> 
#include<string.h> 
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int main() 
/* 2cho 服 务 吕 的 主机 地 址 和 交 号 */ 
Char* echo host = "192.168.1.20"; 
int echo port = 7; 
int sockfdqd; 
struct sockaddr_in *server= 
(struct sockaddr in*)malloc(sizeof (struct sockaddr_ in)); 




















Q 为 了 省 事 ， 这 里 省 去 了 所 有 的 错误 检查 ， 而 在 真正 健壮 的 实现 中 这 是 必需 的 。 
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/* 设置 将 要 连接 的 服务 器 的 地 址 */ 

server->sin family = AF_INET; 

server->sin port htons (echo_port); // 注意 ， 
server->sin addr.s_addr inet_addr (echo_host); 


/* 创建 套 接 字 (因特网 地 址 族 、 流 套 接 字 和 默认 协议 ) 
sockfd socket (AF_INET, SOCK_STREAM, 0); 


/* 连接 到 服务 器 */ 

printf("Connecting to %s \n", echo host); 

printf ("Numeric: %Su\n", server->sin addr); 
connect (sockfd, (struct sockaddr*)server, 


/* 发 送 消息 */ 

char* msg "Hello World"; 
printf("\nSend: '%s'\n", msg); 
write(sockfd, msg, strlen(msg)); 


/* 接收 返回 结果 */ 
char* buf (char*)malloc(1000); 


a 上 下 








4 





























// 接收 用 








Int bytes = read(sockfd, (void*)buf, 1000); 
printf("\nBytes received: %u\n", bytes); 
Drintf(vTextt "Se nr, but)'s 

/* 结束 通信 ， 即 关闭 套 接 字 */ 


close(sockfd); 


} 
因特网 超级 守护 进程 (inetd、xinetgd 或 其 他 类 似 程序 》 
尺码 在 编译 之 后 可 以 立即 测试 。 


wolfgang@meitner> ./echo client 
Connect to 192.168.1.20 
Numeric: 335653056 


De 


过 























源 
A 





沈 


Send: 'Hello World' 


Bytes received: 11 
Text: 'Hello World' 


客户 端 需要 执行 下 列 步骤 。 






















































































党 使 用 内 建 的 echo 服 务 嚣 。 因 


sizeof (*server)); 


的 缓冲 区 ， 最 大 为 1000 个 AScII 字 符 





此 ， 上 

























































































(1) 创建 一 个 sockadqr_in 结 构 的 实例 ， 用 来 描述 要 连接 的 服务 器 的 地 址 。AF_INET 表 明 它 是 一 个 
于 特 网 地 址 ， 而 目标 服务 器 由 其 IP 地 址 (192.168.1.20) 和 端口 号 (7) 明确 地 限定 。 

另外， 主机 数据 也 转换 为 网 络 字 节 序 。hntons 用 于 转换 端口 号 ， 而 inet_adgdr 辅 助 函 数 用 于 将 包 
含 点 分 十 进 制 格式 地 址 的 文本 串 转 换 为 数字 。 

(2) 通过 socket 函 数 在 内 核 中 创建 一 个 套 接 字 , 该 函数 基于 内 核 提 供 的 socketcall 系 统 调用 (下 
文 会 说 明 这 一 点 )。 返 回 的 结果 是 一 个 整数 ， 可 解释 为 文件 描述 符 ， 因 而 用 于 处 理 普 通 文件 的 所 有 函 
数 都 可 以 用 于 套 接 字 ， 如 第 8 章 所 述 。 除了 这 些 操作 之 外 ， 还 有 其 他 特定 于 网 络 的 方法 ， 可 用 于 处 理 























套 接 字 文 们 
(3) 对 套 接 字 文件 描述 符 和 server 变 量 调用 connect 消 

建立 到 服务 器 的 连接 ，server 变 量 存储 服务 器 连接 数据 。 

(4) 实际 的 通信 ， 是 从 用 write 问 服务 器 发 送 一 个 文本 串 (" He] 









































局 











描述 符 。 这 些 特定 于 网 络 的 方法 可 用 于 精确 设置 此 处 没有 讨论 的 各 种 传输 参数 。 
数 《〈 也 基于 socketcal 
































L1 系 统 调用 )， 即 可 


Ll1o World "， 还 能 是 其 他 的 吗 ? ) 











开始 的 。 通 过 套 接 字 发 送 数据 ， 等 价 于 向 套 接 字 文件 














下 


描述 符 写 入 数 和 





中。 这 个 步骤 完全 独立 于 服务 器 的 
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pa 























位 置 和 用 于 建立 连接 的 协议 。 网 络 实现 确保 了 字符 串 能 够 到 达 目 标 位 置 ， 不 管 是 如 何 完 成 的 。 

(5) 通过 reaq 读 取 服 务 器 的 响应 ， 但 首先 必须 分 配 一 个 缓冲 区 ， 用 于 容纳 接收 的 数据 。 作 为 预防 
措施 ， 在 内 存 中 分 配 了 1 000 字 节 作 为 缓冲 区 ， 尽 管 我 们 预期 服务 器 只 会 返回 原 字 符 串 。 调 用 reaq 会 
阻塞 客户 端 程 序 ， 直 至 服务 器 发 送 的 响应 到 达 客 户 端 ，read 会 返回 接收 到 的 字 节 数 。 

DOcOOoOOOoOoooo0oo0oooooooo000o0ooooo0o00031o0D0 

DOO 

2. echo 服 务 器 

套 接 字 用 于 服务 器 进程 的 方法 ， 与 其 在 客户 端的 使 用 方法 稍 有 不 同 。 下 列 示 例 程序 示范 了 如 何 实 
现 一 个 简单 的 echo 服 务 器 : 


#include<stdio.h> 
#include<netinet/in.h> 
#include<sys/types.h> 
#include<string.h> 












































UU 








































































































int main() { 
char* echo_ host = "192.168.1.20"; 
int Cho poOrt = 7777> 
int sockfdqd; 


struct sockaddr_ in *server = 
(struct sockaddr_ in*)malloc(sizeof (struct sockaddr_in)); 


/* 设置 自身 地 址 */ 

server->sin family = AF_INET; 

server->sin port = htons (echo_port); // 注意 ， 是 网 络 字 节 序 ! 
server->sin addr.s_addr = inet_addr (echo_host); 








/* 创建 套 接 字 */ 
sockfd = socket (AF_INET, SOCK_STREAM, 0); 


/* 绑 定 到 一 个 地 址 */ 

if (bind(sockfd, (struct sockaddr*)server, sizeof(*server))) { 
printf("bind failed\n'"); 

} 


/* 启用 套 接 字 的 服务 器 模式 〈 即 开始 监听 ) */ 
listen(sockfd, SOMAXCONN); 


/* 等 待 客户 端 发 送 的 数据 进入 */ 
int Glientfds 
struct sockaddr_ in* client = 
(struct sockaddr_in*)malloc(sizeof (struct sockaddr_ in)); 


















































int client sizé = Sizeof (*eclient); 
char* buf = (char*)malloc(1000); 
int bytes; 


printf("Wait for connection to port %u\n", echo port); 


/* 接受 连接 请 求 */ 

clientfd = accept (sockfd, (struct sockaddr*)client, &client size); 

printf("Connected to %s:%Su\n\n", inet ntoa(lclient->sin addr), 
ntohs (client->sin port)); 

printf("Numeric: %u\n", ntohl (client->sin addr.s_addr)); 


while(1) { /* 无 限 循环 */ 
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/* 接收 传输 的 数据 */ 


bytes = read(clientfd, (void*)buf, 


if (bytes <= 0) { 
close(clientfd); 


printf("Connection closed.\n"); 


exit (0); 
} 
printf("Bytes received: %Su\n", 
Brinttf("Text "Se \n", Df)ys 


/* 发 送 响应 数据 */ 
write(clientfd, buf, bytes); 
} 





} 
前 一 部 分 与 客户 端的 代码 几乎 相同 。 需 要 创建 一 个 sockadqr_in 结 构 实例 来 保存 服务 器 的 
地 址 ， 但 原因 与 客户 端 程序 不 同 。 客 户 端 代 码 在 该 结构 






































bytes) 








1000); 


’ 





FP 指 定 的 是 想 要 连接 到 








里 ， 指 定 的 是 服务 器 等 待 连接 时 所 使 用 的 地 址 。 创 建 套 接 字 的 方式 与 客户 端 相同 。 




















品 





与 客户 端 不 同 的 是 ， 服 务 器 并 不 会 主动 与 












































CSOMAXCONN 是 系统 内 部 允许 的 等 待 队 列 的 最 大 长 度 ， 用 来 防止 任意 指定 等 待 队列 的 长 





另 个 程 























序 建立 连接 ， 服 务 器 只 会 被 动 地 等 待 ， 

到 连接 请 求 。 建 立 一 个 被 动 连接 需要 以 下 三 个 库 函 数 〈 仍 然 是 基于 万 能 的 socketcal1 系 统 调 

口 binq 将 套 接 字 绪 定 到 一 个 地 址 〈 本 例 中 是 192.186.1.20:7777) ，。 

口 1isten 通 知 套 接 字 被 动 地 等 待 客 户 端 连接 请 求 的 到 来 。 该 函数 创建 一 个 等 竺 队列， 将 所 有 
望 建立 连接 的 《远程 )》 进程 放置 在 该 队列 上 





























的 服务 器 的 地 雪 











用 )。 





























< 


及。 





有 项 
。 队 列 的 长 度 由 listen 的 第 二 个 参数 指定 。 


因特网 
EF。 在 这 


直至 收 





口 accept 函 数 接受 等 竺 队列 上 第 一 个 客户 端的 连接 请 求 。 在 队列 为 空 时 ， 该 函数 将 阻塞 ， 直 至 











有 一 个 想 要 进行 连接 的 客户 端 到 来 。 





























实际 通信 仍然 由 read 和 write 完 成 ， 这 两 个 函数 














示例 程序 输出 了 客户 端 连接 数据 (包括 IP 地 址 和 端 





器 

















由 accept 返 回 的 文件 描述 符 。 














口号 ， 


























体 的 客户 端 计 算 机 来 说 ， 客 户 端 的 人 P 地 址 是 固定 的 ，1 








accept 的 输出 参数 提供 )。 虽 然 就 具 

















机 的 内 核 动态 选择 的 。 








echo 服 务 器 的 功能 很 容易 模拟 ， 只 需要 在 一 个 无 





可 。 在 客户 端 关闭 连接 时 ， 服 务 器 的 read 将 返 
过 程 如 下 。 





客户 端 






































i 客户 端的 端口 号 是 在 建立 连接 时 由 客户 端 计 























限 循环 中 读 取 所 有 客户 端的 输入 并 原样 写 巴 
可 一 个 长 度 为 0 



































服务 器 














算 


即 


的 数据 流 ， 这 样 服务 器 也 会 终止 。 具 体 





wolfgang@meitner> ./stream client 
Connect to 192.168.1.20 
Numeric: 335653056 


Send: 'Hello World' 


Bytes received: 11 
Text: 'Hello World' 





Q@ 在 Linux (和 所 有 其 他 UNIX 变 体 ) 中 ，1 一 1024 的 所 有 端 



































进程 使 用 。 为 此 ， 我 们 在 例子 中 使 用 了 空闲 端 



































号 7 777。 


wolfgang@meitner> ./stream server 
Wait for connection on port 7777 


Client: L192.,.168.1,10%3505 
Numeric: 3232235786 
Bytes received: 11 
Text: 'Hello World' 


Connection closed. 

















称 为 0D 口 口 口 (reserved port)， 只 能 由 具备 root 权 限 的 
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-上 
纪 . 





是 


一 个 四 元 组 ( 
服务 器 本 地 系统 的 地 址 和 端 
娄 


























可 ] 








程 ， 





192 .168.1.20:7777，192.168.1.10:3506) 用 来 唯 
口号 ， 后 两 个 分 量 是 客 
[ 果 元 组 中 某 个 分 量 仍 然 是 未 定 的 ， 则 用 星 号 (*) 表示 。 医 
户 端 连接 的 服务 器 进 





以 表示 为 192.168.1.20:7777，*:*。 



































fork 复 制 自 身 来 处 到 























标识 
户 端的 地 址 和 端口 号 。 
而 ， 在 被 动 套 接 字 上 监听 尚未 有 客 


个 连接 。 前 两 个 分 























LE 茶 个 连接 之 后 ， 在 内 核 中 注册 了 两 个 套 接 字 对 ， 如 下 。 





在 服务 器 1 





周 








lA 
mm 


听 








连接 建立 后 








因 
该 任务 称 为 0 0 口 


192;,168,1;20:7777;.. * 3 





























尽管 两 个 服务 器 进程 的 套 接 字 具 
此 ， 内 核 在 分 配 输入 和 
0D (multiplexing)。 




















有 相同 的 IP 地 址 / 端 
输出 TCP/IP 分 组 时 ， 必 须 注 意 到 




















Ep 可 以 显示 








netstat 


检查 系统 上 所 有 TCP/IP 连 接 的 状态 。 如 果 有 








将 生成 下 列 样 例 输出 : 


wolfgang@meitner> netstat -na 






























































L925 L168 1.20%7777 .192168 1 L1033506 


号 组 合 ， 但 二 者 对 应 的 四 元 组 是 不 同 的 。 
四 元 组 的 所 有 4 个 分 量 ， 才 能 确保 正确 。 
























































SE 


个 客户 端 连接 到 服务 器 ， 








内 






















































































Active Internet connections (servers and established) 

Proto Recv-Q Send-Q Local Address Foreign Address State 

tcp 0 0 192.168.1.20:7:7777 O00 0u* ,ISTEN 

tcp 0 Q .192, L168 1:2057777 192.168.1.10:3506 ESTABLISHED 

tep 0 Q. .1925168;, 1..2057777 192.168:1:1033505 ESTABLISHED 
12.3.3 ”数据 报 套 接 字 

UDP 是 建立 在 IP 连 接 之 上 的 第 三 种 广泛 使 用 的 传输 协议 。UDP 表 示 User Datagram Protocol 《用户 
数据 报 协议 )， 在 如 下 几 个 基本 方面 与 TCP 有 所 不 同 。 

口 UDP 是 面向 分 组 的 。 在 发 送 数据 之 前 ， 无 须 建 立 显 式 的 连接 。 

口 分 组 可 以 在 传输 期 间 丢 失 。 不 保证 数据 一 定 能 到 达 其 目的 地 。 

口 分 组 接收 的 次 序 不 一 定 与 发 送 的 次 序 相 同 。 

UDP 通常 用 于 视频 会 议 、 音 频 流 及 类 似 的 服务 。 在 此 类 环境 下 ， 丢 失 几 个 分 组 并 不 要 紧 ， 用 户 只 
会 注意 到 多 媒体 序列 内 容 中 出 现 短暂 的 漏 失 。 但 类 似 于 了 P，UDP 保 证 分 组 到 达 目 的 地 时 ， 其 D 口 不 会 


发 生 改变 。 


根据 D 吕 的 传输 协议 类 型 ， 




















分 别 使 用 TCP 和 UDP 协议 的 进程 ， 























可 以 0 口 





















































使 用 同样 的 IP 地 址 也 
将 其 转发 到 适当 的 进程 。 














re 


口号 。 在 多 路 复 用 时 ， 内 核 会 





[0 端 






























































如 果 比 较 TCP 和 UDP 协议 ， 就 像 是 比较 电话 网 络 和 邮政 业务 。TCP 对 应 电话 呼叫 。 在 信息 传输 之 
前 ， 主 叫 方 必须 建立 连接 〈 必 须 由 被 叫 方 接受 )。 在 通话 期 间 ， 所 有 信息 的 接收 次 序 都 与 发 送 次 序 相 
同 。 

UDP 可 比 作 邮 政 业 务 。 分 组 (类比 信 件 ) 可 以 直接 向 接收 者 发 送 ， 无 须 预先 获取 许可 。 不 能 保证 
周 件 一 定 会 送 达 《尽管 邮政 业务 和 网 络 都 会 尽力 保证 这 一 点 )。 类 似 地 ， 同 样 不 能 保证 信件 一 定 会 按 
照 特定 的 顺序 发 出 或 收 到 。 

如 果 读 者 还 有 兴趣 看 看 更 多 UDP 套 接 字 的 用 法 的 例子 , 可 以 参考 网 络 和 系统 编程 方面 的 大 量 教科 书 。 
12.4 网 络 实现 的 分 层 模 型 














内 核 网 络 子 系统 的 实现 与 本 章 





头 介 绍 的 TCP/IP 参 考 模型 非常 相似 。 
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相关 的 C 语 言 代码 划分 为 不 同 


层次 ， 各 层次 都 有 明确 定义 的 人 














接口 与 上 下 紧邻 的 层次 通信 。 这 种 
通常 的 以 太 网 卡 不 仅 可 用 于 建立 因 
或 I PX， 而 无 须 对 网 卡 的 设备 驱动 程序 做 任何 类 型 

图 12-3 说 明了 内 核对 这 个 分 层 模 型 的 实现 。 


与 | 
































特 网 CIP) 连接 ， 











改 法 的 好 处 在 于 ， 可 以 组 合 使 用 


E 务 ， 各 个 层次 




















还 可 以 在 其 上 传输 其 他 类 型 
的 修改 。 






























































































用 户 空 间 
核 struct socket 
悄 用 层 EUSEESOSK 
传输 层 | Saueceoec 
SELUCE 特定 
网 络 层 ”| packet_ | ii 
和 协议 
struct net_device 
主机 到 网 络 层 ladene 区 
i 了 物理 传输 
特定 于 硬件 























网 络 子 系统 是 内 核 
里 了 大 量 特定 了 
数 调用 。 这 是 不 可 避免 的 ， 因 





涉及 下 





















































为 各 个 层次 有 多 种 纪 





协议 的 细节 和 微妙 之 处 ， 穿 越 各 层 的 代码 路 径 














于 跟踪 。 此 外 ， 其 9 
因特网 协议 。 
分 


























所 示 。 


层 模 型 不 仅 反映 在 网 络 子 系统 的 设计 上 ， 而 
各 层 产 生 和 传输 的 数据 进行 封装 的 方式 )。 通 和 常 ， 各 层 的 数 


涉及 的 数据 结构 通常 彼此 紧密 关联 。 为 降低 描述 上 复杂 怡 

















也 反 曙 















图 12-3 ”内 核 中 分 层 模型 的 实现 
最 广 、 要 求 最 高 的 部 分 之 一 。 为 什么 是 这 样 呢 ? 答案 是 ， 该 子 系统 处 
P 有 大 量 的 函数 指针 ， 而 没有 
日 合 方式 ， 这 显然 不 会 使 代码 路 径 变 得 更 清楚 或 更 易 











[» 








在 数 志 





协议 会 话 的 数据 


一 | 


各 种 设备 、 传 输 机 


居 传 输 的 方式 上 《或 更 精确 


只 能 通过 明确 定义 的 
央 和 协议 。 例 如 ， 
的 协议 ， 如 Appletalk 












直接 的 函 





























E 要 讲述 


下 文 的 内 容 3 








也 说 ， 对 

















局 都 














首部 和 数据 两 





部 分 组 成 ， 如 图 12-4 








部 

















净 荷 






































和 部 部 分 包含 了 与 数据 部 分 有 关 的 元 数 
有 用 数据 (或 净 荷 )。 

生 输 的 基本 单位 是 (以 太 
个 地 址 ， 这 是 数据 传输 的 











网 ) 帧 ， 网 
目的 地 ， 通 过 上 














的 硬 














高 





因特网 网 络 上 ， 这 是 互联 网 络 层 数据 。 














收 系统 必须 能 够 区 分 不 同 的 协议 类 型 ， 以 便 将 数 和 


卡 以 帧 为 


因为 通过 以 太 网 不 仅 可 以 传输 卫 分 组 ， 还 可 以 传输 其 





图 12-4 各 协议 层 的 数据 划分 为 首部 和 数据 
局 《目标 地 址 、 长 度 、 传 输 协议 类 型 等 )， 数 据 部 分 包含 

















部 分 





位 发 送 数据 。 帧 首部 部 分 的 主 数据 项 是 
外线 传 输 数据 时 也 需要 该 数据 项 。 
层 协 议 的 数据 在 封装 到 以 太 网 帧 时 ,将 协议 产生 的 首部 和 数据 二 元 组 封装 到 帧 的 数据 前 








标 系 统 














了 分。 在 


他 协议 的 分 组 ， 如 Appletalk 或 IPX 分 组 ， 接 








居 转 发 到 











E 确 的 例 程 进一步 处 到 


E。 分 析 数 据 并 查 明 使 





12.5 0U0U00000 597 











用 的 传输 协议 是 非常 耗 时 的 。 因此， 以 太 网 帧 的 首部 (和 所 有 其 他 现代 网 络 协议 的 首部 部 分 ) 包含 了 
一 个 标识 符 ， 唯 一 地 标识 了 帧 数据 部 分 中 的 协议 类 型 。 这 些 标识 符 〈 用 于 以 太 网 传输 ) 由 一 个 国际 组 
织 (IEEE) 分 配 。 

协议 栈 中 的 所 有 协议 都 有 这 种 划分 。 为 此 ， 传 输 的 每 个 帧 开始 都 是 一 系列 协议 首部 ， 而 后 才 是 应 
用 层 的 数据 ， 如 图 12-5 所 示 。" 








































































































以 太 网 帧 
Mac IP TCP | HTTP 
四 四 四 到 mm 
以 太 网 帧 的 净 荷 
IP 净 荷 
TCP 净 荷 





图 12-5 在 以 太 网 帧 中 通过 TCP/ 耻 传输 HTTP 数 据 
图 12-5 清 楚 地 说 明了 为 容纳 控制 信息 所 牺牲 的 部 分 带宽 。 
12.5 ”网络 命名 空间 


回想 第 1 章 的 内 容 ， 我 们 知道 内 核 的 许多 部 分 包含 在 命名 空间 中 。 这 可 以 建立 系统 的 多 个 虚拟 视 
图 ， 并 彼此 分 隔 开 来 。 每 个 实例 看 起 来 像 是 一 台 运 行 Linux 的 独立 机 器 ， 但 在 一 台 物 理 机 器 上 ， 可 以 
同时 运行 许多 这 样 的 实例 。 在 内 核 版 本 2.6.24 开 发 期 间 ， 内 核 也 开始 对 网 络 子 系统 采用 命名 空间 。 这 
对 该 子 系统 增加 了 一 些 额 外 的 复杂 性 ， 因 为 该 子 系统 的 所 有 属性 在 此 前 的 版 本 中 都 是 “全 局 ”的 ， 而 
现在 需要 按 命 名 空间 来 管理 ， 例 如 ， 可 用 网 卡 的 数量 。 对 特定 的 网 络 设备 来 说 ， 如 果 它 在 一 个 命名 空 
闻 中 可 见 ， 在 另 一 个 命名 空间 中 就 不 一 定 是 可 见 的 。 

照例 需要 一 个 中 枢 结 构 来 跟踪 所 有 可 用 的 命名 空间 。 其 定义 如 下 : 


include/net/net_namespace.h 
struct net { 


atomic t count; /* 用 于 判断 何 时 释放 网 络 命名 空间 */ 
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struct list_head list;  /* 网 络 命名 空间 的 链表 */ 


struct proc_dir_entry *proc net; 
truct proc_ dir _ entry *proc net_stat; 
struct proc dir _ entry *proc net_root; 


[0 





struct net_device *loopback_dev; /* 环 回 接口 设备 */ 














struct list_ head dev_base_head; 
struct hlist _ head *dev_name head; 
struct hlist head *dev_index head; 








下 
使 网 络 子 系统 完全 感知 命名 空间 的 工作 才刚 刚 开 始 。 读 者 现在 看 到 的 情况 ， 即 内 核 版 本 2.6.24 中 
的 情况 ， 仍 然 处 于 开发 的 早期 阶段 。 因 此 ， 随 着 网 络 子 系统 中 越 来 越 多 的 组 件 从 全 局 管理 转换 为 可 感 

































































@ 图 12-5 中 , HTTP 首 部 部 分 和 数据 部 分 之 间 的 边界 通过 阴影 深浅 的 变化 来 表明 ， 因 为 这 个 划分 是 在 用 户 空间 而 不 是 
内 核 中 进行 的 。 
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0 120 0 


0 





知 命名 空间 的 实现 ，struct net 的 长 度 在 未 来 会 不 断 增长 。 现 在 ， 基 本 的 基 而 
的 跟踪 已 经 考虑 到 命名 空间 的 效应 ， 对 最 习 
已 尚未 讨论 网 络 实现 的 任何 有 具体 内 容 ，struct net 


对 网 络 设备 上 


于 本 书 





行文 过 程 


[ee 











方式 进行 处 理 


口 





口 


组 新 的 命名 空间 时 ， 会 
由 于 每 个 命名 空间 都 包含 不 
命名 空间 的 处 到 








的 即 可 。 


























， 这 一 点 会 逐渐 改变 )。 现 在 ， 





Coun t 是 一 个 标 














所 有 可 月 














目的 命名 空间 都 


copy_net_ns 函 数 癌 该 链表 添加 一 个 新 的 命名 空间 。 在 用 create_new_namespace 








准 的 使 





计数 器 , 在 使 











设施 已 经 转换 完毕 。 











Ph 引 月 
只 需要 简要 地 概述 一 下 


要 的 一 些 协议 
的 名 
哪些 概念 是 以 可 感知 命名 空间 


卜 




















特定 的 net 实 例 前 








和 put_net。 在 count 降 低 到 0 时 ， 将 释放 该 命名 空间 ， 
保存 在 一 个 双 链 表 上 ,， 表 头 是 net_namespace_1ist。list 用 作 链 表 元 


























动 调 














可 























需要 三 个 数据 


项 : /proc/net 


甩 该 函数 。 

















的 网 络 设备 ， 这 必然 会 反 旧 


Iiproc_ne 














后 , 需要 分 另 


将 其 从 系 





命名 空间 支持 也 是 可 用 的 。 
吉 构 当然 还 是 未 知 的 (但 在 本 章 


I 调用 辅 
统 中 删除 。 























的 











助 函 数 get_net 








创建 一 


到 procfs 的 内 容 上 (参见 10.1 节 )。 各 
t 表 示 , 而 /proc/net/stats 























proc_ 


net_stats 表 示 ，proc_net_root 指 向 当前 命名 空间 的 procfs 实 例 的 根 结 点 ， 即 /proc。 























每 个 命名 空间 者 
络 设备 。 
网 络 设备 




















可 以 有 一 个 不 


struct net_device 表 








不 。 





与 特定 命名 空间 关联 的 所 有 设备 都 保存 在 一 个 双 链 表 


司 的 环 回 设 备 ， 而 loopback_dqev 指 向 履行 该 职责 的 《虚拟 ) 网 





上 ， 表 头 为 dev_base_head。 各 个 设备 还 通过 另外 两 个 双 链 表 维 护 : 一 个 将 设备 名 用 作 散 列 


键 (dev_name_head)， 男 一 个 将 接 
口 ” 有 细 


请 注意 ， 术 语 “ 设 


D 可 以 是 纯 虚 拟 的 实体 ， 可 
对 我 们 来 说 ， 两 个 术语 的 
网 络 子 系统 的 许多 组 件 仍然 需要 做 很 多 工作 才能 正确 








备 ” 和 “ 接 











能 在 真正 的 设备 上 实现 。 例 如 














口 索引 





用 作 散 列 键 〈daev_inaqex_head)。 

























































































微 的 差别 。 0 D 表示 提供 物理 
， 一 个 网 卡 可 以 提供 两 个 接 

















区 别 不 那么 重要 ， 在 下 文中 将 交替 














使 


这 两 个 术语 。 




















处 理 























命名 空 





























传输 能 力 的 硬件 设备 ， 而 口 











间 , 要 使 网 络 子 系统 能 够 完全 感 


















































知 命名 空间 ， 还 有 相当 长 的 路 要 走 。 例 如 ， 内 核 版 本 2.6.25 在 撰写 本 章 时 ， 仍 处 于 开发 中 ) 将 开始 
一 些 最 初 的 准备 工作 ， 以 便 使 特定 的 协议 能 够 感知 到 命名 空间 : 
include/net/net_namespace.h 
struct net { 
struct netns_ packet packet; 
struct netns_unix unx; 
struct netns_ipv4 ipv4; 
if defined(CONFIG IPV6) || defined (CONFIG_ IPV6_MODULE) 
struct netns_ipv6 ipv6; 
engdif 
}3 
新 成 员 〈 如 ipv4) 用 于 存储 协议 参数 (此 前 是 全 局 的 )， 为 此 引入 了 特定 于 协议 的 结构 。 这 个 方 
法 是 逐步 进行 的 : 首先 设置 好 基本 框架 ， 后 续 的 各 个 步 又， 将 全 局 属性 迁移 到 各 命名 空间 的 表示 ， 这 
些 结构 最 初 都 是 空 的 。 在 未 来 的 内 核 版 本 中 ， 还 将 引入 更 多 此 类 代码 。 
每 个 网 络 命名 空间 由 儿 个 部 分 组 成 ， 例 如 ， 在 procfs 中 的 表示 。 每 当 创建 一 个 新 的 网 络 命名 空间 
时 ， 必 须 初 始 化 这 些 部 分 。 在 删除 命名 空间 时 ， 也 同样 需要 一 些 清 理工 作 。 内 核 采用 下 列 结构 来 跟踪 


所 有 必需 的 初始 化 /清理 




















元 组 。 








include/net/net_namespace.h 
struct pernet_ operations { 
struct list_ head list; 
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int (*init) (struct net *net); 
void (*exit) (struct net *net); 


}3 

这 个 结构 没什么 特别 之 处 : init 存 储 了 初始 化 函数 ， 而 清理 工作 由 exit 处 理 。 所 有 可 用 的 
pernet_operations 实 例 通过 一 个 链表 维护 ， 表 头 为 pernet_1list，1ist 用 作 链 表 元 素 。 辅 助 函数 
register_pernet_subsys 和 unregister_pernet_subsys 分 别 疝 该 链表 添加 和 删除 数据 元 素 。 每 当 
创建 一 个 新 的 网 络 命名 空间 时 ， 内 核 将 遍历 pernet_operations 的 链表 ， 用 表示 新 命名 空间 的 net 实 
例 作为 参数 来 调用 初始 化 函数 。 在 删除 网 络 命名 空间 时 ， 清 理工 作 的 处 理 是 类 似 的 。 

大 多 数 计算 机 通常 都 只 需要 一 个 网 络 命 名 空间 。 全 局 变量 init_net (在 这 里 ， 该 变量 实际 上 是 
全 局 的 ， 并 未 包含 在 另 一 个 命名 空间 中 ) 包含 了 该 命名 空间 的 net 实 例 。 为 了 简化 描述 ， 下 文中 忽略 
了 命名 空间 。 记 住 下 列 事实 就 足够 了 : 网 络 子 系统 实现 的 所 有 全 局 函数 ， 都 需要 一 个 网 络 命名 空间 作 
为 参数 ， 而 网 络 子 系统 的 所 有 全 局 属性 ， 只 能 通过 所 述 命 名 空间 迁 回 访问 。 


12.6 ” 套 接 字 缓冲 区 


在 内 核 分 析 《〈 收 到 的 ) 网 络 分 组 时 ， 底 层 协议 的 数据 将 传递 到 更 高 的 层 。 发 送 数据 时 顺序 相反 ， 
各 种 协议 产生 的 数据 《首部 和 净 荷 ) 依次 向 更 低 的 层 传递 ， 直 至 最 终 发 送 。 这 些 操作 的 速度 对 网 络 子 
系统 的 性 能 有 决定 性 的 影响 ， 因 此 内 核 使 用 了 一 种 特殊 的 结构 ， 称 为 0DDDUDUDD (socket buffer)， 
定义 如 下 : 

<skbuff.h> 


struct sk _ buff { 要 
/* 这 两 个 成 员 必 须 在 最 前 面 */ 













































































































































































































































































struct sk_ buff *next; 
struct sk_ buff *prev; 
struct sock *Ssk; 
ktime 七 tstamp; 
struct net_device *dev; 
struct dst_entry *dasts 
char cb[48]; 
unsigned int len, 
data_len; 
uli6 mac_len, 
hdr_len; 
union { 
__ Wwsum csum; 
struct { 
ul6 csum start; 
ul6 csum offset; 
3 
__u32 priority; 
V8 local dfs1, 
cloned:1, 
ip_summed:2, 
nohdr:1, 
nfetlintor3s 
_u8 pkt_type:3, 
fclone:2, 


ipvs_property:1; 














600 0 120 0 
nf_trace:1; 
_ bel6 Drotocols 
void (*destructor) (struct sk buff *skb); 
int 宇 了 在 7 
sk_buff_ aqata 七 transport_header; 
sk_buff_ data_t network_header; 
sk_buff_data_t mac_header; 
/* 这 些 成 员 必 须 在 末尾 ， 详 见 alloc_skb()*/ 
sk_buff _ data_t tail; 
sk_buff_ data_t end; 
unsigned char *head, 
*data; 
unsigned int truesize; 
atomic_t users; 
}; 





套 接 字 缓冲 区 用 于 在 网 络 实现 的 各 个 层次 之 间 











高 很 可 














要 处 理 








观 。 套 接 字 结构 是 网 络 子 系统 的 基石 之 一 ， 








12.6.1 





不 同 ， 


套 接 字 缓冲 区 的 基本 思想 是 ， 通 过 操作 指针 来 增 
口 head 和 engd 指 问 数 据 在 内 存 


该 结构 。 











读者 稍 后 就 会 看 到 )。 














使 用 套 接 字 缓 冲 区 管理 数据 
套 接 字 缓冲 区 通过 其 中 包含 的 各 种 指针 与 一 个 内 存 
中 ， 如 图 12-6 所 示 。 图 12-6 中 假定 我 们 使 月 











交换 数 扩 
因为 在 产生 和 分 析 分 组 时 ， 在 各 个 协议 层次 上 都 需 


居 ， 而 无 须 来 回 









































| 协议 首部 。 
bP 的 起 始 和 结束 位 置 。 











复 人 





区 域 相 关联 ， 网 络 分 组 的 数据 就 位 于 该 区 域 
目的 是 32 位 系统 〈 在 64 位 机 器 上 ， 套 接 字 绥 冲 区 的 组 织 稍 有 


证 分 组 数据 ， 对 性 能 的 提 























本 





OO 








口 gata 和 tail 指 向 协议 数据 








transport_header 


network_header 





区 域 的 起 始 和 结束 位 置 。 



























mac_header 








Gaul 

















图 12-6“ 套 接 字 绥 冲 











区 和 网 络 分 组 数据 之 间 的 关联 


口 mac_header 指 向 MAC 协 议 首部 的 起 始 , 而 network_header 和 transport_header 分 别 指 癌 网 











络 层 和 传输 层 协议 首部 的 起 始 。 在 字 长 32 位 的 系统 上 ， 数 据 类 型 sk_puff_qata_t 用 来 表示 各 


























种 类 型 为 简单 指针 的 数据 ; 
<skbuff.h> 














typedef unsigned char *sk buff data t; 
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这 使 得 内 核 可 以 将 套 接 字 缓冲 区 用 于 所 有 协议 类 型 。 正 确 地 解释 数据 需要 做 简单 的 类 型 转换 ， 为 
此 提供 了 几 个 辅助 函数 。 例 如 ， 套 接 字 缓冲 区 可 以 包含 TCP 或 UDP 分 组 。 来 自传 输 层 协议 首部 的 
对 应 信息 分 别 可 以 用 tcp_hdr 和 udp_hdr 提 取 。 这 两 个 函数 都 将 原始 指针 (raw pointer) 转换 为 某 
种 适当 的 数据 类 型 。 其 他 传输 层 协 议 也 提供 了 形 如 xxx_hgr 的 辅助 函数 ， 这 类 函数 需要 一 个 指向 
struct sk_buff 的 指针 作为 参数 ， 并 返回 重新 解释 的 传输 首部 数据 。 例 如 ， 观 察 如 何 从 套 接 字 
缓冲 区 获取 TCP 首 部 : 

<tcp.h> 


static inline struct tcphdr *tcp_ hdr(const struct sk buff *skb) 
{ 





































































































return (struct tcphdr *)skb transport_header (skb); 
} 


struct tcphar 是 一 个 结构 ， 包含 了 TCP 首 部 中 的 所 有 字段 。 该 结构 的 确切 布局 将 在 12.9.2 节 讨论 。 
还 有 其 他 类 似 的 转换 函数 供 网 络 子 系统 使 用 。 对 我 们 来 说 ，ip_hgr 是 最 重要 的 ， 它 用 于 解释 
一 个 IP 分 组 的 内 容 。 
data 和 tail 使 得 在 不 同 协 议 层 之 间 传 递 数据 时 ， 无须 显 式 的 复制 操作 ， 如 图 12-7 所 示 ， 其 中 展示 
了 分 组 的 合成 方式 。 
























































图 12-7 套 接 字 绥 冲 区 在 各 个 协议 层 之 间 传 递 时 ， 对 绥 冲 区 的 操作 


在 一 个 新 分 组 产生 时 ，TCP 层 首先 在 用 户 空间 中 分 配 内 存 来 容纳 该 分 组 数据 (首部 和 净 荷 )。 分 
配 的 空间 大 于 数据 实际 需要 的 长 度 ， 因 此 较 低 的 协议 层 可 以 进一步 增加 首部 。 

分 配 一 个 套 接 字 缓冲 区 ， 使 得 heada 和 endq 分 别 指向 上 述 内 存 区 的 起 始 和 结束 地 址 ， 而 TCP 数 据 位 
于 data 和 tail 之 间 。 
在 套 接 字 缓冲 区 传递 到 互联 网 络 层 时 ， 必 须 增 加 一 个 新 层 。 只 需要 向 已 经 分 配 但 尚未 占用 的 那 部 
分 内 存 空间 写 入 数据 即 可 ,除了 data 之 外 所 有 的 指针 都 不 变 ，data 现 在 指向 人 P 首 部 的 起 始 处 。 下 面 的 
各 层 会 重复 同样 的 操作 ， 直 至 分 组 完成 ， 即 将 通过 网 络 发 送 。 

对 接收 的 分 组 进行 分 析 的 过 程 是 类 似 的 。 分 组 数据 复制 到 内 核 分 配 的 一 个 内 存 区 中 ， 并 在 整个 分 
析 期 间 一 直 处 于 该 内 存 区 中 。 与 该 分 组 相关 联 的 套 接 字 缓冲 区 在 各 层 之 间 顺 序 传递 ， 各 层 依次 将 其 中 
的 各 个 指针 设置 为 正确 值 。 

内 核 提供 了 一 些 用 于 操作 套 接 字 缓冲 区 的 标准 函数 ， 在 表 12-1 列 出 。 
表 12-1 对 套 接 字 缓冲 区 的 操作 
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函 数 语 义 
alloc_skb 分 配 一 个 新 的 sk_buff 实 例 
skb_copy 创建 套 接 字 缓冲 区 和 相关 数据 的 一 个 副本 
skb_clone 趾 建 套 接 字 绥 冲 区 的 一 个 副本 ， 但 原本 和 副本 将 使 用 同一 分 组 数据 
skb_tailroom 返回 数据 未 端 空闲 空间 的 长 度 
skb_headroom 返回 数据 起 始 处 空闲 空间 的 长 度 
skb_realloc_headroom 在 数据 起 始 处 创建 更 多 的 空闲 空间 。 现 存 数据 不 变 
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套 接 字 缓冲 区 需要 很 多 指针 来 表示 缓冲 区 


























存 占 用 和 较 高 的 处 到 
64 位 CPU 上， 可 使 月 























<skbuff.h> 




















该 结构 的 长 度 缩减 了 20 字 节 。" 但 
的 指针 ， 而 所 有 sk_buff_gata 
现在 计算 如 下 : 





的 指名 


速度 》 








因而 对 struct sk_buff 来 说 ， 我 们 需要 保持 该 结构 的 
日 一 点 小 技巧 来 节省 一 些 空间 。sk_buff_data 








PF 内 容 的 不 同 部 分 。 由 于 网 络 子 系统 必须 
长 度 


t 的 定义 改 为 整 型 变 


保证 较 低 的 内 
尽 可 能 小 。 在 


里 : 















































typedef unsigned int sk buff data t; 


于 在 此 类 体系 结构 上 , 整 型 变量 占 

















用 的 内 存 上 只 有 指针 变量 的 一 半 ( 前 者 是 4 字 节 , 后 者 是 8 字 节 )， 





























! 套 接 字 绥 冲 区 中 包含 


的 信息 仍然 是 同样 的 。dqata 和 headq 仍 然 是 党 寺 








类 型 的 成 员 现在 都 解释 为 相对 了 


了 











人 k 























沈 
上 前 两 者 的 偏 移 量 。 指 向 传输 层 首 部 


光 旧 





























<skbuff.h> 
static inline unsigned char *skb transport header(const struct sk buff *skb) 


{ 


return skb->head + skb->transport_ header; 





























































































































































































































} 
这 种 做 法 是 有 效 的 ， 因 为 4 字 节 偏 移 量 足以 描述 长 达 4 GiB 的 内 存 区 ， 套 接 字 绥 冲 区 不 可 能 超过 这 
个 长 度 。 
于 假定 套 接 字 缓冲 区 的 内 部 表示 对 通用 网 络 代码 是 不 可 见 的 , 所 以 提供 了 如 下 几 个 辅助 函数 来 
访问 struct sk_buff 的 成 员 。 这 些 函 数 都 定义 在 <skbuff.h> 中 ， 编 译 时 会 自动 选择 其 中 适当 的 变 体 
使 用 。 
口 skb_transport_header (const struct sk_buff *skb) 从 给 定 的 套 接 字 组 冲 区 获取 传输 层 
首部 的 地 址 。 
口 skb_reset_transport_header (struct sk_buff *skb) 将 传输 层 首部 重 置 为 数据 部 分 的 起 
台 位 置 。 
口 skb set transport header (struct sk_ buff *skb, const int offset) 根 据 数 据 部 分 中 
给 定 的 偏 移 量 来 设置 传输 层 首部 的 起 始 地 址 。 
对 MAC 层 和 网 络 层 首 部 来 说 ， 也 有 同样 一 组 函数 可 用 ， 只 需 将 transport 分 别 奉 换 为 mac 或 
network 即 可 。 


12.6.2 ”管理 套 接 字 缓冲 区 数据 




















































































































套 接 字 缓冲 区 结构 不 仅 包含 上 述 指针 , 还 包括 用 于 处理 相关 的 数据 和 管理 套 接 字 缓冲 区 自身 的 其 
他 成 员 。 
其 中 不 常见 的 成 员 在 本 章 中 遇 到 时 才 会 讨论 。 下 面 列 出 的 是 一 些 最 重要 的 成 员 。 
口 tstamp 保 存 了 分 组 到 达 的 时 间 。 
口 dev 指定 了 处 理 分 组 的 网 络 设备 。aev 在 处 理 分 组 的 过 程 中 可 能 会 改变 ， 例 如 ， 在 未 来 某 个 时 
医 ， 分 组 可 能 通过 计算 机 的 另 一 个 设备 发 出 


口 


口 








输入 设备 的 接 


sk 是 一 个 指针 





D dst 表 示 接 下 来 该 分 组 通 ; 


论 。 




















口 索引 





Do 


| 号 总 是 保存 在 iif 中 。12.7.1 节 会 解释 如 何 使 用 该 编号 。 









































， 指 向 用 于 处 理 该 分 组 的 套 接 字 对 应 的 socket 实 例 〈 参 见 12.10.1 节 )。 
过 内 核 网 络 实现 的 路 由 。 这 里 使 用 了 一 个 特殊 的 格式 ， 将 在 12.8.5 节 讨 

















QD 由 于 在 32 位 系统 上 整数 和 指针 的 位 长 相同 ， 所 以 该 技巧 是 不 起 作 



































的 。 





12.7 00000 603 





























Hl 

















用 内 核 的 标准 链表 实现 ， 








中 。 这 里 没有 使 








A 


口 next 和 prev 用 于 将 套 接 字 缓冲 区 保存 到 一 个 双 链 于 
而 是 使 用 了 一 个 手工 实现 的 版 本 。 
使 用 了 一 个 表 头 来 实现 套 接 字 缓冲 区 的 等 待 队列 。 其 结构 定义 如 下 ; 
<skbuff.h> 
struct sk_ buff _ head { 

/* 这 两 个 成 员 必须 在 最 前 面 */ 

struct sk buff *next; 

struct sk buff *prev; 


















































U32 qlen; 
spinlock 七 lock; 
}3 


dlen 指 定 了 等 竺 队列 的 长 度 ， 即 队列 中 成 员 的 数目 。sk_buff_head 和 sk_buff 的 next 和 prev 用 
于 创建 一 个 循环 双 链 表 ， 套 接 字 缓冲 区 的 1ist 成 员 指 回 到 表 头 ， 如 图 12-8 所 示 。 









































图 12-8 通过 双 链 表 管 理 套 接 字 缓冲 区 
分 组 通常 放置 在 等 待 队 列 中 ， 例 如 分 组 等 待 处 理 时 ， 或 需要 重新 组 合 已 经 分 析 过 的 分 组 时 。 


12.7 网络 访问 层 


前 面 讲 述 了 Linux 内 核 中 网 络 子 系统 的 结构 ， 现 在 我 们 把 注意 力 转 向 网 络 实现 的 第 一 层 ， 即 网 络 
访问 层 。 该 层 主要 负责 在 计算 机 之 间 传 输 信息 ， 与 网 卡 的 设备 驱动 程序 直接 协作 。 

本 节 不 会 讨论 网 卡 驱动 程序 的 实现 和 相关 的 问题 ”, 因为 其 中 采用 的 方法 与 第 6 章 的 描述 仅 稍 有 不 
同 。 本 节 将 详细 介绍 由 各 个 网 卡 驱动 程序 提供 、 由 网 络 实现 代码 使 用 的 接口 ， 它 们 提供 了 硬件 的 抽象 
视图 。 
这 里 根据 以 太 网 帧 来 解释 如 何在 “ 线 上 ”(onthe cable) 表示 数据 ， 并 描述 接收 到 一 个 分 组 之 
将 该 分 组 传递 到 更 高 层 之 前 ， 需 要 完成 哪些 步骤 。 这 里 还 描述 了 与 之 相反 的 步骤 ， 即 分 组 产生 之 后 ， 
通过 网 络 接口 离开 计算 机 之 前 ， 要 执行 的 步骤 。 

12.7.1 网 络 设备 的 表示 

在 内 核 中 ， 每 个 网 络 设备 都 表示 为 net_device 结 构 的 一 个 实例 。 在 分 配 并 填充 该 结构 的 一 个 实 
例 之 后 ， 必 须 用 net/core/dev.c 中 的 register_netdev 函 数 将 其 注册 到 内 核 。 该 函数 完成 一 些 初 始 
化 任务 ， 并 将 该 设备 注册 到 通用 设备 机 制 内 。 这 会 创建 一 个 sysfs 项 (参见 10.3 节 ) /sys/class/net/ 
<device>， 关 联 到 该 设备 对 应 的 目录 。 如 果 系 统 包 含 一 个 PCI 网 卡 和 一 个 环 回 接 口 设备 ， 则 在 
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Q 尽管 这 可 能 很 有 趣 ， 但 不 是 因为 技术 原因 ， 而 是 因为 产品 策略 的 原因 。 
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/sys/class/net 中 有 了 两 个 对 应 项 : 


root@meitner # ls -1 /sys/class/net 
total 0 


Jrwxrwxrwx 1 root root 0 2008-03-09 09:43 eth0 





A 


0000:02:00.0/net/eth0 


lrwxrwxrwx 1 root root 0 2008-03-09 09:42 lo -> ../. 


1. 数据 结构 


在 详细 讨论 struct net_device 的 内 容 之 前 ， 先 阐述 一 下 内 核 如 何 
何 查 找 特定 的 网 络 设备 。 照 例 ， 这 些 设备 不 是 全 局 的 ， 而 是 按 命 名 空 
间 (net 实 例 ) 中 有 如 下 3 个 机 制 可 用 。 
口 所 有 的 
口 按 设备 名 散 列 。 
设备 名 在 该 散 列 表 上 查找 网 络 设备 。 


命名 空 

















跟踪 可 








的 网 络 设备 ， 


























间 进 行 管理 的 。 





























网 络 设备 都 保存 在 一 
辅助 


个 单 链 





长 中 ， 表 头 为 aev_base。 





























口 按 接口 索引 散 列 。 辅 助 孙 数 dev_get_by_index(struct net * net, 
定 的 接口 索引 查找 net_qdevice 实 例 。 












































/devices/pci0000:00/0000:00:1c.5/ 


./devices/virtual/net/lo 


以 及 如 


回想 一 下 ， 每 个 


器 想 


隙 数 dev_get_by_name (struct net * net，const char * name) 根 据 


int ifindex) 根 据 给 


net_device 结 构 包 含 了 与 特定 设备 相关 的 所 有 信息 。 该 结构 的 定义 有 200 多 行 代码 ， 是 内 核 中 


最 庞大 的 乡 





二 构 。 






































当 长 。 代码 如 下 所 示 : 


<netdevice.h> 
struct net_device 


{ 


char name [IFNAMSIZ]; 
/* 设备 名 散 列 链表 的 链表 元 素 */ 


struct hlist node name hlist; 
































/* 工 /0 相关 字段 */ 

unsigned long mem_end; /* 共享 内 存 结束 位 置 */ 
unsigned long mem_ start; /* 享 内 存 起 始 位 置 */ 
unsigned long base_addr; /* 设备 I/0 地 址 */ 
unsigned int irqg; /* 设备 IRQ 编 号 «y 
unsigned long state; 

struct list_ head dev_list; 

int (*init) (struct net_device *dev); 

/* 接口 索引 。 唯 一 的 设备 标识 符 */ 

oh ifindex; 


struct net_ device stats* (*get_ stats) (struct net_ device *dev); 




























































































因为 该 结构 中 有 很 多 细节 ， 所 以 ， 尽 管 下 文 给 出 的 版 本 经 过 了 大 量 的 简化 ， 仍 然 相 


/* 硬件 首部 描述 */ 
const struct header_ops *header_ops; 
unsigned short flags; /* 接口 标志 ( 按 BsD 方 式 ) */ 
unsigned mtu; /* 接口 MTU 值 
unsigned short type; /* 接口 硬件 类 型 */ 
unsigned short hard_header_len; /* 硬件 首部 长 度 Nj 
/* 接口 地 址 信息 。 */ 

Q 内 核 开发 者 对 该 结构 的 当前 状态 也 不 十 分 满意 。 源 代码 声称 :“ 实 际 上 ， 整 个 结构 就 是 一 个 大 错误 。” 
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unsigned char 


perm_addr [MAX_ADDR_LEN] ; /* 持久 硬件 地 址 */ 









































unsigned char addr_len; /* 硬件 地 址 长 度 并 7 

了 工 前世 promiscuity; 

/* 协议 相关 指针 */ 

void *atalk_ptr; /* AppleTalk 相 关 指 针 */ 

void *ip_ptr; /* IPv4 相 关 数 据 */ 

void *dn_ptr; /* DECnet 相 关 数 据 % 

void *ip6_ptr; /* IPv6 相 关 数 据 */ 

void *ec_ptr; /* Econet 相 关 数 据 */ 

unsigned long last_rx; /* 上 一 次 接收 操作 的 时 间  */ 

unsigned long trans_start; /* 上 一 次 发 送 操作 的 时 间 (以 jiffies 为 单位 〉*/ 
/* eth_type_trans() 所 用 的 接口 地 址 信息 */ 
unsigned char dev_addr [MAX_ADDR_LEN] ; /* 便 件 地 址 ，( 在 bcast 成 员 之 前 ， 

于 为 大 多 数 分 组 都 是 单 播 ) */ 

unsigned char broadcast [MAX_ADDR_LEN] ; /* 便 件 多 播 地 址 */ 


int (*hargd_ start_ xmit) 














/* 在 设备 与 网 络 断 
void 
/* 在 最 后 一 个 用 户 引 


void 





后 调用 */ 















































服务 例 程 的 指针 * 





/* 指向 接 
int 
int 
void 
主攻 
Te 
int 
int 


void 
int 


2 


























(struct sk_ buff *skb, 
struct net_device *dev); 


(*uninit) (struct net_device *dev); 








消失 后 调用 */ 








(*destructor) (struct net_device *dev); 


(*open) (struct net_ device *dev); 
(*stop) (struct net_ device *dev); 


(*set_multicast_list) (struct net_device *dev); 
(*set_mac_address) (struct net_device *deyv, 
void *addr); 


(*do_ioctl1) (struct net_device *deyv, 
struct ifreq *ifr, int cmd); 

(*set_config) (struct net_ device *dev, 
struct ifmap *map); 

(*change mtu) (struct net_ device *dev, int new mtu); 


(*tx_ timeout) (struct net_device *dev); 


(*neigh setup) (struct net_ device *dev, struct neigh parms *); 


/* 该 设备 所 在 的 网 络 命名 空间 */ 


struct net *nd_net; 


/* class/net/name 项 */ 
struct device dev; 





的 缩写 ， 即 接收 和 发 送 ， 在 以 后 几 节 








该 结构 中 出 现 的 缩写 rx 和 tx 会 经 常用 于 函数 名 、 变 量 名 和 注释 中 。 二 者 分 别 是 Receive 和 Transmit 




















bm 


会 反复 出 现 。 








606 


0 120 0 


0 




















网 络 设备 的 名 称 存 储 在 name 中 ,。 它 是 一 个 字符 串 , 末尾 的 数字 用 于 区 分 同一 类 型 的 多 个 适配器 (如 











系统 有 

















个 以 太 网 卡 )。 表 12-2 列 出 了 最 常见 的 设备 类 别 。 


表 12-2 网络 设备 的 命名 





















































名 和 设备 类 别 
ethx 以 太 网 适配器 ， 无 论 电缆 类 型 和 传输 速度 如 何 
PPPX 通过 调制 解 调 器 建立 的 PPP 连 接 
isdnx ISDN 卡 
atrmX DOD00D0D0 (asynchronous transfer mode) ， 高 速 网 卡 的 接 
lo 吕 D (loopback) 设备 ， 用 于 与 本 地 计算 机 通信 
例如 ， 在 使 用 ifconfig 设 置 参数 时 ， 会 使 用 网 卡 的 符号 名 。 


在 内 核 
























































Ph， 每 个 网 卡 都 有 唯一 索引 号 ， 在 注册 时 动态 分 配 保存 在 ifingex 成 员 中 。 回 想 前 文 ， 我 

















们 知道 内 核 提 供 了 dev_get_by_name 和 dev_get_by_index 防 数 ， 用 于 根据 网 卡 的 名 称 或 索引 号 来 查 
找 其 net_device 实 例 。 


一 些 结构 成 员 定 义 了 与 网 络 层 和 网 络 访问 层 相关 的 设备 属性 。 
口 mtu (maximum transfer unit, 0] DODDDOD ， 指 定 一 个 传输 帧 的 最 大 长 度 。 网 络 层 的 协议 必须 
遵守 该 值 的 限制 ， 可 能 需要 将 分 组 拆 分 为 更 小 的 单位 。 
口 type 保 存 设备 的 硬 
ARPHDR_IEEE802 分 
ARPHRD_LOOPBACK 表 示 环 回 设备 。 
D dev_adqqr 存 储 设 备 的 便 件 地 址 〈 如 以 太 网 卡 的 MAC 地 址 )， 而 aadqr_len 指 定 该 地 址 的 长 度 。 






























































伯 类 型 ， 它 使 用 的 是 <if_arp.h> 中 定义 的 常数 。 例 如 ，RARPHRD_ETHER 和 
别 表示 10 兆 以 太 网 和 802.2 以 太 网 ，ARPHRD_APPLETLK 表 示 AppleTalk， 而 



































broadcast 是 用 于 向 附 接 的 所 有 站 点 发 送 消息 的 广播 地 址 。 





口 ip_ptr、ip6_ptr、atalk_ptr 等 指针 指向 特定 于 协议 的 数据 ， 通 用 代码 不 会 操作 这 些 数据 。 
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net_device 结 构 的 大 多 数 成 员 都 是 函数 指针 ， 执 行 与 网 卡 相关 的 典型 任务 。 尽 管 不 同 适配器 的 
实现 各 有 不 同 ， 但 调用 的 语法 〈 和 执行 的 任务 ) 总 是 相同 的 。 因 而 这 些 成 员 表 示 了 与 下 一 个 协议 层次 
的 抽象 接口 。 这 些 接口 使 得 内 核能 够 用 同一 组 接口 函数 来 访问 所 有 的 网 卡 ， 而 网 卡 的 驱动 程序 负责 实 


现 细节 。 
口 







































































open 和 stop 分 别 初始 化 和 终止 网 卡 。 这 些 操作 通常 在 内 核 外 部 通过 调用 ifconfig 命 令 触 发 。 

















open 负 责 初 始 化 硬件 寄存 器 并 注册 系统 资源 ， 如 中 断 、DMA 、IO 端 口 等 。close 释 放 这 些 资 


源 ， 并 停止 传输 。 





口 hard_start_xmit 用 于 从 等 待 队列 删除 已 经 完成 的 分 组 并 将 其 发 送出 去 。 
口 header_ops 是 一 个 指向 结构 的 指针 ， 该 结构 提供 了 更 多 的 函数 指针 ， 用 于 操作 人 硬件 首部 。 

其 中 最 重要 的 是 header_ops->create 和 header_ops->parse， 前 者 创建 一 个 新 的 硬件 首部 ， 
后 者 分 析 一 个 给 定 的 硬件 首部 。 
get_stats 查 询 统 计数 据 ， 并 将 数据 封装 到 一 个 类 型 为 net_device_stats 的 结构 中 返回 。 该 
结构 的 成 员 有 20 多 个 ， 都 是 一 些 数值 ， 如 发 送 、 接 收 、 出 错 、 委 弃 的 分 组 的 数目 等 。( 统 计 学 
爱好 者 可 用 ifconfig 和 netstat -i 查询 这 些 数 据 。) 
因为 net_qevice 结 构 没 有 提供 存储 net_device_stats 对 象 的 专用 字段 ， 各 个 设备 驱动 程序 
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必须 在 私有 数据 区 保存 该 对 象 。 

口 调用 tx_timeout 来 解决 分 组 传输 失败 的 问题 。 

口 do_ioct1 将 特定 于 设备 的 命令 发 送 到 网 卡 。 

口 ng_get 是 一 个 指针 ， 指 向 设备 所 属 的 网 络 命名 空间 (由 struct net 的 一 个 实例 表示 )。 

有 些 函数 通常 不 是 由 特定 于 驱动 程序 的 代码 来 实现 的 ,它们 对 所 有 的 以 太 网 卡 都 是 相同 的 。 因 而 
内 核 提 供 了 默认 实现 (在 net/ethernet /net.c 中 )。 

口 change_mtu 是 由 eth_change_mtu 实 现 的 ， 负 责 修改 0 0 0 DODDO 。 以 太 网 的 默认 值 是 1.5 

KiB， 其 他 传输 技术 各 有 不 同 的 默认 值 。 在 某 些 情况 下 ， 增 大 / 减 小 该 值 是 有 用 的 。 但 许多 网 卡 
不 允许 这 样 做 ， 只 支持 默认 的 人 硬件 设置 。 

口 header_ops->create 的 默认 实现 是 eth_header。 该 函数 为 现存 的 分 组 数据 生成 网 络 访 问 层 
首部 。 

口 header_ops->parse (通常 由 eth_header_parse 实 现 ) 获取 给 定 的 分 组 的 源 硬件 地 址 。 

可 以 将 一 个 ioctL《〈 参 见 第 8 章 ) 应 用 到 套 接 字 的 文件 描述 符 ， 从 用 户 空 间 修改 对 应 的 网 络 设备 的 
配置 。 必 须 指 定 <sockios.nh> 中 定义 的 某 个 符号 常数 ， 表 明 修 改 配 置 的 哪 一 部 分 。 例 如 ， 
SIOCGIFHWADDR 人 负责 设置 网 卡 的 人 硬件 地 址 ， 内 核 最 终 将 该 任务 委派 给 net_qdevice 实 例 的 
set_mac_address 了 水 数 。 设备 相 关 的 常数 会 传递 给 do_ioct1i 函 数 处 理 。 由 于 有 许多 调节 选项 ,， 具体 的 
实现 非常 见长， 我 们 对 此 也 不 是 特别 感 兴趣 ， 就 不 在 这 里 讨论 了 。 

网 络 设备 分 两 个 方向 工作 ， 即 发 送 和 接收 (这 两 个 方向 通常 称 为 0 DD 和 0 D DO )?。 内 核 源 代码 
包含 了 两 个 驱动 程序 框架 (drivers/net 中 的 ijsa-skeleton.c 和 pci-skeleton.c)， 可 用 作 网 络 驱 
动 程序 的 模板 。 在 下 文中 ， 主 要 关注 驱动 程序 与 硬件 的 交互 ， 但 又 不 想 局 限于 某 种 特定 的 专 有 网 卡 类 
型 时 ， 偶 尔 会 引用 这 两 个 驱动 程序 。 与 对 人 硬件 进行 编程 相 比 ， 我 们 对 内 核 与 硬件 通信 所 用 的 接口 更 感 
兴趣 ， 这 也 是 我 们 在 下 文 详细 介绍 这 些 接口 的 原因 。 下 面 将 介绍 如 何 将 网 络 设备 注册 到 内 核 中 。 

2. 注册 网 络 设备 

每 个 网 络 设备 都 按照 如 下 过 程 注册 。 

(1) alloc_netdev 分 配 一 个 新 的 struct net_device 实 例 ， 一 个 特定 于 协议 的 函数 用 典型 值 
该 结构 。 对 于 以 太 网 设备 ， 该 函数 是 ether_setup。 其 他 的 协议 (这 里 不 详细 介绍 ) 会 使 用 
XXX_setup 的 函数 ， 其 中 XXX 可 以 是 faqi (fiber distributed data interface， 光 纤 分 布 式 数据 接口 )、 
(token ring， 令 牌 环 网 )、1ltalk〈 指 Apple LocalTalk)、hippi (high-performance parallel interface， 
性 能 并 行 接口 ) 或 fc (fiber channel， 光 纤 通 道 )。 
内 核 中 的 一 些 伪 设备 在 不 绑 定 到 硬件 的 情况 下 实现 了 特定 的 接口 ， 它 们 也 使 用 了 net_gevice 框 
架 。 例 如 ，ppp_setup 根 据 PPP 协 议 初 始 化 设备 。 内 核 源 代码 中 还 可 以 找到 几 个 XXx_setup 函 数 。 

(2) 在 struct net_device 填 充 完毕 后 ， 需 要 用 register_netdev 或 register_netdevice 注 册 。 
这 两 个 函数 的 区 别 在 于 ，register_netdev 可 处 理 用 作 接 口 名 称 的 格式 串 (有 限 )。 在 
net_device->dev 中 给 出 的 名 称 可 以 包含 格式 说 明 符 %g。 在 设备 注册 时 ， 内 核 会 选择 一 个 唯一 的 数字 
来 代替 sdqa。 例 如， 以 太 网 设备 可 以 指定 ethgsdq， 而 内 核 随后 会 创建 设备 eth0、eth1.…… 

便捷 函数 alloc_etherdev(sizeof priv) 分 配 一 个 struct net_device 实 例 ， 外 加 
sizeof_priv 字 节 私 有 数据 区 。 回 想 前 文 可 知 ，net_qevice->priv 是 一 个 指针 ， 指 向 与 设备 相关 联 
的 特定 于 驱动 程序 的 数据 。 此 外 ， 还 调用 了 上 面 提 到 的 ether_setup 来 设置 特定 于 以 太 网 的 标准 值 

register_netdevice 的 各 个 处 理 步骤 概括 为 图 12-9 中 的 代码 流程 图 。 
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register netdevice 


有 初始 化 函数 吗 ? 


检查 名 称 和 特性 









net_device->init 








netdev register kobject 








插入 到 特定 命名 空间 有 


链表 和 散 列表 中 
























































































































































图 12-9 ”register_netdevice 的 代码 流程 图 
如 果 net_qevice->init 提 供 了 特定 于 设备 的 初始 化 函数 ， 那 么 内 核 在 进一步 处 理 之 前 ， 将 先 调 
用 该 函数 。 由 aev_new_index 生 成 在 所 属 命名 空间 中 标识 该 设备 的 接口 索引 。 该 索引 保存 在 
net_qevice->ifindex 中 。 在 确保 所 选择 的 名 称 尚 未 使 用 ， 而 且 没 有 指定 自 相 矛盾 的 设备 特性 〈 所 文 
持 特 性 的 列表 ， 请 参见 <netdevice.n> 中 的 NETIF_F_*) 后 ， 用 netdev_register_kobject 将 新 设备 


添加 至 


























12.7.2 ”接收 分 组 


分 组 到 达 内 核 的 H 





中 断 被 引发 











在 一 定时 间 




















后 进行 处 理 








索引 为 散 


对 间 是 不 可 预测 的 。 所 有 现 
知 内 核 〈 或 系统 ) 有 分 组 到 达 。 网 络 驱 动 程序 对 特定 于 设备 的 中 断 设 置 了 一 个 处 理 


列 键 的 本 









































了 该 处 至 





时 《 即 分 组 到 达 )， 内 核 都 调 





个 散 列 


尺 的 设备 驱动 程 


LE 程序 ， 将 数据 从 网 卡 传输 到 物理 














1 通用 内 核对 象 模型 中 。 该 函数 还 会 创建 上 文 提 到 的 sysfs 项 。 最 后 ， 该 设备 集成 到 特定 命名 空间 
的 链表 中 ， 以 及 以 设备 名 和 接 





表 中 。 











序 都 使 











] 中 断 在 第 14 章 讨论 ) 来 通 
例 程 ， 因 此 每 当 该 
内 存 ， 或 通知 内 术 
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1. 传统 方法 








































































































































































































当前 ， 内 核 为 分 组 的 接收 提供 了 两 个 框架 。 其 中 一 个 很 早 以 前 就 集成 到 内 核 中 了 ， 因 而 称 为 口 口 
0D 。 但 与 超 高 速 网 络 适 配器 协作 时 ， 该 API 会 出 现 问 题 ， 因 而 网 络 子 系统 的 开发 者 已 经 设计 了 一 种 
新 的 API (通常 称 为 NAPI”)。 我 们 首先 从 传统 方法 开始 ， 因 为 它 比较 易于 理解 。 另 外 ， 使 用 旧 API 的 
适配器 较 多 , 而 使 用 新 API 的 较 少 。 这 没有 问题 因为 其 物理 传输 速度 没 那 么 高 , 不 需要 新 方法 。NAPTI 
在 稍 后 讨论 。 

图 12-10 给 出 了 在 一 个 分 组 到 达 网 络 适配器 之 后 ， 该 分 组 穿 过 内 核 到 达 网 络 层 函 数 的 路 径 。 

因为 分 组 是 在 中 断 上 下 文中 接收 到 的 ， 所 以 处 理 例 程 具 能 执行 一 些 基 本 的 任务 ， 避 免 系 统 〈 或 当 
前 CPU) 的 其 他 任务 延迟 太 长 时 间 。 

在 中 断 上 下 文中 ， 数 据 由 3 个 短 函数 ”处 理 ， 执 行 了 下 列 任务 。 
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© 





尽管 这 个 名 字 很 确切 地 描述 了 与 旧 


的 API 相 




















比 该 API 是 新 的 , 但 这 种 命名 方案 的 可 作 





不 太 可 能 ， 
露出 什么 可 能 导致 建 立新 API 的 严 习 





那么 该 API 的 下 一 个 修订 版 采 











人 








问题， 








大 | 











函数 名 net_rx 和 net_interrupt 取 





自 驱 动 








种 名 称 ， 仍 然 是 一 个 有 趣 的 话题 。 但 
此 在 命名 问题 急 
程序 框架 isa-skeleton.c。 在 其 他 的 驱动 程序 中 ， 名 称 可 














缩 性 不 好 。 由 于 NNAPI 貌 似 还 


于 当前 的 技术 现状 并 没有 暴 
待 解决 之 前 ， 可 能 还 有 很 长 一 段 时 间 。 






































台 已 下 
且 无 


不 同 的 。 
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net rx action 


domsoftargo 













各 CPU 
等 待 队 列 








于 驱动 程序 的 代码 


net_interrupt, net_ rx)dev.c 
图 12-10 ”接收 到 的 分 组 穿 过 内 核 的 路 径 


(1) net_interrupt 是 由 设备 驱动 程序 设置 的 中 断 处 理 程序 。 它 将 确定 该 中 断 是 否 真 的 是 由 接收 
到 的 分 组 引发 的 〈 也 存在 其 他 的 可 能 性 ， 例 如 ， 报 告 错 误 或 确认 某 些 适配器 执行 的 传输 任务 )。 如 果 
确实 如 此 ， 则 控制 将 转移 到 net_rx。 

(2) net_rx 函 数 也 是 特定 于 网 卡 的 ， 首 先 创建 一 个 新 的 套 接 字 缓 冲 区 。 分 组 的 内 容 接 下 来 从 网 卡 
传输 到 缓冲 区 (也 就 是 进入 了 物理 内 存 )， 然 后 使 用 内 核 源 代码 中 针对 各 种 传输 类 型 的 库 函 数 来 分 析 
首部 数据 。 这 项 分 析 将 确定 分 组 数据 所 使 用 的 网 络 层 协 议 ， 例 如 IP 协 议 。 

(3) 与 上 述 两 个 方法 不 同 ，netif_rx 函 数 不 是 特定 于 网 络 驱 动 程序 的 ， 该 函数 位 于 net/core/ 
dev.c。 调 用 该 函数 ， 标 志 着 控制 由 特定 于 网 卡 的 代码 转移 到 了 网 络 层 的 通用 接口 部 分 。 

该 函数 的 作用 在 于 ， 将 接收 到 的 分 组 放置 到 一 个 特定 于 CPU 的 等 等 队列 上 ， 并 退出 中 断 上 下 文 ， 
使 得 CPU 可 以 执行 其 他 任务 。 

内 核 在 全 局 定义 的 softnet_dqata 数 组 中 管理 进出 分 组 的 等 竺 队列， 数组 项 类 型 为 
softnet_data。 为 提高 多 处 理 器 系统 的 性 能 ， 对 每 个 CPU 都 会 创建 等 待 队列 ， 文 持 分 组 的 并 行 处 理 。 
不 心 使 用 显 式 的 锁 机 制 来 保护 等 待 队列 免 受 并 发 访问 ， 因 为 每 个 CPU 都 只 修改 自身 的 队列 ， 不 会 干扰 
其 他 CPU 的 工作 。 下 文 将 忽略 多 处 理 器 相关 内 容 ， 只 考虑 单 “softnet_data 等 待 队列 ” 避免 过 度 复 


杂 化 。 



















































































































































































































































































































































































































































目前 只 对 该 数据 结构 的 一 个 成 员 感 兴趣 : 


<netdevice.h> 
struct softnet_data 


{ 
| struct sk _ buff head input_pkt_queue; 
}; 
input_pkt_queue 使 用 上 文 提 到 的 sk_buff_heaq 表 头 ， 对 所 有 进入 的 分 组 建立 一 个 链表 。 
netif_rx 在 结束 工作 之 前 将 软 中 断 NET_RX_SOFTIRQ 标 记 为 即将 执行 (更 多 信息 请 参考 第 14 章 )， 
然后 退出 中 断 上 下 文 。 
net_rx_action 用 作 该 软 中 断 的 处 理 程序 。 其 代码 流程 图 在 图 12-11 给 出 。 请 记 住 ， 这 里 描述 的 
是 一 个 简化 的 版 本 。 完 整 版 包含 了 对 高 速 网 络 适配器 引入 的 新 方法 ， 将 在 下 文 介绍 。 
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net_rx_action 















述 ， 假 定 循环 














process_backlog 


__skb _ dequeue 


netif receive_ skb 


deliver_skb 












裔 历 所 有 
分 组 类 型 























(2) 











图 12-11 net_rx_action 的 代码 流程 图 
在 一 些 准 备 任 务 之 后 ， 工 作 转 移 到 process_backlog， 该 函数 在 循环 中 执行 下 列 步骤 。 为 简化 描 
直 进 行 ， 直 至 所 有 的 待 决 分 组 都 处 理 完成 ， 不 会 被 其 他 情况 中 断 。 
(1) skb_dequeue 从 等 待 队列 移 除 一 个 套 接 字 缓 冲 区 ， 该 缓冲 区 管理 着 一 个 接收 到 的 分 组 。 
Inetif receive_skb 畏 数 分 析 分 组 类 型 ， 以 便 根据 分 组 类 型 将 分 组 传递 给 网 络 层 的 接收 函 
数 〈 即 传递 到 网 络 系统 的 更 高 一 层 )。 为 此 ， 该 函数 裔 历 所 有 可 能 负责 当前 分 组 类 型 的 所 有 网 络 层 函 











数 ， 一 一 调用 deliver_skb。 


接 下 来 deliver_skb 函 数 使 月 

















互联 网 络 层 ) 的 处 理 
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netif_receive_skb 也 处 型 
类 特性 都 


问 层 接收 数据 的 网 络 层 函数 都 注册 在 一 个 散 列 表 中 


I 


F 均 水 准 的 系统 中 ， 此 





所 有 用 于 从 底层 的 网 络 访 


ptype_base 实 现 。? 
新 的 协议 通 


<netdevice.h> 


















































属于 边缘 情况 。 











过 aev_aqq_pack 增 加 。 各 个 数组 项 的 类 下 


struct Packet_type { 


_ bel6 type; 
struct net_device *dev; 
in (*func) 
void 


struct list_head 


}3 


type 指 定 了 协议 的 标识 


一 个 特定 于 分 组 类 型 的 处 理 


诸如 桥接 之 类 的 专门 特性 , 但 讨论 这 些 边 





Packet_type->func 


例如 ip_rcv 
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青 况 是 不 必要 的 ， 3 
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/* 这 实际 上 是 htons (ether_type) 的 值 。 
/* NULL 在 这 里 表示 通配符 */ 

(struct sk buff *, 

struct net_device *, 

struct packet_type *, 

struct net_device *); 


A 











*af_ packet_priv; 


1 





AN 


付 ， 














处 至 




















(NULL 指 针 表 示 该 处 理 


























该 函数 。 其 中 





个 处 理 











程序 就 是 ip_rcv， 


程序 会 使 用 该 标识 
程序 对 系统 中 所 有 网 
func 是 该 结构 的 主要 成 员 。 它 是 一 个 指向 网 络 层 函数 的 指针 ， 如 果 分 组 的 类 型 








型 为 struct packet_type， 定 义 如 下 : 








E 序 func， 承 担 对 分 组 的 更 高 层 (例如 


E 少 在 


通过 全 局 数组 








符 。dev 将 一 个 协议 处 理 



































netif_receive_skb 对 给 定 的 套 接 字 缓冲 


分 组 的 职责 委托 给 网 络 





Q 实际 上 ， 还 有 男 一 个 分 组 处 理 程序 的 链表 。ptype_all 包 含 了 对 所 有 分 组 类 型 调 
































慨 ， 这 是 网 络 实现 中 更 高 的 一 层 。 























程序 绑 定 到 特定 的 网 卡 




















络 设备 都 有 效 )。 
适当 , 将 其 传递 给 
] 于 基于 IPv4 的 协议 ， 在 下 文 讨论 。 
文 查找 适当 的 处 理 程序 ， 并 调用 其 func 函 数 ， 将 
的 分 组 处 理 程序 。 
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2. 对 高 速 接口 的 支持 

如 果 设 备 不 支持 过 高 的 传输 率 , 那么 此 前 讨论 的 旧式 方法 可 以 很 好 地 将 分 组 从 网 络 设备 传输 到 内 
核 的 更 高 层 。 每 次 一 个 以 太 网 帧 到 达 时 ， 都 使 用 一 个 IRQ 来 通知 内 核 。 这 里 暗含 着 “ 快 ” 和 “ 慢 ” 的 
概念 。 对 低速 设备 来 说 ， 在 下 一 个 分 组 到 达 之 前 ，IRQ 的 处 理 通常 已 经 结束 。 由 于 下 一 个 分 组 也 通过 
IRQ 通 知 ， 如 果 前 一 个 分 组 的 耻 Q 尚 未 处 理 完 成 ， 则 会 导致 问题 ， 高 速 设备 通常 就 是 这 样 。 现 代 以 太 
网 卡 的 运作 高 达 10 000 Mbits， 如 果 使 用 旧式 方法 来 驱动 此 类 设备 ， 将 造成 所 谓 的 “中 断 风 暴 ” 如 果 
在 分 组 等 待 处 理 时 接收 到 新 的 了 RQ， 内 核 不 会 收 到 新 的 信息 : 在 分 组 进入 处 理 过 程 之 前 ， 内 核 是 可 以 
接收 IRQ 的 ， 在 分 组 的 处 理 结束 后 ， 内 核 也 可 以 接收 IRQ， 这 些 不 过 是 “旧闻 ”而 已 。 为 解决 该 问题 ， 
NAPI 使 用 了 IRQ 和 轮 询 的 组 合 。 

假定 某 个 网 络 适 配器 此 前 没有 分 组 到 达 , 但 从 现在 开始 , 分 组 将 以 高 频率 频繁 到 达 。 这 就 是 NAPI 
设备 的 情况 ， 如 下 所 述 。 

(1) 第 一 个 分 组 将 导致 网 络 适 配器 发 出 IRQ。 为 防止 进一步 的 分 组 导致 发 出 更 多 的 IRQ， 了 驱动 程序 
会 关闭 该 适配器 的 Rx IRQ。 并 将 该 适配器 放置 到 一 个 轮 询 表 上 。 

(2) 只 要 适配器 上 还 有 分 组 需要 处 理 ， 内 核 就 一 直 对 轮 询 表 上 的 设备 进行 轮 询 。 

(3) 重新 启用 Rx 中 断 。 

如 果 在 新 的 分 组 到 达 时 ， 旧 的 分 组 仍然 处 于 处 理 过 程 中 ， 工 作 不 会 因 额 外 的 中 断 而 减速 。 虽 然 对 
设备 驱动 程序 (和 一 般 意义 上 的 内 核 代 码 ) 来 说 轮 询 通常 是 一 个 很 差 的 方法 ， 但 在 这 里 该 方法 没有 什 
么 不 利之 处 : 在 没有 分 组 还 需要 处 理 时 ， 将 停止 轮 询 ， 设 备 将 回复 到 通常 的 [RQ 驱动 的 运行 方式 。 在 
没有 中 断 支 持 的 情况 下 ， 轮 询 空 的 接收 队列 将 不 必要 地 浪费 时 间 ， 但 NAPI 并 非 如 此 。 

NAPI 的 另 一 个 优点 是 可 以 高 效 地 丢弃 分 组 。 如 果 内 核 确 信 因 为 有 很 多 其 他 工作 需要 处 理 ， 而 导 
致 无 法 处 理 任 何 新 的 分 组 ， 那 么 网 络 适 配器 可 以 直接 丢弃 分 组 ， 无 须 复 制 到 内 核 。 

只 有 设备 满足 如 下 两 个 条 件 时 ， 才 能 实现 NAPI 方 法 。 

(1) 设备 必须 能 够 保留 多 个 接收 的 分 组 ， 例 如 保存 到 DMA 环 形 缓冲 区 中 。 下 文 将 该 缓冲 区 称 为 Rx 
缓冲 区 。 
(2) 该 设备 必须 能 够 禁用 用 于 分 组 接收 的 IRQ。 而 且 ， 发 送 分 组 或 其 他 可 能 通过 IRQ 进 行 的 操作 ， 
都 仍然 必须 是 启用 的 。 

如 果 系 统 中 有 多 个 设备 ， 会 怎么 样 呢 ? 这 是 通过 循环 轮 询 各 个 设备 来 解决 的 。 图 12-12 概 述 了 这 
种 情况 。 
































































































































































































































































































































































































































































































































































































































































































































































IRQ 信 和 号 
轮 询 各 设备 网 络 实现 
如 果 所 有 分 组 | 中 的 更 高 层 
都 已 经 处 理 ， 
则 从 轮 询 表 移 
接收 分 组 轮 询 表 除 该 设备 
重启 用 IRQ 























图 12-12 NAPI 机 制 和 循环 轮 询 表 概 览 
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1 文 提 到 的 ， 如 
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一 个 分 组 到 达 一 个 空 的 Rx 缓冲 区 ， 则 将 相应 的 设备 置 于 











表 本 身 











处 理 
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变化 在 于 ， 支 持 NAPIE 
注册 网 卡 时 指定 。 























的 性 质 ， 


轮 询 表 可 
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茶 个 设备 ， 则 选择 














I 核 以 循环 方式 处 理 




















时 多 





现在 我 们 已 经 弄 清楚 











<netdevice.h> 
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的 设备 必须 提供 一 
调用 该 函数 沪 


链表 上 的 所 有 设备 : 
一 个 设备 进行 处 理 。 
其 他 设备 相 比 ， 该 设备 的 相对 
一 个 轮 询 的 循环 中 处 


包含 多 个 设备 。 























重要 性 。 较 性 


rn 




















内 核 依次 轮 询 各 个 设备 ， 如 果 已 经 花费 了 一 定 的 
比 外 ， 某 个 设备 都 带 有 一 个 相对 权重 














轮 询 表 中 。 由 于 链 

















时 间 来 
， 表 示 与 轮 询 表 中 























的 设备 权重 较 大 ， 较 慢 的 设备 权重 较 小 。 





少 分 组 ， 这 确保 了 





内 核 将 员 





更 多 地 注意 速度 

















NAPI 的 基本 原理 ， 
个 bol] 











接 下 来 将 讨论 其 实现 
1 函数 。 








E 册 ， 表 明 设 备 





可 以 


四 他。 


较 快 的 设备 。 























必须 用 新 方法 处 











理 。 








static inline void netif napi add(struct net device *dev, 
struct napi_struct *napi, 







































































与 旧 的 API 相 比 ， 关 键 性 
该 方法 是 特定 于 设备 的 ， 在 用 netif_napi_adq 


于 权重 指定 了 











的 

















int (*poll) (struct napi struct *, int), 
int weight); 
dev 指 向 所 述 设 备 的 net_qdevice 实 例 ，poll 指 定 了 在 IRQ 禁 用 时 用 来 轮 询 设备 的 函数 ，weight 
指定 了 设备 接口 的 相对 权重 。 实 际 上 可 以 对 weight 指 定 任意 整数 值 。 通常 10/100 Mbit 网 卡 的 驱动 程序 
指定 为 16， 而 1 000/10 000 Mbit 网 卡 的 驱动 程序 指定 为 64。 无 论 如 何 ， 权 重 都 不 能 超过 该 设备 可 以 在 
Rx 绥 冲 区 中 存储 的 分 组 的 数目 。 
netif_napi_addq 还 需要 另 一 个 参数 ， 是 一 个 指向 stzruct napi_struct 实 例 的 指针 。 该 结构 用 于 
管理 轮 询 表 上 的 设备 。 其 定义 如 下 : 











<netdevice.h> 


struot napi_struict { 
struct list head poll list; 


unsigned long state; 
int weight; 


int 


}; 

















(*pol11) (struct napi_struct *, 







































































Lnt) 3 

























































































轮 询 表 通 过 一 个 标准 的 内 核 双 链表 实现 , pol1l_1ist 用 作 链 表 元 素 。weight 和 poll 的 语义 同上 文 
所 述 。state 可 以 是 NAPI_STATE_SCHED 或 NAPI_STATE_DISABLE， 前 者 表示 设备 将 在 内 核 的 下 一 次 循 
环 时 被 轮 询 ， 后 者 表示 轮 询 已 经 结束 且 没 有 更 多 的 分 组 等 竺 处理， 但 设备 尚未 从 轮 询 表 移 除 。 

请 注意 ，struct napi_struct 经 常 舱 入 到 一 个 更 大 的 结构 中 ， 后 者 包含 了 与 网 卡 有 关 的 、 特 定 
于 驱动 程序 的 数据 。 这 样 在 内 核 使 用 po1l1 函 数 轮 询 网 卡 时 ， 可 用 container_of 机 制 获 得 相关 信息 。 

® | [0 poli00 

pol1 函 数 需 要 两 个 参数 : 一 个 指向 napi_struct 实 例 的 指针 和 一 个 指定 了 “预算 ”的 整数 ， 预 算 
表示 内 核 允 许 驱 动 程序 处 理 的 分 组 数目 。 我 们 并 不 打算 处 理 真实 网 卡 的 可 能 的 奇异 之 处 ， 因 此 讨论 一 
个 伪 函 数 ， 该 函数 用 于 一 个 需要 NAPI 的 超 高 速 适 配器 : 


static int hyper_ card polll(struct napi_ struct *napi, 


{ 


struct nic *nic = container_ of (napi, 








struct net_ device *netdev = nic->netdev; 
int work_done; 


work_done = hyper_do poll (nic, 


budget); 


struct nic, 


int budget) 


napi); 
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if (work done < budget) { 
netif rx complete(netdev, napi); 
hcard_ reenable_ irqgq(nic); 


} 
return work_done; 

} 
在 从 napi_struct 的 容器 获得 特定 于 设备 的 信息 之 后 ， 调 用 一 个 特定 于 便 件 的 方法 (这 里 是 
hyper_qdo_poll ) 来 执行 所 需要 的 底层 操作 从 网 络 适 配器 获取 分 组 ， 并 使 用 像 此 前 那样 使 用 
netif_receive_skb 将 分 组 传递 到 网 络 实现 中 更 高 的 层 。 
hyper_do_poll 最 多 允许 处 理 budget 个 分 组 ,该 函数 返回 实际 上 处 理 的 分 组 的 数目 。 必须 区 分 以 
下 两 种 情况 。 
口 如 果 处 理 分 组 的 数目 小 于 了 预算， 那么 没有 更 多 的 分 组 ，Rx 缓 冲 区 为 空 ， 否 则 ， 肯 定 还 需要 处 
里 剩余 的 分 组 〈 亦 即 ， 返 回 值 不 可 能 小 于 预算 )。 因 此 ，netif_rx_complete 将 该 情况 通知 内 
核 ， 内 核 将 从 轮 询 表 移 除 该 设备 。 接 下 来 ， 驱 动 程序 必须 通过 特定 于 硬件 的 适当 方法 来 重新 
启用 IRQ。 
口 已 经 完全 用 掉 了 预算 ， 但 仍然 有 更 多 的 分 组 需要 处 理 。 设 备 仍然 留 在 轮 询 表 上 ， 不 局 用 中 断 。 
euUUIERQUOOUOO0ODO 
NAPI 也 需要 对 网 络 设备 的 IRQ 处 理 程序 做 一 些 改动 。 这 里 仍然 不 求助 于 任何 具体 的 硬件 ， 而 介绍 
针对 虚构 设备 的 代码 : 
static irqreturn t e100_intr(int irq, void *dev_id) 
























































































































































































































































































































































struct net_device *netdev = dev_id; 
struct nic *nic = netdev_ priv/(netdev); 


if(likely (netif rx schedule prep(netdev, &nic->napi))) { 
hcard _ disable irgq(nic); 
_ netif rx schedule(netdev, &nic->napi); 


} 
return IRQO_ HANDLED; 
} 
假定 特定 于 接口 的 数据 保存 在 net_gevice->private 中 ， 这 是 大 多 数 网 卡 驱 动 程序 使 用 的 方法 。 
使 用 辅助 函数 netdev_priv 访 问 该 字段 。 
现在 需要 通知 内 核 有 新 的 分 组 可 用 。 这 需要 如 下 二 阶段 的 方法 。 
(1)netif_rx_schedule_prep 准 备 将 设备 放置 到 轮 询 表 上 。 本 质 上 ， 这 会 安置 napi_struct-> 
flags 中 的 NAPI_STATE_SCHED 标 志 。 
(2) 如 果 设 置 该 标志 成 功 〈 仅 当 NAPI 已 经 处 于 活跃 状态 时 ， 才 会 失败 )， 驱 动 程序 必须 用 特定 于 设 
备 的 适当 方法 来 禁用 相应 的 IRQ。 调 用 _netif_rx_schedule 将 设备 的 napi_struct 添 加 到 轮 询 表 ， 
并 引发 软 中 断 NET_RX_SoOFTIRQO。 这 通知 内 核 在 net_rx_action 中 开始 轮 询 。 
® [00DRxD0OO 
在 讨论 了 为 支持 NAPI 了 驱动 程序 需要 做 哪些 改动 之 后 ， 我 们 来 考察 一 下 内 核 需 要 承担 的 职责 。 
net_rx_action 依 旧 是 软 中 断 NET_RX_SOFTIRQ 的 处 理 程序 。 在 前 一 节 给 出 了 该 函数 的 一 个 简化 版 本 。 
随 着 有 关 NAPI 的 更 多 细节 人 尘埃 落 定 ， 现 在 可 以 讨论 该 函数 的 所 有 细节 了 。 图 12-13 给 出 了 其 代码 流程 
图 。 
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算 用 尽 或 处 理 时 间 过 长 ? 发 NET_RX_SOFTIRO 中 时 








































遍历 轮 询 表 
上 所 有 的 设备 












日 pol 1 方法 












箱 低 全 局 预算 值 














work == weight 将 设备 移动 


到 轮 询 表 末尾 














图 12-13 net_rx_action 的 代码 流程 罗 


本 质 上 ， es aden 方法 ， 处 理 轮 询 表 上 当前 的 所 有 设备 。 设 备 的 权 
日 作 该 设备 本 身 的 预算 ， 即 轮 询 的 一 步 中 可 能 处 理 的 分 组 数目 。 
必须 确保 在 这 个 软 中 断 的 处 理 程序 中 , 不 会 花费 过 多 时 间 。 如果 如 下 两 个 条 件 成 立 , 则 放弃 处 理 。 
(1) 处 理 程序 已 经 花费 了 超出 一 个 jiffie 的 时 间 。 
(2) 所 处 理 分 组 的 总 数 ， 已 经 超过 了 netdev_budget 指 定 的 预算 总 值 。i 
可 以 通过 /proc/sys/net/core/netdev | budget 修 路 改 。 
这 个 预算 不 能 与 各 个 网 络 设备 本 身 的 预算 混淆 ! 在 每 个 轮 询 步 之 后 ， 都 从 全 局 预算 中 减 去 处 理 的 
分 组 数目 ， 如 果 该 预算 值 下 降 到 0， 则 退出 软 中 断 处 理 程序 。 
在 轮 询 了 一 个 设备 之 后 ， 内 核 会 检查 所 处 理 的 分 组 数目 ， 与 该 设备 的 预算 是 否 相 等 。 如 果 相 等 ， 
那么 尚未 获得 该 设备 上 所 有 等 待 的 分 组 ， 即 代码 流程 图 中 work == weight 所 表示 的 情况 。 内 核 接 下 
来 将 该 设备 移动 到 轮 询 表 末尾 ， 在 链表 中 所 有 其 他 设备 都 处 理 过 之 后 ， 继 续 轮 询 该 设备 。 显 然 ， 这 实 
现 了 网 络 设备 之 间 的 循环 调度 。 
® [| NAPINUOUDU API 
最 后 ， 请 注意 旧 的 API 是 如 何在 NAPI 上 实现 的 。 内 核 的 常规 行为 ， 由 一 个 与 softnet 队 列 关 联 的 伪 
网 络 设备 控制 ，net/core/dev.c 中 的 process_backlog 标 准 函 数 用 作 pol1 方 法 。 如 果 没 有 网 络 适 配 
器 将 其 自身 添加 到 该 队列 的 轮 询 表 ， 其 中 只 包含 这 个 伪 适 配器 ， 那 么 net_rx_action 的 行为 就 是 通过 
对 process_backlog 的 单一 调用 来 处 理 队 列 中 的 分 组 ， 而 不 管 分 组 的 来 源 设备 。 


12.7.3 ”发 送 分 组 


在 网 络 层 中 特定 于 协议 的 函数 通知 网 络 访问 层 处 理由 套 接 字 缓 冲 区 定义 的 一 个 分 组 时 , 将 发 送 完 
成 的 分 组 。 
当 信 息 从 计算 机 发 送出 去 时 ， 必 须 注意 哪些 事项 ? 除了 特定 协议 需要 完成 的 首部 和 校 验 和 ， 以 及 
1 高 层 协议 实例 生成 的 数据 之 外 ， 分 组 的 路 由 是 最 重要 的 。( 即 使 计算 机 具有 一 个 网 卡 ， 内 核 仍然 需 
要 区 分 发 送 到 外 部 目标 的 分 组 和 针对 环 回 接口 的 分 组 。) 
因为 该 问题 只 能 由 更 高 层 的 协议 实例 决定 (特别 是 ， 如 果 可 以 选择 到 预期 目标 的 路 由 时 )， 所 以 
设备 驱动 程序 假定 高 层 协议 已 经 做 出 了 决策 
在 分 组 可 以 发 送 到 下 一 个 正确 的 计算 机 之 前 (通常 不 同 于 目标 计算 机 ， 因 为 除非 存在 直接 的 硬件 
链 路 ， 否 则 JP 分 组 通常 通过 网 关 发 送 )， 必 须 确定 接收 方 网 卡 的 硬件 地 址 。 这 是 一 个 复杂 的 过 程 ， 将 
在 12.8.5 广 详细 讲述 。 此 时 , 我 们 假定 已 经 知道 接收 方 的 MAC 地 址 。 网 络 访问 层 的 所 需 的 男 一 个 首部 ， 
通常 由 特定 于 协议 的 函数 产生 。 
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总 值 设置 为 300， 但 
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net/core/dev.c 中 的 dev_queue_xmit 用 于 将 分 组 放置 到 发 出 分 组 的 队列 上 。 这 里 将 忽略 这 个 特 
定 于 设备 的 队列 的 实现 ， 因 为 它 并 没有 揭示 什么 网 络 层 的 运作 机 制 。 只 要 知道 ， 在 分 组 放置 到 等 待 队 
列 上 一 定 的 时 间 之 后 ， 分 组 将 发 出 即 可 。 这 是 通过 特定 于 适配器 的 函数 harda_start_xmit 完 成 的 ， 在 
每 个 net_device 结 构 中 都 以 函数 指针 的 形式 出 现 ， 由 硬件 设备 驱动 程序 实现 。 


12.8 网 络 层 


网 络 访问 层 仍然 受到 传输 介质 的 性 质 以 及 相关 适配器 的 设备 驱动 程序 的 很 大 影响 。 网 络 层 (具体 
地 说 是 IP 协 议 ) 与 网 络 适 配器 的 硬件 性 质 几乎 是 完全 分 离 的 。 为 什么 说 是 几乎 ? 读者 稍 后 会 看 到 ， 该 
层 不 仅 负 责 发 送 和 接收 数据 ， 还 负责 在 彼此 不 直接 连接 的 系统 之 间 转 发 和 路 由 分 组 。 查 找 最 佳 路 由 六 
选择 适当 的 网 络 设备 来 发 送 分 组 ， 也 涉及 对 底层 地 址 族 的 处 理 〈 如 特定 于 硬件 的 MAC 地 址 )， 这 是 该 
层 至 少 要 与 网 卡 松散 关联 的 原因 。 在 网 络 层 地 址 和 网 络 访问 层 之 间 的 指派 是 由 这 一 层 完成 的 ， 这 也 是 
互联 网 络 层 无 法 与 硬件 完全 脱离 的 原因 。 
如 果 不 考虑 底层 硬件 ， 是 无 法 将 较 大 的 分 组 分 割 为 较 小 单位 的 〈 事 实 上 ， 硬 件 的 性 质 是 需要 分 割 
分 组 的 首要 原因 )。 因 为 每 一 种 传输 技术 所 支持 的 分 组 长 度 都 有 一 个 最 大 值 ， 正 协议 必须 方法 将 较 大 
的 分 组 划分 为 较 小 的 单位 ， 由 接收 方 重新 组 合 ， 更 高 层 协议 不 会 注意 到 这 一 点 。 划 分 后 分 组 的 长 度 取 
决 于 特定 传输 协议 的 能 
IP 在 1981 年 正式 定义 (在 RFC791 中 )， 现 在 已 经 进入 暮年 。" 尽 管事 实 上 的 情况 与 公司 新 闻 稿 的 说 
法 截然 不 同 ， 例 如 ， 后 者 可 能 将 电子 表格 的 每 个 新 版 本 都 称赞 为 人 类 有 史 以 来 最 伟大 的 发 明 ， 但 过 去 
的 20 年 确实 在 当今 的 技术 上 留 下 了 印痕 。 此 前 的 缺陷 和 未 能 预料 到 的 问题 ， 随 着 因特网 的 发 展 ， 现 在 
变 得 越 来 越 明显 。 这 也 是 开发 IPv6 标 准 作 为 目前 IPv4 后 继 者 的 原因 。 遗 憾 的 是 ， 因 为 缺乏 核心 的 权威 
机 构 ， 对 这 个 未 来 标准 的 采用 比较 缓慢 。 本 章 主要 关注 IPv4 算 法 的 实现 ， 但 也 会 略 看 一 看 可 用 于 未 来 
的 技术 ， 及 其 在 Linux 内 核 的 实现 。 
为 理解 卫 协 议 在 内 核 中 的 实现 ， 必 须 简 要 介绍 其 工作 方式 。 很 自然 ， 这 是 个 非常 大 的 领域 ， 我 们 
只 能 略微 谈 谈 相关 的 主题 。 详 细 描述 可 以 参见 许多 专著 ， 如 [Ste00] 和 [Ste94] 。 
12.8.1 1IPv4 
IP 分 组 使 用 的 协议 首部 如 图 12-14 所 示 。 
0 4 8 16 20 24 32 


版 本 
2 分 片 偏 移 量 
首部 校 验 和 


标 地 址 
选项 | ” 汗 充 
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图 12-14 IP 首部 的 结构 




















下 面 是 结构 中 各 部 分 的 语义 。 


























Q 尽管 一 些 公司 的 市 场 部 门 有 相反 的 暗示 ， 但 实际 上 因特网 的 年 龄 超过 了 它 的 大 部 分 用 户 。 
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版 本 的 主机 上 ， 所 使 用 的 版 本 
该 标识 符 中 保存 的 值 是 不 同 的 。 
IHL (IP 首 部 长 度 ) 定义 了 首 
Codepoint (代码 点 ) 或 Type of Service〔( 服 务 类 型 ) 




















无 须 关 注 。 








到 同一 原始 分 组 


fragment offset 








version〔( 版 本 ) 指定 了 所 用 IP 协 议 的 版 本 。 当 前 ， 该 字段 的 有 效 值 为 4 或 6。 妊 

















前 一 章 讨论 的 传输 协议 标 





立 | 


口 








Length (长 度 ) 指定 了 分 组 的 0 0 DO ， 
fragment ID( 分 片 标识 ) 标识 了 一 个 分 片上 





的 各 个 数据 
t 《分 片 偏 移 昌 





和 MF 表示 当前 分 
有 分 片 都 








有 3 个 状态 标志 位 
四 DEF 意 为 “don' tf 


会 设置 


第 三 个 标志 位 “保留 供 未 来 使 用 
TTL 意 为 “Time to Live”， 指 定 了 从 发 送 者 到 接收 者 的 传输 路 径 上 中 间 站 点 的 最 大 数目 或 8 


的 长 度 ， 


居 片 ， 使 之 可 标识 为 同一 
量 ) 字段 定义 。 偏 移 


Bt 
Ea 




















于 选项 数量 


Ek 识 符 确 定 。 对 协议 的 下 








可 变 ， 这 个 值 并 不 总 是 相同 的 。 








E 支 持 两 种 协议 
个 版 本 来 说 ， 
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的 协议 选项 ， 我 们 在 这 里 








F 更 复杂 上 














量 的 

















即 首 部 加 数据 的 长 度 。 
IP 分 组 的 各 个 
分 纪 


白 


部 分 。 分 片 方法 将 同一 
的 成 员 。 各 个 
位 是 64 bit。 


分 片 ID 





























用 于 启用 或 禁 





本 月 








特定 的 特性 ， 





前 只 使 











和 其 中 两 个 。 











fragment”, 
一 个 遇 是 








组 是 
该 标志 位 )。 


















































指定 分 组 不 可 拆 分 为 更 小 
更 大 分 组 的 分 片 ， 后 面 还 有 其 人 



































] ”， 但 考虑 到 IPv6 的 存在 ， 



























































































































































的 单位 。 
岂 分 片 ( 除 了 最 后 一 





这 是 不 太 可 能 的 。 





指定 
部 分 的 相对 位 置 由 


个 分 片 之 外 ， 所 


yt 





TCP 和 UDP 协 议 都 有 对 应 的 唯一 值 。 























口 
数 )。 @ 
口 Protocol 标 识 了 IP 分 组 承载 的 高 层 协 议 (传输 层 )。 例如 ， 
口 checksum 包 含 了 一 个 校 验 和 ,根据 首 部 和 数据 的 
的 值 不 一 致 ， 那 么 可 能 发 生 了 传输 错误 ， 应 该 丢弃 该 分 组 。 
口 src 和 aest 指 定 了 源 和 目标 的 32 位 卫 地 址 。 
口 options 用 于 扩展 耻 选 项 ， 在 这 里 不 讨论 了 。 
口 gata 保 存 了 分 组 数据 ( 净 答 )。 
IP 首 部 中 所 有 的 数值 都 以 网 络 字 节 序 存储 (大 端 序 )。 
在 内 核 源 代码 中 ， 该 首部 由 iphdr 数 据 结构 实现 : 
<ip.h> 
struat tpiidr € 
#if defined!( LITTLE_ENDIAN_BITFIELD) 
_u8 ihl:4, 
version:4; 
#elif defined (__ BIG ENDIAN_ BITFIELD) 
_u8 version:4, 
ihnl:4; 
#endif 
= U8 tos; 
= 16 tot_len 
ul6 Ee: 
ulé frag_off 
U8 ttl; 
_u8 protocol; 
二 二 6 check; 
1u32 saddr; 
uu32 daddr; 
Q 在 过 去 ， 这 个 值 解释 为 分 组 生命 周期 的 最 大 长 度 ， 按 秒 计算 。 


内 容 计算 。 如 果 指定 的 校 验 和 与 接收 方 计算 
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/* 选 项 从 这 里 开始 */ 











和 
ip_rcv 了 图 数 是 网 络 层 的 入 口 点 。 分 组 向 上 穿 过 内 核 的 路 线 如 图 12-15 所 示 。 


传输 层 (TCP、UDP) 


ip_local_deliver 
- Netfilter: 
Netfilter: NF_IP_LOCAL_OUT 
NF_IP_LOCAL_IN 
路 由 
人 鸭 
Netfilter: ip_output 
NF_IP_PRE_ROUTING 
- Netfilter: 
Netfilter: NF_IP_POST_ROUTING 
轮 询 机 制 TD dev_queue xmit 
主机 到 网 络 层 ( 以 太 网 等 ) 
























































图 12-15 ”分 组 穿 过 互联 网 络 层 的 路 线 


发 送 和 接收 操作 的 程序 流程 并 不 总 是 分 离 的 ， 如 果 分 组 只 通过 当前 计算 机 转发 ， 那么 发 送 和 接收 
操作 是 交织 的 。 这 种 分 组 不 会 传递 到 更 高 的 协议 层 〈 或 应 用 程序 )， 而 是 立即 离开 计算 机 ， 发 往 新 的 
目的 地 。 


12.8.2 ”接收 分 组 


在 分 组 〈 以 及 对 应 的 套 接 字 缓冲 区 ， 其 中 的 指针 已 经 设置 了 适当 的 值 ) 转发 到 ip_rcv 之 后 ， 必 
须 检查 接收 到 的 信息 ， 确 保 它 是 正确 的 。 主 要 检查 计算 的 校 验 和 与 首部 中 存储 的 校 验 和 是 和 否 一 致 。 暴 
他 的 检查 包括 分 组 是 否 达到 了 了 P 首 部 的 最 小 长 度 ， 分 组 的 协议 是 否 确实 是 IPv4 (IPv6 的 接收 例 程 是 另 
人 
在 进行 了 这 些 检 查 之 后 ， 内 核 并 不 立即 继续 对 分 组 的 处 理 ， 而 是 调用 一 个 netfilter 挂 钩 ， 使 得 用 户 
空间 可 以 对 分 组 数据 进行 操作 。netfilter 挂 钧 插入 到 内 核 源 代码 中 定义 好 的 各 个 位 置 ， 使 得 分 组 能 够 被 
外 部 动态 操作 。 挂 钩 存 在 于 网 络 子 系统 的 各 个 位 置 ， 每 种 挂钩 都 有 一 个 特别 的 标记 ， 例 如 
NF_IP_POST ROUTING。 
在 内 核 到 达 一 个 挂钩 位 置 时 ， 将 在 用 户 空间 调用 对 该 标记 支持 的 例 程 。 接 下 来 ， 在 另 一 个 内 核 函 
数 中 继续 内 核 端的 处 理 〈 分 组 可 能 被 修改 过 )。12.8.6 节 讨论 了 netfilter 机 制 的 实现 。 
在 下 一 步 中 ， 接 收 到 的 分 组 到 达 一 个 十 字 路 口 ， 此 时 需要 判断 该 分 组 的 目的 地 是 本 地 系统 还 是 远 
程 计 算 机 。 根据 对 分 组 目的 地 的 判断 , 需要 将 分 组 转发 到 更 高 层 , 或 转 到 互联 网 络 层 的 输出 路 径 上 (这 
里 不 打算 讨论 第 三 种 选项 ， 即 通过 多 播 将 分 组 发 送 到 一 组 计算 机 )。 
ip_route_input 负 责 选 择 路 由 。 这 个 相对 复杂 的 决策 过 程 在 12.8.5 节 详细 讨论 。 判 断路 由 的 结果 
是 ， 选 择 一 个 函数 ， 进 行进 一 步 的 分 组 处 理 。 可 用 的 函数 是 ip_local_aqeliver 和 ip_forwardq。 有 具体 
选择 哪个 函数 ， 取 决 于 分 组 是 交付 到 本 地 计算 机 下 一 个 更 高 协议 层 的 例 程 ， 还 是 转发 到 网 络 中 的 另 一 



























































































































































































































































































































































































































































@ 请 注意 ,内核 版 本 2.6.25( 撰 写本 书 时 , 仍 在 开发 中 ) 将 会 把 名 称 从 NF_IP_* 改 为 NF_INET_*。 这 项 改动 统一 了 IPv4 
和 IPv6 的 名 称 。 
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台 计 算 机 。 
12.8.3 ”交付 到 本 地 传输 层 














如 果 分 组 的 目的 地 是 本 地 计算 机 ，ip_local_dqeliver 必 须 设法 找到 一 个 适当 的 传输 层 函 数 ， 将 
分 组 转送 过 去 。 了 分 组 通常 对 应 的 传输 层 协议 是 TCP 或 UDP。 


























1. 分 片 合并 




















De 





























ented | 


由 于 IP 分 组 可 能 是 分 片 的 ， 因 此 会 带 来 一 些 困 


第 一 项 任务 , 就 是 通过 ip_qefrag 重 新 组 合 分 片 分 组 的 各 个 部 分 。" 对 应 的 代码 流程 图 ， 如 图 12-16 所 示 。 























其 他 分 片 部 分 在 缓存 中 ? | 





难 。 不 见得 一 定 有 一 个 完整 的 分 组 可 用 。 该 函数 的 














所 有 部 分 部 有 了 ? 


图 12-16 





ip_defrag 的 代码 流程 图 














内 核 在 一 个 独立 的 缓存 中 管理 原本 / 


























都 到 达 。 














接 下 来 调用 ip_finq 函 数 。 它 使 用 一 个 基于 分 片 ID、 源 地 址 、 
过 程 ， 检 查 是 否 已 经 为 对 应 的 分 组 创建 了 等 竺 队列。 如果 没有 ， 则 建立 一 个 新 的 队列 ， 并 将 当前 处 理 
的 分 组 置 于 其 上 。 否则 返回 现存 队列 的 地 址 ， 以 便 ip_frag_queue 将 分 组 置 于 队列 上 。” 

在 分 组 的 所 有 分 片 都 进入 缓存 ( 即 第 一 个 和 最 后 一 个 分 片 都 已 经 到 达 ， 且 所 有 分 片 中 数据 的 长 度 
之 和 等 于 分 组 预期 的 总 长 度 ) 后 ，ip_frag_reasm 将 各 个 分 片 重新 组 合 起 来 。 接 下 来 释放 套 接 字 组 冲 


















































区 ， 供 其 他 用 途 使 用 。 
































在 所 有 分 片 都 到 达 后 ， 将 恢复 处 理 。 
2. 交付 到 传输 层 














[E: 











1 遇 于 一 个 分 组 的 各 个 分 片 ， 该 缓存 称 为 DD DD fragment 
cache )。 在 缓存 中 ， 属 于 同一 分 组 的 各 个 分 片 保存 在 一 个 独立 的 等 待 队 列 中 ， 直 至 该 分 组 的 所 有 分 片 











目标 地 址 、 分 组 的 协议 标识 的 散 列 




































































如 果 分 组 的 分 片 尚未 全 部 到 达 ， 则 ip_gefrag 返 回 一 个 NULL 指 针 ， 终 止 互联 网 络 层 的 分 组 处 理 。 























下 面 返回 到 ip_local_dqeliver。 在 分 组 的 分 片 合并 完成 后 ， 调 用 netfilter 挂 钩 NF_IP_LOCAL _ ITN， 





恢复 在 ip_local_aqeliver_finish 函 数 吕 





在 其 中 ,根据 分 组 的 协议 标识 符 确定 一 个 传输 

















FP 的 处 理 。 

















络 层 的 协议 都 有 一 个 net_protocol 结 构 的 实例 ， 该 结构 定义 如 下 : 


include/net/protocol.h 
struet net protocol { 

















层 的 函数 ， 将 分 组 传递 给 该 函数 。 所 有 基于 互联 网 


Q@ 内 核 可 通过 设置 的 分 片 标志 位 ， 或 非 0 的 分 片 偏 移 量 值 识 别 分 片 的 分 组 。 偏 移 量 字段 为 0%， 表 明 这 是 分 组 的 最 后 一 


个 分 片 。 














@ 分 片 缓存 使 用 定时 器 机 制 来 从 缓存 删除 分 片 。 在 定时 器 到 期 时 ， 如 果 属 了 











从 缓存 删除 。 














F 某 个 分 组 的 分 片 未 能 全 部 到 达 ， 则 将 划 
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int (*handler) (struct sk _ buff *skb); 
void (*err_ handler) (struct sk _ buff *skb, u32 info); 


站 























口 handler 是 协议 例 程 ， 分 组 将 《以 套 接 字 绥 冲 区 的 形式 ) 被 传递 到 该 例 程 进行 进一步 处 理 。 
口 在 接收 到 ICMP 错 误 信息 并 需要 传递 到 更 高 层 时 ， 需 要 调用 err_handler。 




















inet_adq_protocol 标 准 函 数 用 于 将 上 述 结构 的 实例 (指针 ) 存储 到 inet_protos 数 组 中 ， 通 过 


























一 种 散 列 方法 确定 存储 具体 协议 的 索引 位 置 



























































例 程 和 用 
12.8.4 “分 组 转发 
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上 


在 套 接 字 缓冲 区 中 通过 通常 的 指针 操作 “删除 ” 卫 首 部 后 ， 剩 下 的 工作 就 是 调 月 

















IP 分 组 可 能 如 上 所 述 交 付 给 本 地 计算 机 处 理 , 它们 也 可 能 
而 不 牵涉 本 地 计算 机 的 高 层 协议 实例 。 分 组 的 目标 地 址 可 分 为 以 









































(2) 目标 计算 机 在 地 理 上 属于 远程 计算 机 ， 不 连接 到 本 地 网 络 ， 只 能 通过 网 关 访问 。 


























日 传输 层 对 应 的 接 
收 例 程 , 其 函数 指针 存储 在 inet_protocol 的 handler 字 上段 中 , 例如 , 用 于 接收 TCP 分 组 的 tcp_v4_rcv 


接收 UDP 分 组 的 udap_rcv。12.9 节 讲述 了 这 些 函 数 的 实现 。 


互联 网 络 层 , 转发 到 另 一 台 计 算 机 ， 
(1) 目标 计算 机 在 某 个 本 地 网 络 中 ， 发 送 计算 机 与 该 网 络 有 连接 。 


第 二 种 场景 要 复杂 得 多 。 首 先 必 须 找到 剩余 路 由 中 的 第 一 个 站 点 ， 将 分 组 转发 到 该 站 点 ， 这 是 向 
最 终 目 标 地 址 的 第 一 步 传 输 。 因 此 ， 不 仅 需 要 计算 机 所 属 本 地 网 络 结构 的 相关 信息 ， 还 需要 相 邻 网 络 





























结构 和 相关 的 外 出 路 径 的 信息 














该 信息 由 0 口 口 (routing table)〉 提供 ， 路 由 表 由 内 核 通 过 多 种 数据 结构 实现 并 管理 
































， 相 关内 容 在 














12.8.5 节 讨论 。 在 接收 分 组 时 调用 的 ip_route_input 函 数 充当 路 








| 实现 的 接口 ， 这 一 方 








数 能 够 识别 出 分 组 是 交付 到 本 地 还 是 转发 出 去 ， 男 一 方面 该 函数 
地 址 存储 在 套 接 字 绥 冲 区 的 dst 字段 中 。 









































能 够 找到 通 向 目标 地 址 

















这 使 得 ijp_forward 的 工作 非常 容易 ， 如 图 12-17 中 的 代码 流程 图 所 示 。 











TIL<1? 丢弃 分 组 


ip_decrease_tt]| 


netfilter 挂 钩 NE_IP_FORWARD 























ip_forward finish 


ip_forward options 











clstaoueut 











skb->dst->output 
图 12-17 ”ip_forward 的 代码 流程 图 
首先 ， 该 函数 根据 TTL 字 段 来 检查 当前 分 组 是 否 允 许 传输 到 下 一 跳 。 如 果 TTL 值 小 于 























面 是 因为 该 函 
的 路 由 。 目 标 


或 等 于 1， 则 


丢弃 分 组 ， 否 则 ， 将 TTL 计 数 器 值 减 1。ip_decrease_ttl1 人 负责 该 工作 ， 修 改 TTL 字 有 段 的 同时 ， 分 组 的 
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校 验 和 也 会 发 生变 化 ， 同 样 需要 修改 。 
在 调用 netfilter 挂 钩 NEFE_IP_FORWARD 后 ， 内 核 在 ip_forwarad_finish 中 恢复 处 理 。 该 函数 将 其 工 
作 委 托 给 如 下 两 个 函数 。 
口 如 果 分 组 包含 额外 的 选项 (通常 情况 下 没有 )， 则 在 ip_forward_options 中 处 理 。 
口 dst_pass 将 分 组 传递 到 在 路 由 期 间 选 择 、 保 存在 skb->dst->output 中 的 发 送 函 数 。 通常 使 用 
ip_output， 该 函数 将 分 组 传递 到 与 目标 地 址 匹配 的 网 络 适配器 。 ”下 一 节 描 述 的 IP 分 组 发 送 
操作 中 ，ip_output 是 其 中 一 部 分 。 


12.8.5 ”发 送 分 组 


内 核 提供 了 几 个 通过 互联 网 络 层 发 送 数 据 的 函数 ， 可 由 较 高 协议 层 使 用 。 其 中 ip_queue_xmit 是 
最 常 使 用 的 一 个 ， 其 代码 流程 图 在 图 12-18 给 出 。 











































































































































































































































































ip_send check 


netfilter 挂 钩 : NF_IP_LOCAL out 


dost outsut 


skb->dst->output 
























图 12-18 ”ip_queue_xmit 的 代码 流程 图 


第 一 个 任务 是 查找 可 用 于 该 分 组 的 路 由 。 内 核 利 用 了 下 述 事实 : 起 源 于 同一 套 接 字 的 所 有 分 组 的 
目标 地 址 都 是 相同 的 ， 这 样 不 必 每 次 都 重新 确定 路 由 。 下 文 将 讨论 指向 相应 数据 结构 的 一 个 指针 ， 它 
与 套 接 字 数据 结构 相关 联 。 在 发 送 第 一 个 分 组 时 ， 内 核 需 要 查找 一 个 新 的 路 由 (在 下 文 讨论 )。 

在 ip_senq_check 为 分 组 生成 校 验 和 之 后 ,2 内 核 调 用 netfilter 挂 钩 NF_IP_LOCAL OUT。 接 下 来 调 
用 ast_output 函 数 。 该 函数 基于 确定 路 由 期 间 找到 的 skb->dqst->output 函 数 ， 后 者 位 于 套 接 字 缓 冲 
区 中 ， 与 目标 地 址 相关 。 通 常 ， 该 函数 指针 指向 ip_output， 本 地 产生 和 转发 的 分 组 将 在 该 函数 中 汇 




































































































































































1. 转移 到 网 络 访问 层 
图 12-19 给 出 了 ip_output 函 数 的 代码 流程 图 ， 其 中 根据 分 组 是 否 需 要 分 片 ,将 代码 路 径 划分 为 两 
部 分 。 
首先 调用 netfilter 挂 钩 NEF_IP_PosT_ROUTING， 接 下 来 是 ip_finish_output。 首 先 考察 分 组 长 度 


















































瑟 








不 大 于 传输 介质 MTU、 无 须 分 片 的 情况 。 在 这 种 情况 下 ,直接 调用 了 ip_finish_output2。 该 函数 检 
查 套 接 字 组 冲 区 是 否 仍然 有 足够 的 空间 容纳 产生 的 硬件 首部 。 如 有 必要 , 则 用 skb_realloc_headroom 






































































































































GD 有 可 能 使 用 不 同 的 输出 例 程 , 例如 将 下 分 组 作为 通道 来 传输 其 他 种 类 的 IP 分 组 时 。 这 是 一 种 非常 专门 的 应 用 程序 ， 
很 少 用 到 。 

@ 生成 卫校 验 和 对 时 间 要 求 很 高 ， 可 以 在 现代 的 处 理 器 上 进行 高 度 优 化 。 为 此 ， 各 种 体系 结构 在 ip_fast_csum 中 用 
汇编 语言 提供 了 自身 的 快速 实现 。 



















































































12.8 0D0D0 621 














分 配额 外 的 空间 。 为 完成 到 网 络 访问 层 的 转移 , 调用 由 路 由 层 设置 的 函数 dst->neighbour->output， 
该 函数 指针 通常 指向 dev_queue xmit。 a 


DOUEDUE 


netfilter 挂 钩 NFE_IP_POST_ROUTING | 


Es no 


行 分 组 分 片 吗 ? 











































































有 必要 进 


fanashloutput 











没有 足够 空间 容纳 硬件 














Skp_realloc headroom 


dst->neighbour->output 


图 12-19 ”ip_output 的 代码 流程 图 


2. 分 组 分 片 
ip_fragment 将 IP 分 组 划分 为 更 小 的 单位 ， 如 图 12-20 所 示 。 














图 12-20 ”了 IP 分 组 分 片 


如 果 和 忽略 RFC 791 中 记载 的 各 种 微妙 情形 ， 那 么 IP 分 片 是 非常 简单 的 。 在 循环 的 每 一 轮 中 ， 都 抽 
取出 一 个 数据 分 片 ， 其 长 度 与 对 应 的 MTU 兼 容 。 创建 一 个 新 套 接 字 缓冲 区 来 保存 抽取 的 数据 分 片 ， 旧 
的 卫 首 部 可 以 稍 作 修 改 后 重用 。 所 有 的 分 片 都 会 分 配 一 个 共同 的 分 片 ID， 以 便 在 目标 系统 上 重新 组 装 
分 组 。 分 片 的 顺序 基于 分 片 偏 移 量 建立 ， 此 时 也 需要 适当 地 设置 。MEF (more fragments) 标志 位 也 需 
要 设置 。 只 有 序列 中 的 最 后 一 个 分 片 可 以 将 该 标志 位 置 0。 每 个 分 片 都 在 使 用 ip_senq_check 产 生 校 
验 和 之 后 ， 用 ip_output 发 送 。® 

3. 路 由 
在 任何 卫 实现 中 ， 路 由 都 是 一 个 重要 的 部 分 ， 不 仅 在 转发 外 部 分 组 时 需要 ， 而 且 也 用 于 发 送 本 地 
计算 机 产生 的 分 组 。 查找 数 据 从 计算 机 “外 出 ”的 正确 路 径 的 问题 , 不仅 在 处 理 非 本 地 地 址 时 会 遇 到 ， 
在 本 地 计算 机 有 几 个 网 络 接口 时 ， 也 会 有 此 类 问题 。 即 使 具有 一 个 物理 上 的 网 络 适 配器 ， 也 可 能 有 环 
本 设备 这 样 的 虚拟 接口 ， 同 样 会 导致 该 问题 。 

















































































































































































































































































































Q@ 内 核 也 使 用 一 个 硬件 首部 缓存 。 其 中 保存 了 频繁 使 用 的 硬件 首部 ， 可 以 复制 到 分 组 起 始 处 。 如 果 缓 存 包含 了 所 需 
数据 项 ， 则 分 组 使 个 缓存 函数 输出 ， 比 dst->neighbour->output 稍 快 一 点 。 

@ ip_output 通 过 以 参数 形式 传递 到 ip_fragment 的 一 个 函数 指针 调用 。 当 然 ， 这 意味 着 可 以 选择 其 他 的 发 送 函 数 。 
只 有 桥接 子 系统 利用 了 这 种 可 能 性 ， 这 里 对 此 不 再 更 详细 讨论 了 。 
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每 个 接收 到 的 分 组 都 属于 下 列 3 个 类 别 之 一 。 
(1) 其 目标 是 本 地 主机 。 
(2) 其 目标 是 当前 主机 直接 连接 的 计算 机 。 
(3) 其 目标 是 远程 计算 机 ， 只 能 经 由 中 间 系 统 到 达 。 
前 一 节 讨 论 了 第 一 类 分 组 。 这 些 分 组 将 传递 到 更 高 层 的 协议 ， 进 行进 一 步 处 理 (之 所 以 在 下 文 讨 
论 这 一 类 型 ， 是 因为 所 有 到 达 的 分 组 都 会 传递 到 路 由 子 系统 )。 如 果 分 组 的 目标 系统 与 本 地 主机 直接 
连接 ， 路 由 通常 特 化 为 查找 对 应 的 网 卡 。 和 否则 ， 必 须根 据 路 由 选择 信息 来 查找 网 关系 统 〈 以 及 与 网 关 
相关 联 的 网 卡 )， 分 组 需要 通过 网 关 来 发 送 。 
随 着 内 核 版 本 的 演变 ， 路 由 的 实现 逐渐 牵涉 越 来 越 广泛 的 内 容 ， 现 在 占 网 络 子 系统 源 代码 的 很 大 
一 部 分 。 由 于 许多 路 由 工作 都 对 时 间 要 求 很 高 ， 因 而 使 用 了 缓存 和 宛 长 的 散 列 表 来 加 速 工作 。 这 反映 
到 路 由 相关 的 大 量 数据 结构 上 。 为 节省 篇 幅 ， 这 里 不 去 关注 诸如 在 内 核 数 据 结构 中 查找 正确 路 由 之 类 
的 机 制 ， 只 考察 内 核 用 于 传递 结果 的 数据 结构 。 
路 由 的 起 始点 是 ip_route_input 函 数 , 它 首 先 试图 在 路 由 缓存 中 查找 路 由 〈 这 里 不 讨论 该 主题 ， 
也 不 涉及 多 播 路 由 选择 的 问题 )。 
ip_route_input_slow 用 于 根据 内 核 的 数据 结构 来 建立 一 个 新 的 路 由 。 基 本 上 ， 该 例 程 依赖 于 
fib_lookup， 后 者 的 隐 式 返回 值 〈( 通 过 一 个 用 作 参 数 的 指针 〉 是 一 个 fib_result 结 构 的 实例 ， 包 含 
了 我 们 需要 的 信息 。fib 代 表 转 发 信息 库 ， 是 一 个 表 ， 用 于 管理 内 核 保存 的 路 由 选择 信息 
路 由 结果 关联 到 一 个 套 接 字 缓冲 区 ， 套 接 字 缓冲 区 的 ast 成 员 指 同一 个 aest_entryg 名 结构 的 实例 ， 
该 实例 的 内 容 是 在 路 由 查找 期 间 填 充 的 。 该 数据 结构 的 定义 如 下 (简化 了 很 多 ): 


include/net/dst.h 
struct dst_entry 


{ 






































































































































































































































































































































































































































































































































































































































struct net_device *dev; 

ie (*input) (struct sk buff*); 
int (*output) (struct sk_buff*),; 
struct neighbour *neighbour; 


}; 

口 input 和 output 分 别 用 于 处 理 进入 和 外 出 的 分 组 ， 如 上 文 所 述 。 

口 dev 指 定 了 用 于 人 处理 该 分 组 的 网 络 设备 。 

根据 分 组 的 类 型 ， 会 对 input 和 output 指 定 不 同 的 函数 。 

口 对 需要 交付 到 本 地 的 分 组 ， input 设置 为 ip_local_dqeliver, 而 output 设 置 为 ip_rt_bug( 该 
函数 只 向 内 核 日 志 输出 一 个 错误 信息 , 因为 在 内 核 代 码 中 对 本 地 分 组 调用 output 是 一 种 错误 ， 
不 应 该 发 生 )。 

口 对 于 需要 转发 的 分 组 ，:input 设 置 为 ip_forwardq， 而 output 设 置 为 ip_output 国 数 。 
neighbouz 成 员 存储 了 计算 机 在 本 地 网 络 中 的 IP 和 硬件 地 址 ， 这 可 以 通过 网 络 访问 层 直接 到 达 。 

对 我 们 来 说 ， 上 只 考察 该 结构 的 几 个 成 员 就 足够 了 ; 


include/net/neighbour.h 
struct neighbour 


{ 


















































































































































struct net_device *dev; 
unsigned char ha [ALIGN (MAX_ADDR_LEN, sizeof (unsigned long))]; 
int (*output) (struct sk_ buff *skb); 
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dev 保 存 了 网 络 设备 的 数据 结构 , 而 ha 是 设备 的 硬件 地 址 , output 是 指 癌 适当 的 内 核 函 数 的 指针 ， 
在 通过 网 络 适 配器 传输 分 组 时 必须 调用 。neighbour 实 例 由 内 核 中 实现 ARP (address resolution 
protocol, 0 DO DODDD ， 的 ARP 层 创建 ，ARP 协 议 负责 将 耳 地 址 转换 为 硬件 地 址 。 因 为 ast_entry 结 
构 有 一 个 成 员 指针 指向 neighbouzr 实 例 ， 网 络 访问 层 的 代码 在 分 组 通过 网 络 适 配器 离开 当前 系统 时 可 
调用 output 函 数 。 


12.8.6 netfilter 


netfilter 是 一 个 Linux 内 核 框架 ， 使 得 可 以 根据 动态 定义 的 条 件 来 过 滤 和 操作 分 组 。 这 显著 增加 了 
可 能 的 网 络 选 项 的 数 日 ， 从 简单 的 防火 寺 ， 到 对 网 络 通信 数据 的 详细 分 析 ， 到 复杂 的 、 依 赖 于 状态 的 
分 组 过 滤器 。 由 于 netfilter 的 精巧 设计 ， 网 络 子 系统 只 需要 少量 代码 就 可 以 达到 上 述 目 的 。 

1. 扩展 网 络 功能 

简 言 之 ，netfilter 框 架 向 内 核 添加 了 下 列 能 

口 根据 状态 及 其 他 条 件 , 对 不 同 数据 流 方向 (进入 、 外 出 、 转发) 进行 0D D 0 0 (packetfiltering )。 

口 NAT (network address translation, 口 口 口 口 口 口 ，)， 根 据 某 些 规 则 来 转换 源 地 址 和 目标 地 址 。 
列 如 ,NAT 可 用 于 连接 的 共享 , 有 几 台 不 直接 连接 到 因特网 的 计算 机 可 以 共享 一 个 
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因特网 访问 入 口 ( 称 为 IP 伪 装 或 透明 代理 )。 
DODODOD (packet 和 口 口 (manipulation )， 根 据 特定 的 规则 拆 分 和 修改 分 组 。 
可 以 通过 在 运行 时 间 内 核 载 入 模块 来 增强 netfilter 功 能 。 一 个 定义 好 的 规则 集 , 告知 内 核 在 何 时 使 
































j 各 个 模块 的 代码 。 内 核 和 netfilter 之 间 的 接口 保 排 在 很 小 〔 小 到 不 能 再 小 ) 的 规模 上 ， 尽 可 能 使 两 个 
领域 彼此 隔离 ， 避 免 二 者 的 相互 干扰 并 改进 网 络 代 码 的 稳定 性 。 
前 儿 节 中 经 常 提 到 ，netfilter 挂 钓 位 于 内 核 中 各 个 位 置 ， 以 支持 netfilter 代 码 的 执行 。 这 些 不 仅 用 

于 IPv4， 也 用 于 IPv6 和 DECNET 协 议 。 这 里 只 讨论 了 IPv4， 但 其 概念 同样 适用 于 其 他 两 种 协议 。 
netfilter 实 现 划分 为 如 下 两 个 部 分 。 
口 内 核 代码 中 的 挂钩 ， 位 于 网 络 实现 的 核心 ， 用 于 调用 netfilter 代 码 。 
口 netfilter 模 块 ， 其 代码 挂 钧 内 部 调用 ， 但 其 独立 于 其 余 的 网 络 代 码 。 一 组 标准 模块 提供 了 常用 

的 函数 ， 但 可 以 在 扩展 模块 中 定义 用 户 相关 的 函数 。 

iptablesD DDOO000000000000000000000000000 netited 0 
D000000000000000000000000000000000000000 
D00000000000000000000000000000000000000 

2. 调用 挂钩 函数 
在 通过 挂钩 执行 netfilter 代 码 时 ， 网 络 层 的 函数 将 会 被 中 断 。 挂 钩 的 一 个 重要 特性 是 ,它们 将 一 
函数 划分 为 两 部 分 ， 前 一 部 分 在 netfilter 代 码 调用 前 运行 ， 而 后 一 部 分 在 其 后 执行 。 为 什么 惨 合用 商 个 
独立 的 函数 , 而 不 是 调用 一 个 特定 netfilter 函 数 执行 所 有 相关 的 netfilter 模 块 ， en 
这 种 方法 初 看 起 来 确实 有 点 复杂 ， 但 可 以 解释 如 下 。 它 使 得 优化 〈 或 管理 员 ) 可 以 决定 不 将 netfilter 
功能 编译 到 内 核 中 ， 在 这 种 情况 下 ， 网 络 函数 可 以 在 不 降低 速度 的 情况 下 执行 。 它 也 导致 需要 在 网 络 
实现 中 加 入 大 量 的 预 处 理 器 语句 ， 根 据 特定 的 配置 选项 (启用 或 禁用 netfilter)， 在 编译 时 选择 适当 的 
代码 。 




































































































































































































































































































































































































































































netfilter 挂 钩 通过 <netfilter.h> 中 的 NF_HOOK 宏 调用 。 如 果 内 核 启 用 的 netfilter 支 持 , 该 宏 定义 如 
下 : 
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<netfilter.h> 
static inline int nt hook thresh(int pf, unsigned int hook, 
struct sk buff **pskb, 
struct net_device *indeyv, 
struct net_device *outdev， 
int (*okfn) (struct sk _ buff *), int thresh, 
int cond) 


if (!cond) 
return 1; 
return nf_hook_ slow(pf, hook, pskb, indev, outdev, okfn, thresh); 
} 


<netfilter.h> 





#define NF_HOOKRK_ THRESH(pf, hook, skb, indev, outdev, okfn, thresh) % 

({int __ret; \ 

if (( ret=nf hook thresh(pf, hook, &(skb), indev, outdev, okfn, thresh, 1)) == 1)\ 
ret = (okfn) (skb); \ 

_ ret;}) 

#define NF_HOOK(pf, hook, skb, indev, outdev, okfn) \ 


NF_HOOKRK_THRESH(pf, hook, skb, indev, outdev, okfn, INT_ MIN) 
宏 参 数 语义 如 下 。 

口 pf 是 指 调用 的 netfilter 挂 钧 源 自 哪 个 协议 族 。IPv4 层 的 所 有 调用 都 使 用 PF_INET。 
口 hook 是 挂钩 编号 ， 可 能 的 值 都 定义 在 <netfilter_ipv4.h> 中 。 在 IPv4 中 ， 

NF_IP_FORWARD 和 NF_IP_LOCAL_OUT (用 于 IPvV4)， 如 上 所 述 。 
口 skb 是 所 处 理 的 套 接 字 缓冲 区 。 
口 indev 和 outdev 是 指向 网 络 设备 的 net_device 实 例 的 指针 ， 分 组 通过 二 者 进入 和 离开 内 核 。 
这 些 值 可 以 赋值 为 NULL 指 针 ， 因 为 并 非 所 有 挂钩 的 相关 信息 都 是 已 知 的 (例如 ， 在 查找 路 
之 前 ， 内 核 并 不 知道 分 组 将 通过 哪个 设备 离开 内 核 )。 
口 okfn 是 一 个 函数 指针 ， 原 型 为 int (*okfn) (struct sk_buff *)。 它 在 netfilter 挂 钓 结束 时 
执行 。 
该 宏 在 展开 时 ， 首 先 迁 回 到 NF_HOOKR_THRESH 和 nf_hook_thresh， 然 后 才 通 过 nf_hook_slow 来 
处 理 netfilter 挂 钓 ， 并 调用 用 于 结束 netfilter 处 理 的 okfn 函 数 。 这 种 看 起 来 比较 复杂 的 方法 是 必要 的 ， 
凡 为 内 核 也 提供 了 一 种 可 能 性 ， 即 只 考虑 优先 级 高 于 一 定 阔 值 的 netfilter 挂 钓 ， 而 忽略 所 有 其 他 挂钩 。 
就 NF_HOOK 来 说 ， 阔 值 设置 为 最 小 的 可 能 整数 值 ， 这 样 每 个 挂钩 函数 都 会 得 到 处 理 。 但 仍然 可 以 直接 
使 用 NF_HOOK_THRESH 设 置 一 个 特定 的 闷 值 。 由 于 当前 只 有 桥接 实现 和 IPv6 的 连接 跟踪 机 制 利 用 了 该 
特性 ， 这 里 不 会 进一步 讨论 。 
考虑 NF_HOOK_THRESH 的 实现 。 首先 调用 了 nf_hook_thresh。 该 函数 首先 检查 congd 中 给 定 的 条 件 
是 否 为 真 .如 果 不 是 , 则 直接 向 调用 者 返回 1.。 和 否则 , 调用 nf_hook_slow。 该 函数 裔 历 所 有 注册 的 netfilter 
挂 钧 并 调用 它们 。 如 果 分 组 被 接受 ， 则 返回 1!， 否 则 返回 其 他 的 值 。 
如 果 nf_ hook_thresh 返 回 1， 即 netfilter 判 定 接受 该 分 组 ， 那 么 控制 传递 到 okfn 中 指定 的 结束 处 
Ip 转 发 代码 包 合 含 了 一 个 典型 的 NF_HOOK 宏 调用 ， 我 们 将 其 作为 例子 来 考虑 : 


net/ipv4/in_forward.c 
int ip_forward(struct sk_ buff *skb) 
{ 
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有 的 名 称 如 
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return NF_HOOK(PF_INET, NF_IP_FORWARD, skb, skb->dev, rt->u.dst.dev, 
ip_forward finish); 


; 


其 中 指定 的 okfn 是 ip_forwargd_finish。 如 果 上 述 测试 确定 没有 为 PF_INET 和 NF_IP_FORWARD 
注册 netfilter 挂 钩 ， 那 么 控制 直接 传递 到 该 函数 。 和 否则 ， 执 行 相 关 的 netfilter 代 码 ， 控 制 因 此 转 入 
ip_forward_finish《〈 假 定 分 组 没有 丢弃 或 在 内 核 控 制 下 删除 )。 如 果 没 有 安装 挂钩 ， 那 么 上 述 代码 
流程 的 效果 ， 等 同 于 将 ijp_forward 利 ip_forward_finish 实 现 为 一 个 连续 的 过 程 。 
如 果 禁 用 了 netfilter， 那 么 内 核 利 用 C 编 译 器 的 优化 选项 来 防止 处 理 速 度 降低 。2.6.24 之 前 的 内 核 
版 本 要 求 okfn 定 义 为 内 联 函 数 : 

net/ipv4/ip_forward.c 

static :inline int ip_ forward finish(struct sk buff xskb) { 














































































































} 

这 意味 着 该 函数 看 起 来 是 一 个 普通 函数 ， 但 编译 器 并 不 通过 经 典 的 函数 调用 方式 (传递 参数 、 将 
指令 指针 设置 为 指向 函数 代码 、 读 取 参 数 ， 等 等 ) 来 调用 它 。 相反 ， 该 函数 的 全 部 C 代 码 都 复制 到 调 
用 处 。 尽 管 这 导致 可 执行 文件 长 度 增 加 《特别 是 对 于 较 大 的 函数 )， 但 速度 上 的 提高 补偿 了 这 一 点 。 
GNU C 编 译 器 保证 在 采用 内 联 函 数 时 ， 就 像 是 宏一 样 快速 。 

但 从 内 核 版 本 2.6.24 开 始 ， 几 乎 在 所 有 情况 下 都 可 以 删除 内 联 定义 。 


net/ipv4/ip_forward.c 
static int ip, forward finish(struct sk buff *skb) 1{ 














































































































} 

这 之 所 以 是 可 能 的 ， 是 因为 GNU C 编 译 器 已 经 能 够 进行 一 项 额外 的 优化 : 过 程 尾部 调用 。 该 机 制 
起 源 于 函数 式 语 言 ， 例 如 ， 对 Scheme 语言 的 实现 来 说 ， 这 种 机 制 是 必须 的 。 如 果 一 个 函数 作为 另 一 个 
函数 的 最 后 一 条 语句 被 调用 ， 那 么 被 调用 者 在 结束 工作 后 是 不 必 返 回调 用 者 的 ， 因 为 其 中 已 经 无 事 可 
做 。 这 使 得 可 以 对 调用 机 制 进行 一 些 简 化 ， 使 执行 速度 能 够 与 旧 的 内 联机 制 一 样 ， 而 又 没有 内 联机 制 
的 代码 复制 问题 ， 因 而 不 会 增加 内 核 可 执行 文件 的 大 小 。 但 gcc 并 未 对 所 有 挂钩 函数 进行 这 种 优化 ， 
仍然 有 少量 挂 钧 函数 是 内 联 的 。 
如 果 没 有 启用 netfilter 配 置 ， 扫 描 nf_hooks 数 组 是 没有 意义 ， 宏 NF_HOOK 的 定义 有 些 不 同 : 


include/net/netfilter.h 
#define NF_HOOK(pf, hook, skb, indev, outdev, okfn) (okfn) (skb) 


对 挂 钧 函数 的 调用 ， 直 接替 换 为 对 okfn 中 指定 函数 的 调用 《关键 字 inline 告 知 编译 器 通过 复制 
代码 来 完成 该 调用 )。 原 来 的 两 个 函数 现在 合并 为 一 个 ， 也 不 需要 再 插入 一 个 函数 调 

3. 扫描 挂 钧 表 

如 果 至 少 注 册 了 一 个 挂钩 函数 并 需要 调用 ， 那 么 会 调用 nf_hook_slow。 所 有 挂 钧 都 保存 在 二 维 
数组 nf_hooks 中 : 
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net/netfilter/core.c 
struct list_ head nf_hooks [NPROTO] [NF_MAX HOOKS] _ read mostly; 


NPROTO 指 定 系 统 支 持 的 协议 族 的 最 大 数目 (当前 为 34)。 各 个 协议 族 的 符号 常数 ， 诸 如 PF_INET 
和 PF_DECnet， 保 存在 include/1inux/socket.h 中 。 每 个 协议 可 以 定义 NF_MAX_HOOKS 个 挂钩 链表 ， 
默认 值 是 8 个 。 























626 D 120 0 0 











该 表 的 1ist_heagd 元 素 作 为 双 链 表 表 头 ， 双 链表 中 可 容纳 nf_hook_ops 实 例 : 
<netfilter.h> 
struct nf_hook_ops 
{ 
struct list head list; 


/* 用 户 由 此 处 向 下 填写 。 */ 
nf_hookfn *hook; 

struct module *owner; 
Lint 光 直 3 

int hooknum; 

/* 挂钩 按 优 先 权 升 序 排列 。* / 


nt SELority: 























}; 
除了 标准 的 成 员 〈1ist 将 结构 连接 到 一 个 双 链 表 中 ， 如 果 该 挂钩 实现 为 模块 ，ownez 是 一 个 指向 
所 属 模块 的 nodule 数 据 结 构 的 指针 )， 其 他 结构 成 员 的 语义 如 下 。 
口 hook 是 一 个 指 问 挂钩 函数 的 指针 ， 它 需要 的 参数 与 NF_HOOK 宏 相同 : 
<netfilter.h> 
typedef unsigned int nf hookfn(unsigned int hooknum, 
Struct Sk buff **sklb, 
const struct net_ device *in, 


const struct net_device *out, 
int (*okfn) (struct sk buff *)); 


口 bf 和 hoolknum 指 定 了 协议 族 和 与 挂钩 相关 的 编号 。 这 信息 还 可 以 从 挂钩 链表 在 nf_hooks 中 的 
位 置 推断 出 来 。 
口 链表 中 的 挂钩 是 按照 优先 级 升序 排列 的 (优先 级 由 priority 表 示 )。 整 个 signeqd int 类 型 的 
范围 都 可 用 于 表示 优先 级 ， 内 核 也 定义 了 一 些 推荐 使 用 的 默认 值 : 


<netfilter_ipv4.h> 
enum nf_ip_ hook priorities { 
NF_IP_PRI_FIRST = INT_MIN, 
























































































































































NF_I 
NE_I 


_PRI_CONNTRACK_CONFIRM = INT_MAX, 
_PRI_LAST = INT_ MAX, 


NF_IP_PRI_CONNTRACK_ DEFRAG = -400, 
NF_IP_ PRI_RAW = -300, 
NF_IP_PRI_SELINUX_ FIRST = -225, 
NF_IP_PRI_CONNTRACK = -200, 
NF_IP_PRI_MANGLE = -150, 
NF_IP_PRI_NAT DST = -100, 
NF_IP_PRI_FILTER = 0, 
NF_IP_PRI_NAT_SRC = 100， 
NF_IP_ PRI_SELINUX LAST = 225, 
NF_IP_PRI_CONNTRACK_ HELPER = INT_MAX -2, 
NF_IP_PRI_NAT_SEQ ADJUST = INT_ MAX -1, 
P 
P 


}; 
例如 ， 这 确保 了 分 组 数据 的 处 理 总 是 在 过 滤器 操作 之 前 进行 。 
可 以 根据 协议 族 和 挂钩 编号 从 nf_hook 数 组 中 选择 适当 的 链表 。 接 下 来 的 工作 委托 给 nf_iterate， 
并 调用 hook 函 数 。 
4. 激活 挂钩 函数 
每 个 hook 函 数 都 返回 下 列 值 之 一 
口 NF_ACCEPT 表 示 接 受 分 组 。 这 意味 着 所 述 ， 内 核 将 继续 使 用 未 修改 的 分 组 ， 
使 之 穿 过 网 络 实现 中 剩余 的 协议 层 〈 或 通过 后 续 的 挂钩 )。 
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口 NF_STOLEN 表 示 挂 钓 函 数 “ 穷 取 ” 了 一 个 分 组 并 处 理 该 分 组 。 此 时 ， 该 分 组 已 与 内 核 无 关 ， 不 

必 再 调用 其 他 挂钩 。 还 必须 取消 其 他 协议 层 的 处 理 。 
口 NF_DROP 通 知 内 核 丢 弃 该 分 组 。 如 同 NF_sTOLEN， 其 他 挂 钧 或 网 络 层 的 处 理 都 不 再 需要 了 。 套 

接 字 缓 冲 区 (和 分 组 ) 占用 的 内 存 空间 可 以 释放 ， 因 为 其 中 包含 的 数据 可 以 被 丢弃 例如， 
挂钩 可 能 认定 分 组 是 损坏 的 。 
口 NF_QUEUE 将 分 组 置 于 一 个 等 待 队列 上 ， 以 便 其 数据 可 以 
挂钩 函数 。 
口 NF_REPEAT 表 示 再 次 调用 该 挂钩。 
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用 户 空 间 代码 处 理 。 不 会 执行 其 他 















































OOOO eed ease 
DO0000000000000000000000000000 rele 0 UU U0 


内 核 提 供 了 一 个 挂钩 函数 的 集合 ， 使 得 不 必 为 每 个 场合 都 单独 定义 挂 匆 函数 。 这 些 称 为 iptables， 
于 分 组 的 高 层 处 理 。 它 们 使 用 用 户 空 间 工具 iptables 配 置 ， 这 里 不 讨论 该 工具 。 
12.8.7 1IPv6 


尽管 因特网 的 广泛 使 用 是 近年 来 的 事情 , 但 其 技术 基础 已 经 存在 相当 长 的 一 段 时 间 。 当 今 的 因 特 
网 协议 是 在 1981 年 引入 的 。 尽 管 底层 标准 的 设计 和 前 瞻 性 都 很 好 ， 但 已 经 表现 出 了 一 些 募 气 。 在 过 去 
儿 年 中 因特网 的 爆炸 性 增长 ， 抛 出 了 一 个 与 IPv4 的 可 用 地 址 空间 相关 的 问题 ，32 位 地 址 空间 最 多 允许 
寻 址 2” 台 主机 (忽略 子 网 之 类 的 因素 )。 尽 管 早期 认为 该 地 址 空间 是 不 会 用 尽 的 ,但 在 可 预见 的 未 来 ， 
随 着 越 来 越 多 的 设备 〈 从 PDA， 到 激光 打印 机 ， 到 咖啡 机 和 冰箱 ) 都 需要 了 下 地 址 ，IPv4 地 址 空间 就 不 
够 用 了 。 
1. 概述 和 创新 
1998 年 , 定义 了 一 项 名 为 IPv62 的 新 标准 。 现 在 Linux 内 核对 该 标准 的 支持 已 经 达到 了 产品 级 水 平 。 
该 协议 的 完整 实现 在 net/ipv6 目 录 下 。 网 络 层 的 模块 化 开放 结构 意味 着 IPv6 可 以 利用 现存 的 成 熟 的 基 
础 设施 。IPv6 在 许多 方面 类 似 于 IPv4， 在 这 里 ， 只 需要 简要 概述 一 下 。 
IPV6 的 一 项 关键 改变 是 采用 了 全 新 的 分 组 格式 ， 其 中 使 用 了 128 位 JP 地 址 ， 因 而 可 以 更 容易 、 更 
快速 地 处 理 。IPv6 分 组 的 结构 如 图 12-21 所 示 。 



















































































































































































































































































































































































































































































版 本 | 流量 类 型 | 数据 流标 记 
净 茶 长度 下 一 首部 | 跳 数 限制 
广 源 地 址 
[二 目标 地 址 
净 荷 











图 12-21 IPv6 分 组 的 结构 



































Q 该 标准 不 能 称 之 为 IPv5， 因 为 该 名 称 已 经 用 于 STP 协 议 ， 它 也 定义 在 一 个 RFC 中 ， 但 公众 对 此 了 解 很 少 。 
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该 结构 比 IPv4 简 单 得 多 。 其 首部 只 包含 8 个 字段 ， 不 像 IPv4 那 样 是 14 个 。 需要 特别 注意 的 是 ， 其 
中 没有 与 分 片 相关 的 字段 。 尽 管 IPv6 也 支持 将 分 组 数据 划分 为 更 小 的 单元 ， 但 相关 信息 保存 在 一 个 扩展 
首部 中 ，next header 字 段 即 指向 该 首部 。 由 于 IPv6 支 持 可 变数 量 扩展 首部 ， 所 以 它 能 很 容易 引入 新 特性 

从 IPv4 到 IPv6 的 改变 ， 和 迫使 需要 修改 编程 接口 。 尽 管 仍 然 使 用 套 接 字 ， 但 许多 旧 的 、 熟 悉 的 函数 
会 以 新 的 名 称 出 现 ， 来 支持 新 选项 。 这 是 C 库 和 用 户 空间 需要 面 对 的 问题 ， 这 里 将 略 过 。 
于 地 址 长 度 由 32 位 增长 到 128 位 ， 耳 地 址 的 记号 也 发 生 了 改变 。 维 持 此 前 的 记号 《〈 字 节 数 组 ， 
点 分 十 进 制 记 法 ) 将 导致 超 长 的 地 址 字符 串 。 因 而 对 IPv6 地 址 优先 使 用 十 六 进 制 记 法 ， 例 如 


















































































































































































































































FEDC:BA98:7654:3210:FEDC:BA98:7654:3210 和 1080:0:0:0:8:800:200C:417A。 混 用 IPv4 和 IPv6 
格式 ， 将 出 现 诸如 0o:0:0:0:0:FFEE:129.144.52.38 这 样 的 地 址 ， 也 是 允许 的 。 
2. 实现 





在 IPv6 分 组 穿 过 网 络 各 个 协议 层 时 ， 会 采用 何 种 路 径 呢 ?在 较 低 的 协议 层 上 ， 与 IPv4 相 比 不 会 有 
什么 改变 ， 因 为 其 中 使 用 的 机 制 与 高 层 协议 无 关 。 但 在 数据 传递 到 互联 网 络 层 之 后 ， 改 变 很 明显 。 图 
12-22 给 出 了 IPv6 实 现 的 〈 粗 粒度 的 ) 代码 流程 图 。 
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Netfilter: 


NF_IP6_LOCAL_IN 





Netfilter: 
NF_IP6_LOCAL_OUT 


















































转发 
ip6_forward 
Netfilter: 
NF_IP6_PRE_ROUTING 


ipv6_rcv Netfilter: 

aid ld 
主机 到 网 络 层 〈 以 太 网 等 ) | 

图 12-22”IPv6 实 现 的 代码 流程 图 

如 图 12-22 所 示 ，IPv4 到 IPv6 的 结构 性 变更 并 不 多 。 尽 管 函 数 名 称 不 同 ,但 代码 穿 过 内 核 所 沿 的 路 

径 大 体 上 是 相同 的 。 为 节省 篇 幅 ， 实 现 细节 就 不 讨论 了 。” 

12.9 ”传输 层 

两 个 基于 IP 的 主要 传输 协议 分 别 是 UDP 和 TCP， 前 者 用 于 发 送 数 据 报 ， 后 者 可 建立 安全 的 、 面 向 


连接 的 服务 。 尽 管 UDP 是 一 个 简单 的 、 易 于 实现 的 协议 ， 但 TCP 有 几 个 隐藏 展 好 《不 为 人 所 知 ) 的 陷 
阱 和 障 但， 这 使 得 其 实现 比较 复杂 。 


12.9.1 UDP 


前 一 节 解 释 过 ，ip_local_qeliver 负 责 分 发 下 分 组 传输 的 数据 内 容 。nety/ipv4/udp.c 中 的 


TOOESUEDUE 






Netfilter: 


NF_IP6_POST_ROUTING 






















































































































































QD 请 注意 ，netfilter 挂 钩 的 名 称 在 内 核 版 本 2.6.25 中 也 会 改变 ， 与 在 IPv4 中 一 样 ， 该 版 本 在 本 书 撰写 时 仍然 在 开发 中 。 
这 些 常 数 不 会 再 使 用 NE_TP6_ 前 缀 ， 而 是 使 用 NE_INET_。 因 而 ITPv4 和 JIPv6 将 使 用 同一 组 常数 。 
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udp_rcv 用 于 进一步 处 理 UDP 数 据 报 。 相 关 的 代码 流程 图 在 图 12-23 给 出 。 

















udp_rcv 内 是 udp4_1ib_rcv 的 一 个 包装 器 ， 因 为 它 与 RFC 3828 定 义 的 UDP-lite 协 议 共 享 代码 。 
照例 ， 该 函数 的 输入 参数 是 一 个 套 接 字 缓冲 区 。 在 确认 分 组 未 经 自 改 之 后 ， 必 须 用 _udp4_ 
1ib_1lookup 碍 找 与 之 匹配 的 监听 套 接 字 。 连 接 参 数 可 以 从 UDP 首部 获取 ， 其 结构 如 图 12-24 所 示 。 
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在 udptable 中 查找 套 接 字 
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找到 了 








标 套 接 字 ? 


和 否 





udp_queue rcv_skb 




















发 送 目 标 不 可 到 达 的 消息 











图 12-23 ”udp_rcv 的 代码 流程 图 
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Sock_queue rcv_skb 
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源 端口 目的 端 














长 度 校 验 和 








图 12-24 UDP 分 组 的 结构 























图 12-24 中 的 “ 源 端口 ”和 “目的 端口 ”分 别 指定 了 分 组 的 源 系统 和 目标 
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的 值 为 0~65535， 因 为 二 者 使 用 的 都 是 16 位 全 
算 ,“ 校 验 和 ”保存 的 是 一 个 可 选 的 校 验 和 。 
UDP 分 组 的 首部 在 内 核 中 由 下 列 数据 结构 表示 : 
<udp.h> 
struct udphdr { 
_ be16 source; 
—bel6 dest; 


_ be16 len; 
bel1l6 check; 
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net/ipv4/udp.c 中 的 _uqdp4_1ib_lookup 用 于 查找 与 分 组 目标 匹配 的 内 














系统 的 端口 号 ， 可 接受 





。 “长 度 ” 是 分 组 (首部 和 数据 ) 的 总 长 度 ， 按 字 节 计 





核 内 部 的 套 接 字 。 在 有 


TU 














某 个 监听 进程 对 该 分 组 感 兴趣 时 ， 在 udaphash 全 局 数组 中 则 会 有 与 分 组 目标 ? 
例 ，_uqp4_1ib_lookup 可 采用 散 列 方法 查找 并 返回 该 实例 。 如 果 找 不 到 这 样 
发 送 一 个 “目标 不 可 到 达 ” 的 消息 ， 并 丢弃 分 组 的 内 容 。 












































G@) IP 地 址 无 须 指 定 ， 因 为 它 已 经 在 IP 首 部 中 。 




















厅 口 匹 配 的 sock 结 构 实 
的 套 接 字 ， 则 向 源 系统 
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尽管 尚未 讨论 sock 结 构 ， 它 不 可 避免 地 使 人 想到 术语 socket〈 套 接 字 )， 这 正 是 我 们 想 要 的 。 我 们 
现在 正 处 于 应 用 层 的 边界 上 , 数据 迟早 要 使 用 套 接 字 传 输 到 用 户 空 间 , 就 像 本 章 开 头 的 示例 程序 那样 。 
日 要 注意 ， 内 核 中 有 两 种 数据 结构 用 于 表示 套 接 字 。sock 是 到 网 络 访问 层 的 接口 ， 而 socket 是 到 用 
户 空 间 的 接口 。 这 些 结构 相当 见长 ,将 在 下 一 节 详 细 讨 论 , 将 考察 应 用 层 关 联 到 内 核 的 那 部 分 。 目 前 ， 
我 们 只 对 sock 结 构 中 用 于 向 下 一 个 更 高 层次 转发 数据 的 方法 感 兴趣 。 这 些 方法 必须 将 接收 到 的 数据 放 
置 在 一 个 特定 于 套 接 字 的 等 待 队列 上 ， 并 通知 接收 进程 有 新 数据 到 达 。 当 前 ，sock 结 构 可 以 简化 为 下 
列 缩 略 版 : 

include/net/sock.h 

/* 简化 版 */ 

struct sock { 
wait_ queue head t *sk_sleep; 








































































































































































































struct sk_ buff_ head sk_receive_ queue; 
/* 回调 */ 
void (*sk_ data_ ready) (struct sock *sk, int bytes); 


} 

在 udp_rcv 查 找到 适当 的 sock 实 例 后 ， 控 制 转移 到 udp_queue_rcv_skb， 而 后 义 立 即 到 sock_ 
queue_rcv_skb， 其 中 会 执行 两 个 重要 的 操作 ， 完 成 到 应 用 层 的 数据 交付 。 
口 等 待 通过 套 接 字 交付 数据 的 进程 ， 在 sk_sleep 等 待 队 列 上 睡眠 。 
口 调用 skb_queue_tail 将 包含 分 组 数据 的 套 接 字 缓冲 区 插入 到 sk_receive_queue 链 表 末 端 ， 
其 表 头 保存 在 特定 于 套 接 字 的 sock 结 构 中 。 
口 调用 sk_qata_ready 指 向 的 函数 〈 如 果 用 标准 函数 sock_init_data 来 初始 化 sock 实 例 ， 通 常 

是 sock_def_readable), 通知 套 接 字 有 新 数据 到 达 。 这 会 唤醒 在 sk_sleep 队 列 上 了 睡眠、 等 待 
数据 到 达 的 所 有 进程 。 

12.9.2 TCP 

TCP 提 供 的 函数 比 UDP 多 很 多 。 因 此 其 在 内 核 中 的 实现 要 困难 得 多 ， 也 牵涉 更 广泛 的 内 容 ， 涉 及 
的 有 具体 问题 可 以 写 出 一 整 本 书 。TCP 用 于 支持 数据 流 安全 传输 的 面向 连接 的 通信 模型 ， 在 内 核 中 不 仅 
需要 更 多 的 管理 开销 , 还 需要 进一步 的 操作 , 诸如 通过 计算 机 之 间 的 协商 来 显 式 建立 连接 。 内 核 中 TCP 
的 实现 ， 有 很 大 一 部 分 用 于 特定 场景 的 处 理 〈 或 防止 ) 以 及 用 于 提高 传输 性 能 的 优化 ， 所 有 这 些微 妙 
奇异 之 处 都 不 在 这 里 讨论 。 

下 面 来 讨论 TCP 协 议 的 3 个 主要 部 分 (连接 建立 、 连 接 终止 和 数据 流 的 按 序 传输 )， 在 考察 实现 之 
前 ， 首 先 来 描述 标准 本 身 对 过 程 的 一 些 要 求 。 

TCP 连 接 总 处 于 某 个 明确 定义 的 状态 。 这 些 状态 包括 上 文 提 到 的 listen 和 established 状 态 。“ 还 有 其 
他 状态 ， 以 及 明确 定义 的 规则 ， 用 于 各 个 状态 之 间 的 迁移 ， 如 图 12-25 所 示 。 
初 看 起 来 ， 图 12-25 有 点 混乱 ,即使 不 能 说 令 人 厌烦 。 但 它 包 含 的 信息 几乎 完全 描述 了 TCP 实 现 的 
行为 。 本 质 上 ， 内 核 可 以 区 分 各 个 状态 并 实现 状态 间 的 迁移 (使 用 称 为 0 口 口 口 口 的 工具 )。 但 这 既 
不 特别 高 效 ， 也 不 快速 ， 因 此 内 核 采用 了 一 种 不 同 的 方法 。 但 在 描述 各 个 TCP 操 作 时 ， 将 不 断 引 用 该 
图 ， 并 将 其 作为 进行 考察 的 基础 。 

























































































































































































































































































































































































































































































QD 此 前 没有 提 到 ， 佑 计 是 书 的 版 本 更 新 造成 的 笔 误 。 译 者 注 
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fin wait 2 















































1. TCP 首 部 
TCP 分 组 的 首部 包含 了 状态 数据 和 其 他 连接 信息 。 首 部 结构 如 图 12-26 所 示 。 
0 4 10 16 24 32 
© URG @RST 
序列 号 ©@ACK @SYN 
确认 序列 号 @PSH @FIN 
| 保本 “ReeG an | 








项 充 / 补 齐 


净 荷 


图 12-26 TCP 分 组 的 结构 


source 和 aest 指 定 了 所 用 的 0 DD 。 类 似 于 UDP， 二 者 都 是 2 字 节 。 

seq 是 一 个 序列 号 。 它 指定 了 TCP 分 组 在 数据 流 中 的 位 置 , 在 数据 丢失 需要 重新 传输 时 很 重要 。 
ack_seq 包 含 了 一 个 序列 号 ， 在 确认 收 到 TCP 分 组 时 使 用 。 
doff 表 示 口 日 口 口 口 《data offset〉 并 指定 了 TCP 首 部 结构 的 长 度 ， 由 于 一 些 选项 是 可 变 的 ， 
其 值 并 不 总 是 相同 的 。 

口 reserved 不 可 用 (因而 总 是 应 该 设置 为 0)。 

口 urg (紧急 )、ack (确认 )、psh ( 推 )、rst ( 重 置 )、syn (同步 ) 和 fin 都 是 控制 标志 ， 用 于 
检查 、 建 立 和 结束 连接 。 
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口 window 告 诉 连接 的 男 一 方 ， 在 接收 方 的 缓冲 区 满 之 前 ， 可 以 发 送 多 少 字 节 。 这 用 于 在 快速 的 

发 送 方 与 低速 接收 方 通信 时 防止 数据 的 积压 。 

口 checksum 是 分 组 的 校 验 和 。 

口 options 是 可 变 长 度 列表 ， 包 含 了 额外 的 连接 选项 。 

口 实际 数据 (或 净 答 ) 在 首部 之 后 。options 字 段 可 能 需要 补 齐 ， 因 为 数据 必须 起 始 于 32 位 边界 
位 置 (为 了 简化 处 理 )。 

首部 由 tcphgr 数 据 结 构 实现 。 必 须 注意 系统 的 字 节 序 ， 因 为 其 中 使 用 了 位 域 字段 。 


<tcp.h> 
struct tcphdr { 
_ bel16 source; 
_ bel1é6 dest; 
_ be32 sedq; 
_ be32 ack_sedq; 
#if defined(_ LITTLE ENDIAN_ BITFIELD) 
_ul6 resl:4, 
doff:4, 
下 守卫， 
SY 
rat 
peshs:1; 
acks1. 
bb re 
ece:1, 
CWrels 
#elif defined(__BIG ENDIAN_ BITFIELD) 
U6 doffs4, 
resl:4, 
cwr:1, 
ece:1, 
he 
Es 
Bensl, 
Ey 
Sv 
Ee 














































































































#error "Adjust your <asm/byteorder.h> defines" 


be16 window; 
_ suml6 check; 
_ be16 urg_ptr; 





过 
2. 接收 TCP 数 据 
所 有 TCP 操 作 (连接 建立 和 关闭 , 数据 传输 ) 都 是 通过 发 送 带 有 各 种 属性 和 标志 的 分 组 来 进行 的 。 
在 讨论 状态 迁移 之 前 ， 必 须 确定 TCP 数 据 是 如 何 传递 到 传输 层 的 ， 且 首部 中 的 信息 在 何 处 进行 分 析 。 
在 互联 网 络 层 处 理 过 分 组 之 后 ，tcp_v4_rcv 是 TCP 层 的 入 口 。tcp_v4_rcv 的 代码 流程 图 在 图 
12-27 给 出 。 
系统 中 的 每 个 TCP 套 接 字 都 归 入 3 个 散 列 表 之 一 ， 分 别 接受 下 列 状 态 的 套 接 字 。 
口 完全 连接 的 套 接 字 。 
口 等 待 连接 〈 监 听 状态 ) 的 套 接 字 。 
口 处 于 建立 连接 过 程 中 《使 用 下 文 讨 论 的 三 次 握手 ) 的 套 接 字 。 
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__inet_lookup 
__inet lookup_established 


inet_ lookup_ listener 










实现 TCP 状 态 自动 机 | 
图 12-27 ”tcp_v4_rcv 的 代码 流程 图 


在 对 分 组 数据 进行 各 种 检查 并 将 首部 中 的 信息 复制 到 套 接 字 缓冲 区 的 控制 块 之 后 , 内 核 将 查找 等 
待 该 分 组 的 套 接 字 的 工作 委托 给 ”inet_1lookup 函 数 。 该 函数 唯一 的 任务 就 是 调用 男 两 个 函数 ， 扫 描 
各 种 散 列 表 。__inet_lookup_established 企 图 返回 一 个 已 连接 的 套 接 字 。 如 果 没 有 找到 适当 的 结 
构 ， 则 调用 inet_lookup_listener 消 数 检 查 所 有 的 监听 套 接 字 。 
在 两 种 情况 下 ， 这 些 函 数 合 并 考虑 了 对 应 连接 的 各 种 不 同 因 素 ( 客 户 机 和 服务 器 的 IP 地 址 、 网 络 
接口 的 端口 地 址 和 内 核 内 部 的 索引 )， 通 过 散 列 函数 来 查找 一 个 前 述 的 sock 类 型 实例 。 在 搜索 监听 的 
套 接 字 时 ， 会 针对 与 通配符 匹配 的 几 个 套 接 字 ， 应 用 计 分 方法 来 查找 其 中 最 佳 的 候选 者 。 由 于 其 结果 
只 反映 了 从 直觉 上 认定 的 最 佳 候 选 者 ， 这 里 不 讨论 该 主题 。 
与 UDP 相 比 ， 在 找到 对 应 该 连接 的 适当 的 sock 结 构 之 后 ， 工 作 尚 未 结束 ， 只 是 新 的 工作 的 开始 。 
取决 于 连接 的 状态 ,必须 进 行 如 图 12-25 所 示 的 状态 迁移 。tcp_v4_qo_rcv 是 一 个 多 路 分 解 器 ， 基于 套 
接 字 状态 将 代码 控制 流 划 分 为 不 同 的 分 支 。 
下 文 的 几 节 阐述 各 种 选项 和 相关 的 操作 ,但 不 涵盖 TCP 协 议 中 那些 技巧 性 很 强 且 很 少 使 用 的 奇异 
之 处 。 对 此 ， 可 参见 诸如 [WPR+01]、[Ben05] 和 [Ste94] 之 类 的 专著 。 
3. 三 次 握手 
在 可 以 使 用 TCP 链 路 之 前 ， 必 须 在 客户 端 和 主机 之 间 显 式 建立 连接 。 如 上 所 述 ， 在 0 0D (active) 
和 口 口 (passive) 连接 的 建立 方式 是 有 区 别 的 。 
内 核 〈 即 连接 所 涉及 的 两 台 机 器 的 内 核 ) 在 连接 建立 之 前 ， 会 看 到 下 述 情形 : 客户 端 进程 的 套 接 
字 状 态 为 CLOSED， 而 服务 器 套 接 字 的 状态 是 LISTEN。 
建立 TCP 连 接 的 过 程 需要 交换 3 个 TCP 分 组 ， 因 而 称 为 LU DODD (three-way handshake)。 根 据 图 
12-25 中 的 状态 图 ， 会 发 生 下 列 操作 。 
口 客户 端 通过 向 服务 器 "发 送 SYN 来 发 出 连接 请 求 。 客 户 端的 套 接 字 状 态 由 CLOSED 变 为 
SYN_SENT。 
口 服务 器 在 一 个 监听 套 接 字 上 接收 到 连接 请 求 ， 并 返回 SYN 和 ACK。” 服务 器 套 接 字 的 状态 
LISTEN 变 为 SYN_RECV。 
口 客户 端 套 接 字 接收 到 SYMN/ACK 分 组 后 ， 切 换 到 ESTABLISHED 状 态 ， 表 明 连 接 已 经 建立 。 一 
个 ACK 分 组 被 发 送 到 服务 器 。 
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QD 这 是 一 个 SYN 标 志 位 置 位 的 空 分 组 的 名 称 。 
@ 这 一 步骤 可 划分 为 两 部 分 ， 发 送 的 第 一 个 分 组 ACK 置 位 ， 第 二 个 分 组 SYN 置 位 ， 但 实际 上 没有 这 样 做 。 
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口 服务 器 接收 到 ACK 分 组 ， 也 切换 到 ESTABLISHED 状 态 。 这 就 完成 了 两 端的 连接 建立 工作 ， 可 
以 开始 数据 交换 。 

原则 上 ， 可 以 仅 使 用 一 个 或 两 个 分 组 建立 连接 。 但 这 可 能 带 来 一 种 风险 ， 由 于 与 同一 地 址 (IP 地 
址 和 端口 号 ) 之 间 的 旧 连 接 的 延期 分 组 的 存在 ， 可 能 导致 建立 有 缺陷 的 连接 。 三 次 握手 的 目的 就 是 要 
防止 这 种 情况 。 

在 连接 建立 后 , TCP 链 路 的 特点 就 很 清楚 了 。 每 个 分 组 发 送 时 都 指定 一 个 序列 号 , 而 接收 方 的 TCP 
协议 实例 在 接收 到 每 个 分 组 之 后 ， 都 必须 确认 。 我 们 考察 一 下 向 Web 服 务 器 发 出 的 连接 请 求 的 记录 ”: 


1 192.168.0.143 192.168.1.10 TCP 1025 > http [SYN] Seq=2895263889 Ack=0 
2 192.168.1.10 192.168.0.143 TCP http > 1025 [SYN, ACK] Seq=2882478813 Ack=2895263890 
3 192.168.0.143 192.168.1.10 TCP 1025 > http [ACK] Seq=2895263890 Ack=2882478814 


客户 端 对 第 一 个 分 组 生成 随机 的 序列 号 2895263889， 保 存在 在 TCP 首 部 的 SEQ 字 段 。 服 务 器 对 该 
分 组 的 到 达 ， 响 应 一 个 组 合 的 SYN/ACK 分 组 ， 序 列 号 是 新 的 (在 本 例 中 是 2882478813)。 我 们 在 这 里 
感 兴趣 的 是 SEQ/ACK 字 段 的 内 容 〈 数 值 字段 ， 不 是 标志 位 )。 服 务 器 填充 该 字段 时 ， 将 接收 到 的 字 节 
数目 加 1， 再 加 到 接收 的 序列 号 上 《底层 的 原理 ， 在 下 文 讨 论 )。 

分 组 还 需要 设置 ACK 标 志 , 这 用 于 向 客户 端 表 示 已 经 接收 到 第 一 个 分 组 。 无 须 产 生 额 外 的 分 组 来 
确认 收 到 第 一 个 分 组 。 确 认可 以 在 任何 分 组 中 给 出 ， 只 要 该 分 组 设置 了 ACK 标 志 并 填充 ack 字 段 即 可 。 

为 建立 连接 而 发 送 的 分 组 不 包含 数据 ， 只 有 TCP 首 部 是 有 意义 的 。 首 部 中 len 字 段 存 储 的 长 度 总 
























































































































































































































































































































































是 0。 








这 里 描述 的 机 制 不 是 特定 于 Linux 内 核 的 ， 对 所 有 希望 通过 TCP 通 信 的 操作 系统 来 说 ， 都 是 必须 
实现 的 。 下 面 几 节 将 更 多 前 述 上 述 操作 特定 于 Linux 内 核 的 实现 。 

4. 被 动 连接 建立 

被 动 连接 建立 并 不 源 于 内 核 本 身 ， 而 是 在 接收 到 一 个 连接 请 求 的 SYN 分 组 后 触发 的 。 因 而 其 起 点 
是 tcp_v4_rcv 图 数 ， 如 上 文 所 述 ， 该 函数 查找 一 个 监听 套 接 字 ， 并 将 控制 权 转 移 到 tcp_v4_do_rcv， 
其 代码 流程 图 〈 对 此 特定 场景 适用 ) 在 图 12-28 给 出 。 


teje 是 1 古 5[e 国 Say 


tcp_v4_ hnd req 



























































































































































tcp_rcv_state process 


























图 12-28 ”tcp_v4_rcv_passive 的 代码 流程 医 


调用 tcp_v4_hng_req 来 执行 网 络 层 中 建立 新 连接 所 需 的 各 种 初始 化 任务 。 实 际 的 状态 迁移 发 生 
在 tcp_rcv_state_process 中 , 该 函数 由 一 个 长 的 switch/case 语 句 组 成 ,区 分 各 种 可 能 的 套 接 字 状 
态 来 调用 适当 的 传输 函数 。 

可 能 的 套 接 字 状态 定义 在 一 个 枚 举 中 ; 


include/net/tcp_states.h 
enum { 
TCP_ESTABLISHED = 1, 










































































GD 网 络 连接 数据 可 以 用 诸如 tcpdump 和 wireshark 之 类 的 工具 捕获 。 
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TCP_SYN_SENT, 
TCP_SYN_RECV, 
TCP_FIN_WAIT1, 
TCP_FIN_WAIT2, 
TCP_TIME WAIT., 
































TCP_CLOSE 
TCP_CLOSE_WAIT, 

TCP_LAST_ACK, 

TCP_CLOSING, /* 现在 是 有 效 状态 */ 

TCP_MAX_STATES /* 标志 状态 定义 的 结束 ! */ 





由 
如 果 套 接 字 状 态 是 TCP_LISTEN， 则 调用 tcp_v4_conn_request。" 该 函数 处 理 了 TCP 的 许多 细节 










































































和 微妙 之 处 ， 在 这 里 不 描述 了 。 重 要 的 是 该 函数 结束 前 发 送 的 确认 分 组 。 其 中 不 仪 包含 了 设置 的 ACK 
标志 和 接收 到 的 分 组 的 序列 号 ， 还 包括 新 生成 的 序列 号 和 SYN 标 志 ， 这 是 三 次 握手 过 程 的 要 求 。 这 样 




















7 











就 完成 了 连接 建立 的 第 一 阶段 。 





客户 端的 下 一 步 是 ， 接 收 通过 通常 的 路 径 到 达 tcp_rcv_state_process 的 ACK 分 组 。 套 接 字 状 
































态 现 在 是 TCP_SYN_RECV， 由 一 个 特定 的 case 分 支 处 理 。 内 核 的 主要 任务 是 将 套 接 字 状态 修改 为 






































TCP_ESTABLISHED， 表 示 连 接 现 在 已 经 建立 。 





5. 主动 连接 建立 
主动 连接 建立 发 起 时 ， 是 通过 用 户 空间 应 用 程序 调用 open 库 函数 ， 发 出 socketcall 系 统 调用 到 


























达 内 核 函 数 Lcp_v4_connect， 其 代码 流程 图 如 图 12-29 的 上 半 部 所 示 。 


top v4 connect 


将 套 接 字 状 态 设置 为 swN_sENm 


tep, transmit_ skb 





























inet_csk_reset xmit timer 


Gepanevestatenoreess 


tcp_rcv_synsent_state process 














将 套 接 字 状 态 设 置 为 ESTABLISED 


tcp_send ack 


图 12-29 ”主动 的 连接 建立 的 代码 流程 图 


























@ 因为 分 配器 同时 支持 IPv4 和 IPv6， 所 以 使 用 了 
砚 对 IPv4 和 和 IPv6 是 相同 的 ， 所 以 可 以 节省 大 量 代码 。 





人 


地 址 族 相关 数据 结构 中 的 函数 指针 。 因 为 有 限 状 态 自 动机 的 实 
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该 函数 开始 于 查找 到 目标 主机 的 卫 路 由 ， 使 用 的 框架 如 上 上 所 述 。 在 产生 TCP 首 部 并 将 相关 的 值 设 
置 到 套 接 字 缓冲 区 中 之 后 ， 套 接 字 状态 从 cLOSED 改 变 为 SYN_SENT。 接 下 来 tcp_connect 将 一 个 SYN 

















分 组 发 送 到 互联 网 络 层 ， 接 下 来 到 服务 器 端 。 出 




















间 内 没有 接收 到 
现在 客户 端 














的 TCP 机 制 接收 的 (图 12-29 的 下 半 部 )。 这 又 通 








控 
ack 问 服务 器 返回 
6. 分 组 传输 











在 按照 上 述 方式 建立 一 个 连接 之 后 , 数据 
要 求 在 相互 通信 的 主机 之 间 进 行 广泛 的 控 








因为 TCP 有 几 个 特性 ， 


和 认 ， 将 村 
必须 等 待 服务 器 对 SYN 分 组 的 确认 以 及 确认 连接 请 求 的 一 个 SYN 分 组 ， 
问 了 tcp_rcv_state_process 分 配器 ,在 这 种 情况 下 ， 
制 流 又 转移 到 tcpb_rcv_synsent_state_process。 套 接 字 状态 设置 为 BSTABLISHED， 而 tcp_senaq_ 
另 一 个 ACK 分 组 ， 完 成 连接 建立 。 


新 发 送 分 组 。 




















Et 外 ， 在 内 核 中 创建 一 个 定时 器 ， 确 保 妇 











I 有 果 在 一 定 的 时 


De 






























































口 按 可 保证 的 次 序 传输 字 市 流 。 












































可 在 计算 机 之 间 传 输 。 该 过 程 在 菜 些 情况 下 相当 塌 手 ， 














这 是 通过 普通 





































































































































































































央 和 提供 一 些 安全 过 程 ， 如 下 所 述 ; 


























口 通过 自动 化 机 制 重 传 丢失 的 分 组 。 

口 每 个 方向 上 的 数据 流 都 独立 控制 ， 并 与 对 应 主机 的 速度 匹配 。 

尽管 最 初 这 些 需 求 可 能 看 起 来 并 不 复杂 ,但 满足 这 些 要 求 需 要 的 过 程 和 技巧 是 相对 较 多 的 。 因 为 
大 多 数 连接 是 基于 TCP 的 ， 实 现 的 速度 和 效率 是 关键 性 的 ， 所 以 Linux 内 核 借 助 于 技巧 和 优化 。 遗 憾 的 
是 ， 这 未 必 能 使 实现 更 容易 理解 。 

在 讲述 如 何 通过 已 建立 的 连接 来 实现 数据 传输 之 前 ， 必 须 讨 论 一 些 底层 的 原理 。 我 们 对 数据 丢失 
时 发 挥 作 用 的 机 制 特别 感 兴趣 。 

基于 序列 号 来 确认 分 组 的 概念 ， 也 用 于 普通 的 分 组 。 但 与 上 文 提 到 的 内 容 相 比 ， 序 列 号 揭示 了 有 
关 数 据 传输 的 更 多 东西 。 序 列 号 根据 何 种 方案 分 配 ? 在 建立 连接 时 ， 生 成 一 个 随机 数 〈( 由 内 核 使 用 
drivers/char/random.c 中 的 secure_tcp_sequence_number 生 成 )。 接 下 来 使 用 一 种 系统 化 的 方法 
来 文 持 对 所 有 进入 分 组 的 严格 确认 。 

在 最 初 发 送 的 序列 号 基础 上 , 会 为 TCP 传 输 的 每 个 字 节 都 分 配 一 个 唯一 的 序列 号 。 例 如, 假定 TCP 


系统 的 初始 随机 数 是 100。 


TCP 使 用 一 种 DUODDD 








的 字 节 范围 。 












































因而 ， 发 送 的 前 16 个 


























有 的 字 节 ， 其 中 最 后 








个 字 节 的 索引 号 比 ACK 数 目 











例如 ，ACK 数 目 166 


前 认 了 字 贡 索引 165 之 前 〈 含 ) 的 








该 机 制 也 用 于 跟 





不 能 请 求 发 送 方 重 传 于 失 的 分 组 。 如 果 在 一 定 的 超时 时 间 内 发 送 方 没有 收 到 确认 ， 咏 


数据 是 发 送 方 的 责任 
这 些 过 程 在 





(在 不 同 的 系统 上 〉 都 设置 为 ESTABLISHED 状 ; 





Dez 


LN 


o 


内 核 中 是 如 何 实现 的 呢 ? 我 


丢失 的 分 组 。 请 注意 ，TCP 没 有 提供 显 式 的 重 传 请 求 机 4 

















7. 接收 分 组 


图 12-30 中 的 代码 流程 图 


始 。 


在 控制 传递 到 tcp_v4_dqo_rcv 后 ， 会 选择 一 条 快速 路 径 〈 如 果 连 接 














给 出 了 接收 分 组 时 








的 分 配器 函数 ， 这 与 其 他 套 接 字 状态 相反 ， 但 也 是 合乎 逻辑 的 。 








字 节 是 序列 号 是 100、101 





(cumulative acknowlegment) 方案 。 这 意味 着 一 次 确认 将 涵 
通过 ack 字 段 发 送 的 数字 将 确认 数据 流 在 上 一 个 ACK 数 
节 。( 如 果 尚 未 发 送 确认 ， 没 有 上 一 个 ACK 数 











， 则 将 初始 序列 号 作为 起 点 。 








装 一 个 
十 一 ”| 


连续 


目 和 当前 ACK 数 目 之 间 的 所 有 字 
) ACK 数 目 确 














认 了 此 前 所 








个 


小 1， 因 而 ACK 数 目 也 表示 了 下 




















字 节 的 索引 号 。 























所 有 字 节 ， 预 期 下 一 个 分 组 中 从 字 
央 。 换 名 话说 ， 接 
j 发 送 丢 失 


166 开 始 。 
收 方 
的 部 分 























门 假定 连接 已 经 按 上 述 的 方式 建立 ， 因 此 有 i 
态 


CNo 








个 套 接 字 


所 采用 的 代码 路 径 ， 从 我 们 熟悉 的 tcp_v4_rcv 函 数 开 



































因为 在 任何 TCP 连 接 


已 经 存在 ) 而 不 是 进入 到 中 枢 














PF， 分 组 的 传输 
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都 占据 了 工作 量 的 最 大 份额 , 所 以 应 该 尽快 执行 。 在 确认 目标 套 接 字 的 状态 为 rcP_ESTABLISHED 之 后 ， 
调用 tcp_rcv_estapblished 函 数 ， 再 次 将 控制 流 分 裂 开 来 。 易 于 分 析 的 分 组 在 DD DD (fast path) 
PF 处 理 ， 而 包含 了 不 常见 选项 的 分 组 在 0D 口 口 口 (slow path) 处 理 。 


GecevAngdonmey 
tcp_rcv_established 


示 
分 组 容易 处 理 吗 ? 一 “>| 低速 路 径 
sk->sk_data_ready 


图 12-30 ”在 TCP 连 接 中 接收 分 组 


分 组 需要 符合 下 列 条 件 之 一 ， 才 能 归 类 为 易于 分 析 的 。 

口 分 组 必须 只 包含 对 上 一 次 发 送 数 据 的 确认 。 

口 分 组 必须 只 包含 预期 将 接收 的 数据 。 

此 外 ， 下 列 标志 都 不 能 设置 : SYN、URG、RST 或 FIN。 

上 述 对 “最 佳 场景 ”下 分 组 的 描述 ， 并 不 是 特定 于 Linux 的 ， 在 许多 其 他 Linux 变 体 中 也 会 出 现 。” 
几乎 所 有 分 组 都 属于 这 些 类 别 , “这 也 是 区 分 快速 路 径 和 低速 路 径 的 意义 所 在 。 

快速 路 径 中 会 进行 哪些 操作 ? 其 中 会 进行 一 些 分 组 的 检查 ， 找 到 更 为 复杂 的 分 组 ， 并 将 其 返回 到 
低速 路 径 。 接 下 来 分 析 分 组 长 度 ， 确 认 分 组 的 内 容 是 数据 还 是 确认 。 这 没什么 困难 ， 因 为 ACK 分 组 不 
包含 数据 ， 与 TCP 首 部 长 度 是 相同 的 。 

快速 路 径 的 代码 并 不 处 理 ACK 部 分 ， 该 任务 委托 给 tcp_ack。 在 这 里 ， 过 时 的 分 组 以 及 由 于 接收 
方 的 TCP 实 现 缺 陷 或 传输 错误 和 超时 等 造成 的 发 送 过 早 的 分 组 ， 都 被 过 滤 出 去 。 该 函数 最 重要 的 任务 
不 仅 包 括 分 析 有 关连 接 的 新 信息 〈 例 如， 接收 窗口 信息 ) 和 其 他 TCP 协 议 的 微妙 之 处 ， 还 需要 从 重 传 
队列 中 删除 确认 数据 (在 下 文 讨 论 )。 该 队列 包含 了 所 有 发 送 的 分 组 ， 如 果 在 一 定 的 时 间 限 制 内 没有 
收 到 ACK 确 认 ， 则 需要 重 传 。 
因为 在 选择 通过 快速 路 径 来 处 理 该 分 组 时 ， 已 经 确认 接收 到 的 这 部 分 数据 是 紧 接着 前 一 部 分 的 ， 
数据 可 以 通过 一 个 ACK 分 组 向 发 送 方 确认 ， 无 须 进一步 检查 。 最 后 ， 调 用 保存 在 套 接 字 中 的 
sk_data_ready 函 数 指针 ， 通 知 用 户 进程 有 新 数据 可 用 。 
在 低速 路 径 和 快速 路 径 之 间 有 什么 差别 呢 ? 由 于 要 处 理 许多 TCP 选 项 ， 低 速 路 径 中 的 代码 要 牵涉 
到 更 广泛 的 内 容 。 因 此 ， 这 里 不 会 深入 阐述 可 能 出 现 的 许多 具体 情况 ， 因 为 在 很 大 程度 上 ， 这 些 不 是 
内 核 的 问题 ， 而 是 TCP 连 接 的 一 般 性 问题 (详细 的 描述 ， 可 以 参考 [Ste94] 和 [WPR+01])。 
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Q 该 方法 是 由 Van Jacobsen 开 发 的 ， 他 是 一 位 著名 的 网 络 研究 人 员 ， 因 而 该 机 制 通常 称 为 WJ 机制 。 
@) 当今 的 传输 技术 是 如 此 高 级 ， 以 至 于 几乎 不 发 生 错误 。 这 已 经 不 是 TCP 发 展 早期 的 情况 了 。 尽 管 更 多 的 失效 出 现 
在 全 球 性 的 因特网 连接 上 ， 而 不 是 本 地 网 络 中 。 由 于 故障 率 很 低 ， 大 多 数 分 组 仍然 可 以 通过 快速 路 径 处 理 。 
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在 低速 路 径 中 ， 数 据 不 能 直接 转发 到 套 接 字 ， 因 为 必须 对 分 组 选项 进行 复杂 的 检查 ， 而 后 可 以 是 
TCP 子 系统 的 响应 。 不 按 序 到 达 的 数据 放置 到 一 个 专门 的 等 待 队列 上 ， 直 至 形成 一 个 连续 的 数据 段 ， 
会 被 处 理 。 只 有 到 那 时 ， 才 能 将 完整 的 数据 传递 到 套 接 字 。 
8. 发 送 分 组 
从 TCP 层 来 看 ,TCP 分 组 的 发 送 , 由 更 高 层 网 络 协议 实例 对 tcp_sendmsg 函 数 的 调用 开始 .图 12-31 
出 了 相关 的 代码 流程 图 。 










































































NS 
塔 


















各 数据 复制 到 套 接 字 缓冲 区 | 
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图 12-31 tcp_sendmsg 的 代码 流程 图 


很 自然 , 在 数据 传输 可 以 开始 之 前 , 所 用 套 接 字 的 状态 必须 是 TcP_ESTABLISHED。 如 果 不 是 这 样 ， 
内 核 将 等 待 (借助 于 wait_for_tcp_connect)， 直 到 连接 已 经 建立 。 数 据 接 下 来 从 用 户 空间 进程 的 地 
址 空间 复制 到 内 核 空间 ， 用 于 建立 一 个 TCP 分 组 。 这 里 不 打算 讨论 这 个 复杂 的 操作 ， 因 为 其 中 涉及 大 
量 过 程 ， 所 有 这 些 的 目的 都 是 满足 TCP 协 议 的 复杂 需求 。 遗 憾 的 是 ， 发 送 TCP 分 组 的 工作 ， 并 不 仅仅 
限于 构建 一 个 首部 并 转 入 互联 网 络 层 。 还 必须 遵守 下 列 需 求 〈 这 绝 不 是 完备 的 列表 )。 
口 接收 方 等 待 队列 上 必须 有 足够 的 空间 可 用 于 该 数据 。 
口 必须 实现 防止 连接 拥塞 的 ECN 机 制 。 
口 必须 检测 某 一 方 出 现 失效 的 情况 ， 以 免 通 信 出 现 停顿 。 
口 TCP 慢 启动 〈slow-start) 机制 要 求 在 通信 开始 时 ， 逐 渐 增 大 分 组 长 度 。 
口 发 送 但 未 得 到 确认 的 分 组 ， 必 须 在 一 定 的 超时 时 间 间 隔 之 后 反复 重 传 ， 直 至 接收 方 最 终 确 认 。 
1 于 重 传 队列 是 通过 TCP 连 接 进行 可 靠 数 据 传输 的 关键 要 素 ， 所 以 这 里 详细 讲述 一 下 它 的 工作 机 
制 。 在 分 组 装配 完毕 之 后 ， 内 核 到 达 tcp_push_one， 该 函数 执行 下 列 3 个 任务 。 
口 tcp_sng_test 检 查 目 前 是 否 可 以 发 送 数 据 。 接 收 方 过 载 导 致 的 分 组 积压 ， 可 能 使 得 
发 送 数据 。 
口 tcp_transmit_skb 使 用 地 址 族 相 关 的 af_specific->queue_xmit 子 数 (IPv4 使 用 的 是 
ip_queue_xmit)， 将 数据 转发 到 互联 网 络 层 。 
口 update_seng_head 处 理 对 统计 量 的 更 新 。 更 重要 的 是 ， 它 会 初始 化 所 发 送 TCP 信 息 段 (TCP 
segment) 的 重 传 定时 器 。 不 必 对 每 个 TCP 分 组 都 这 样 做 ， 该 机 制 只 用 于 已 经 确认 的 数据 区 之 
后 的 第 一 个 分 组 。 
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inet_csk_reset_xmit_timer 人 负责 重 置 重 传 定时 器 。 该 定时 器 是 未 确认 分 组 重 发 的 基础 , 是 TCP 
传输 的 一 种 保证 。 如 果 接 收 方 在 一 定 的 时 间 内 没有 确认 收 到 数据 ， 则 重 传 数据 。 所 用 的 内 核 计 时 器 在 
第 15 章 描述 。 与 特定 套 接 字 关联 的 sock 实 例 中 包含 了 一 个 重 传 计时 器 的 链表 ， 用 于 发 送 的 每 个 分 组 。 
内 核 使 用 的 超时 函数 是 tcp_write_timer， 如 果 没 有 收 到 ACK， 该 函数 会 调用 tcp_retransmit_ 
timer 函 数 。 在 重 传 数据 时 ， 必 须 注意 下 列 问 题 。 
口 连接 在 此 期 间 可 能 已 经 关闭 。 在 这 种 情况 下 ， 保 存 的 分 组 和 定时 器 将 从 内 核 内 存 中 删除 。 
口 如 果 重 传 尝试 的 次 数 超过 了 sysctl_tcp_retries2 变 量 指定 的 限制 ， 则 放弃 重 传 。? 

如 上 所 述 ， 在 收 到 ACK 之 后 ， 删 除 相 应 分 组 的 重 传 定时 器 。 

9. 连接 终止 

类 似 于 连接 建立 ,TCP 连接 的 关闭 也 是 通过 一 系列 分 组 交换 完成 的 ， 如 图 12-25 所 示 。 连 接 可 以 采 
用 下 列 两 种 方法 关闭 。 

(1) 在 参与 传输 的 某 一 方 (偶尔 也 会 两 个 系统 同时 发 出 请 求 的 情况 ) 显 式 请 求 关闭 连接 时 ， 连 接 
会 以 0 口 OD (gracefulclose〉 的 方式 终止 。 

(2) 高 层 协 议 有 可 能 导致 连接 终止 或 异常 中 止 ( 例 如 ， 可 能 因为 程序 骨 洗 )。 
幸运 的 是 ， 因 为 第 一 种 情况 通常 更 为 常见 ， 这 里 只 讨论 这 种 情况 并 忽略 第 二 种 情况 。 

为 了 优雅 地 关闭 连接 ，TCP 连 接 的 参与 方 必 须 交 换 4 个 分 组 。 各 个 步骤 的 顺序 描述 如 下 。 

(1) 计算 机 A 调用 标准 库 函 数 close， 发 出 一 个 TCP 分 组 ， 首 部 中 的 FIN 标 志 置 位 。A 的 套 接 字 切换 
到 FIN_WAIT 1 状态 。 

(2) B 收 到 FIN 分 组 并 返回 一 个 ACK 分 组 。 其 套 接 字 状态 从 ESTABLISHED 改 变 为 CLOSE_WAIT。 
收 到 FIN 后 ， 以 “文件 结束 ”的 方式 通知 套 接 字 。 

(3) 在 收 到 ACK 分 组 之 后 ， 计 算 机 A 的 套 接 字 状态 从 FIN_WAIT_1 变 为 FIN_WAIT 2。 

(4) 计算 机 B 上 与 对 应 套 接 字 相关 的 应 用 程序 也 执行 close， 从 B 疝 A 发 送 FIN 分 组 。 计 算 机 B 的 套 
接 字 状态 变 为 LAST_ACK。 

(5) 计算 机 A 用 一 个 ACK 分 组 确认 B 发 送 的 FIN， 然 后 首先 进入 TIME_WAIT 状 态 ， 接 下 来 在 一 定时 
间 后 自动 切换 到 CLOSED 状 态 。 

(6) 计算 机 B 收 到 ACK 分 组 ， 其 套 接 字 也 切换 到 CLOSED 状 态 。 

状态 迁移 在 中 枢 的 分 配器 函数 (tcp_rcv_state_process) 中 进行 ， 可 能 的 代码 路 径 包 括 处 理 
现存 连接 的 tcp_rcv_established， 以 及 尚未 讨论 的 tcp_close 函 数 。 
在 用 户 进程 决定 调用 库 函 数 close 关 闭 连接 时 ， 会 调用 tcp_close。 如 果 套 接 字 的 状态 为 LISTEN 
〈 即 没有 到 另 一 台 计 算 机 的 连接 )， 因 为 不 需要 通知 其 他 参与 方 连接 的 结束 。 在 过 程 开 始 时 会 检查 这 种 
情况 ， 如 果 确 实 如 此 ， 则 将 套 接 字 的 状态 改 为 CLOSED。 

否则 , 在 通过 tcp_close_state 并 tcp_set_state 调 用 链 将 套 接 字 状态 设置 为 FIN WAIT 1 之 后 ， 
tcp_send_fin 向 男 一 方 发 送 一 个 FIN 分 组 。? 

从 FIN_WAIT 1 到 FIN _ WAIT 2 状态 的 迁移 通过 中 枢 的 分 配器 函数 tcp_rcv_state_process 进 
行 ， 因 为 不 再 需要 采取 快速 路 径 处 理 现存 连接 。 0 种 情况 是 ， 收 到 的 带 有 ACK 标 志 的 分 组 
触发 到 FIN_WAIT 2 状态 的 迁移 ， 具 体 的 状态 迁移 通过 tcp_set_state 进 行 。 现 在 只 需要 从 男 一 方 发 










































































































































































































































































































































































































































































































































































Q@ 该 变量 的 默认 值 是 15， 但 可 以 使 用 /proc/sys/net/ipv4/tcp_retries2 修 改 。 

@@ 这 种 方法 与 TCP 标 准 是 不 完全 兼容 的 ， 因 为 在 FIN 发 送 之 前 ， 套 接 字 实际 上 不 允许 改变 其 状态 。 但 Linux 提 出 的 蔡 
换 方案 更 简单 ,易于 实现 , 在 实用 中 也 没有 引起 任何 问题 ,这 也 是 内 核 开发 者 沿 着 这 条 路 走 下 来 的 原因 , 在 tcp_close 
中 的 相关 注释 中 提 到 了 这 一 点 。 
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过 来 的 一 个 FIN 分 组 ， 即 可 将 TCP 连 接 置 为 TTIME_WAIT 状 态 ( 然 后 会 自动 切换 到 CLOSED 状 态 )。 
































关闭 连 








在 收 到 第 一 个 FIN 分 组 
一 个 FIN 分 组 是 套 接 字 状态 





函数 ) 进行 的 。 


tcp_rcv_state process 函 数 人 处 于 3 


姑 而 需要 被 动 ; 
为 ESTABLISHED， 处 理 
向 男 一 方 发 送 一 个 ACK 分 组 
下 一 个 状态 转移 (到 LAST_ACK ) 是 通过 调 
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硅 接 的 男 一 方 ， 状 态 迁 移 的 过 程 是 类 似 的 。 因 为 收 到 第 
tcp_rcv_established 的 低速 路 径 进 行 ， 涉 及 
并 将 套 接 字 状 态 改 为 TCP_CLOSING。 


jclose 库 函数 (进而 调用 了 内 核 的 tcp_close_state 


























































































































字 占 用 的 内 存 空间 





比 时 ， AN 需要 男 


方 再 发 送 一 个 ACK 分 组 ， 即 可 终止 连接 。 该 分 组 也 是 通过 
E， 该 函数 将 套 接 字 状态 改 为 CLOSED 〈 通 过 tcp_dqone)， 释 放 套 接 























， 并 最 终 终 止 连接 。 
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12.10 ”应 用 层 


套 接 字 将 UNIX 隐 喻 “万 物 缘 文件 ”应 用 到 了 网 络 连接 上 。 内 核 与 用 户 衬 





























间 套 接 字 之 间 的 接口 实 丽 














































































































在 C 标 准 库 中 ， 使 用 了 socketcall 系 统 调 用 。 

socketcal1 充 当 一 个 多 路 分 解 器 ， 将 各 种 任务 分 配 由 不 同 的 过 程 执 行 ， 例 如 打开 一 个 套 接 字 、 
绑 定 或 发 送 数据 。 

Linux 采 用 了 内 核 套 接 字 的 概念 ， 使 得 与 用 户 空 间 中 的 套 接 字 的 通信 尽 可 能 简单 。 对 程序 使 用 的 
每 个 套 接 字 来 说 ， 都 对 应 于 一 个 socket 结 构 和 sock 结 构 的 实例 。 二 者 分 别 充当 向 下 《〈 到 内 核 ) 和 向 
上 的 《到 用 户 空间 ) 接口 。 前 几 节 已 经 提 到 了 这 两 个 结构 ， 但 没有 详细 定义 ， 现 在 将 给 出 其 定义 。 
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socket 绪 


<net.h> 








构 定义 如 


struct socket { 










































































socket 数 据 结 构 
下 〈 稍 作 简 化 ): 


























socket_state state; 
unsigned long flags; 
Sonst struct Broto_onms 类 ODS 
struct file *file; 
struct sock wsk; 
short type; 
Fs 
口 type 指 定 所 用 协议 类 型 的 数字 标识 符 。 
口 state 表 示 套 接 字 的 连接 状态 ， 可 使 用 下 列 值 SS 代表 套 接 字 状态 ， 即 socket state 的 缩写 ): 
<net.h> 
typedef enum { 
SS_FREE = 0, /* 未 分 配 */ 
SS_UNCONNECTED, /* 未 连接 到 任何 套 接 字 *] 
SS_CONNECTING ， /* 处 于 连接 过 程 中 */ 
SS_CONNECTED, /* 已 经 连接 到 另 一 个 套 接 字 */ 
SS_DISCONNECTING /* 处 于 断 开 连接 过 程 中 x/ 





} socket_state; 























这 里 





列 出 的 枚 举 全 








与 传输 


























层 协 议 在 建立 和 关闭 连 





车 接 时 使 用 的 状态 值 毫 不 相关 。 它 们 表示 与 
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外 界 〈 即 用 户 程 序 ) 相关 的 一 般 性 状态 。 
口 file 是 一 个 指针 ， 指 向 一 个 伪 文 件 的 Efile 实例 ， 
程序 使 用 普通 的 文件 描述 符 进行 网 络 操作 )。 
socket 的 定义 并 未 绑 定 到 具体 协议 。 这 也 说 明了 为 什么 需要 用 proto_ops 指 针 指向 一 个 数据 结 
构 ， 其 中 包含 用 于 处 理 套 接 字 的 特定 于 协议 的 函数 : 














"应 用 











用 于 与 套 接 字 通信 (前 文 讨论 过 ， 用 


































































































<net.h> 
struct proto_ops { 
工 疙 下 family; 
struct module *OwnNner; 
Tt (*release) (struct socket *sock); 
int (*bind) (struct socket *sock, 
struct sockaddr *myaddr, 
int sockaddr_len); 
int (*connect) (struct socket *sock, 
struct sockaddr *vaddr, 
int sockaddr_ len, int flags); 
it (*socketpair) (struct socket *sockl, 
struct socket *sock2); 
jt (*accept) (struct socket *sock, 
struct socket *newsock, int flags); 
主 光 忆 (*getname) (struct socket *sock, 
struct sockaddr *addr, 
int *sockaddr len, int peer); 
unsigned int (*poll) (struct file *file, struct socket *sock, 
struct poll_ table struct *wait); 
Tt (*ioct1) (struct socket *sock, unsigned int cmd, 
unsigned long arg); 
int (*compat_ioctl) (struct socket *sock, unsigned int cmd, 
unsigned long arg); 
oe (*l1isten) (struct socket *sock, int len); 
i (*shutdown) (struct socket *sock, int flags); 
int (*setsockopt) (struct socket *sock, int level, 
int optname, char _ user *optval, int optlen); 
int (*getsockopt) (struct socket *sock, int level, int optname, 
char _ user *optval, int _ user *optlen); 
int (*compat_setsockopt) (struct socket *sock, int level, int optname, 
char _ user *optval, int optlen); 
iiit (*compat_ getsockopt) (struct socket *sock, int level, int optname, 
char _ user *optval, int _ user *optlen); 
int (*sendmsg) (struct kioeb *iocb, strucet socket *sock; 
struct msghdr *m, size t total_ len); 
Lt (*recvmsg) (struct kiocb *iocb, struct socket *sock, 
struct msghdr *m, size t total_ len, 
int flags); 
int (*mmap) (struct file *file, struct socket *sock, 
struct vm area_struct * vma); 
ssize 七 (*sendpage) (struct socket *sock, struct page *page, 
int offset, size t size, int flags); 
和 
许多 函数 指针 与 C 标 准 库 中 的 对 应 函数 同名 。 这 并 不 是 巧合 ， 因 为 C 库 函数 会 通过 socketcal1 系 





























统 调用 导向 上 述 的 函数 指针 。 

结构 中 包含 的 sock 指 针 , 指向 一 个 更 为 见长 的 结构 , 包含 了 对 内 核 有 意义 的 附加 的 套 接 字 管理 数 
据 。 该 结构 包含 大 量 成 员 ， 用 于 一 些 很 微妙 或 很 少 用 的 特性 (原始 定义 有 100 多 行 代码 )。 这 里 使 用 的 
是 一 个 经 过 大 量 简化 的 版 本 。 请 注意 ， 内 核 自 身 将 最 重要 的 一 些 成 员 放 置 到 sock_common 结 构 中 ， 并 
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将 该 结构 的 一 个 实例 内 入 到 struct sock 开 始 处 。 下 列 代码 片段 给 出 了 这 两 个 结构 : 


include/net/sock.h 





struct sock_ common { 
unsigned short 
volatile unsigned char 


skc_family; 
skc_state; 


struct hlist node skc_node; 
unsigned int skc_hash; 
atomic_t skc_refcnt; 
Btruct. TrotD woke rot; 


4 


struct sock { 
































struct sock_common __ sk _ common; 
struct sk_ buff head sk_receive_ queue; 
struct sk_ buff head sk_write queue; 
struct timer_list sk_timer; 
void (*sk_data ready) (struct sock *sk, int bytes); 
过 
系统 的 各 个 sock 结 构 实 例 被 组 织 到 一 个 协议 相关 的 散 列 表 中 。skc_noqe 用 作 散 列表 的 表 元 ， 
skc_hash 表 示 散 列 值 。 
在 发 送 和 接收 数据 时 ， 需 要 将 数据 放置 在 包含 套 接 字 缓冲 区 的 等 待 队 列 上 〈sk_receive_queue 


































































































和 sk_write_aqueue)。 

此 外 ,每 个 sock 结 构 都 关联 了 一 组 回调 函数 函数 , 由 内 核 用 来 引起 用 户 程序 对 特定 事件 的 关注 或 
进行 状态 改变 。 在 我 们 给 出 的 简化 版 本 中 ， 上 只 有 一 个 函数 指针 sk_data_readqy， 因 为 它 是 最 重要 的 ， 
而 且 在 前 几 节 中 已 经 提 到 几 次 。 在 数据 到 达 后 ， 需 要 用 户 进 程 处 理 时 ， 将 调用 该 指针 指向 的 函数 。 通 
































I 





常 ， 指 针 的 值 
sockets” 结构 的 ops 成 员 类 亚 型 为 struct proto_ops, 而 sock 的 prot 成 员 类 型 为 struct DEOEOR, 三 : 
者 很 容易 混淆 。 后 者 定义 如 下 : 


include/net/sock.h 
struct proto 1 


是 sock_def_readable。 











void (*close) (struct sock *sk, 
long timeout); 
int (*connect) (struct sock *sk, 
struct sockaddr *uaddr, 
int addr_len); 
和 六 起 (*disconnect) (struct Sock *sk, int flags); 
Struct ‘SOcKk * (*accept) (struct sock *sk, int flags, int *err); 
int (*ioctl1) (struct sock *sk, int cmd， 
unsigned long arg); 
int (*init)y (steuet Sock *sk) 7 
Ai (*destroy) (struct sock *sk); 
void (*shutdown) (struct sock *sk, int how); 
int (*setsockopt) (struct sock *sk, int level, 
int optname, char _ user *optval, 
int optlen); 
人 (*getsockopt) (struct sock *sk, int level, 


int optname, char _ user *optval, 
int _ user *option); 
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Ti 七 (*sendmsg) (struct kiocb *iocb, 


struct sock *sk, 


struct msghdr *msg, size t len); 


(*recvmsg) (struct kiocb *iocb, 
struct msghdr *msg, 
size_t len, int noblock, 
int *addr_ len); 

(*sendpage) (struct sock *sk, struct 
int offset, size t size, 

(*bind) (struct sock *sk, 
struct sockaddr *uaddqr， 
struct sockaddr *uaddr， 


int 


主 光世 


int 


struct sock *sk, 


int flags, 


page *page, 
int flags); 





int addr_ len); 
int addr_len); 


an 








































































































































































































这 两 个 结构 中 有 些 成 员 的 名 称 相似 “经 常 是 相同 的 )， 但 它们 表示 不 同 的 功能 。 这 里 给 出 的 操作 
用 于 《内核 端 ) 套 接 字 层 和 传输 层 之 间 的 通信 ， 而 socket 结 构 的 ops 成 员 所 包含 的 各 个 函数 指针 则 用 
于 与 系统 调用 通信 。 换 句 话 说， 它们 构成 了 用 户 端 和 内 核 端 套 接 字 之 间 的 关联 。 

12.10.2” 套 接 字 和 文件 
在 连接 建立 后 ， 用 户 空 间 进 程 使 用 普通 的 文件 操作 来 访问 套 接 字 。 这 在 内 核 中 是 如 何 实现 的 呢 ? 
于 VFS 层 (在 第 8 章 讨论 ) 的 开放 结构 ， 只 需要 很 少 的 工作 。 

第 8 章 讲 述 了 虚拟 文件 系统 的 VFS inode。 每 个 套 接 字 都 分 配 了 一 个 该 类 型 的 inode，inode 又 关联 
到 另 一 个 与 普通 文件 相关 的 结构 。 用 于 操作 文件 的 函数 保存 在 一 个 单独 的 指针 表 中 : 

<fs.h> 

struct inode { 

struct file operations *i_fop; /* 此 前 为 ->i_op->default_file ops */ 

} 

因而 ， 对 套 接 字 文 件 描 述 符 的 文件 操作 ， 可 以 透明 地 重 定向 到 网 络 子 系统 的 代码 。 套 接 字 使 用 的 
file_operations 如 下 : 

net/socket.c 

struct file operations socket_ file ops = { 

.Owner = THIS_MODULE, 
.llseek = no_llseek, 
.aio_read = sock_aio_read, 
.aio_write = sock_aio write, 
.poll = sock_poll, 
.unlocked ioctl = sock_ ioct1， 
.Compat_ioctl = compat_ sock_ ioctl, 
.mmap = sock_mmap, 
.open = sock_no_open，/* 专用 的 open 人 代码， 禁止 通过 /proc 打 开 */ 
.release = sock_close, 
i /二 sock_fasync, 
.Sendpage = sock_sendpage, 
.Splice write = generic splice_ sendpage, 
3 
前 缀 为 sock_ 的 函数 都 是 简单 的 包装 器 例 程 ， 它 们 会 调用 sock_operations 中 的 例 程 ， 如 下 例 中 























的 sock_mmap 所 示 : 


net/socket.c 
static int sock mmap(struct file * file, struct vm area_ struct * vma) 
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struct socket *sock = file->private data; 


return sock->ops->mmap (file, sock, vma); 


} 














inode 和 套 接 字 的 关联 ， 是 通过 下 列 辅助 结构 ， 将 对 应 的 两 个 结构 实例 分 配 到 内 存 














include/net/sock.h 

struct socket_alloc { 
struct socket socket; 
struct inode vfs_inode; 


}; 


























内 核 提供 了 两 个 宏 来 进行 必要 的 指针 运算 ， 根 据 inode 找 到 相关 的 套 接 字 实例 (sockET_I) 





的 连续 位 置 : 




















， 或 反 


过 来 (sock_INODE)。 为 简化 处 理 , 每 当 将 一 个 套 接 字 附加 到 文件 时 ，sock_attach_fq 将 struct file 
的 private_dqata 成 员 设 置 为 指向 socket 实 例 。 上 面 给 出 的 sock_mmap 例 子 就 利用 了 这 一 点 。 





























12.10.3 socketcall 系 统 调用 



































文件 功能 中 的 读 写 操作 可 以 通过 虚拟 文件 系统 相关 系统 调用 进入 内 核 ， 然 后 重 定向 到 























socket_file_ops 结 构 的 函数 指针 ， 除 此 之 外 ， 还 需要 对 套 接 字 执 行 其 他 任务 ， 这 些 不 能 融入 到 文件 








方案 中 。 举 例 来 说 ， 这 些 操 作 包括 创建 套 接 字 、bind、1Listen 等 。 





为 此 ，Linux 提 供 了 socketcal1 系 统 调 用 ， 它 实现 在 sys_socketcal19 


系统 调用 。 














17 个 套 接 字 操作 只 对 应 到 一 个 系统 调用 ， 这 比较 引 人 注 目 。 
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于 所 要 处 理 
可 能 差别 很 大 。 该 系统 调用 的 第 一 个 参数 是 一 个 数值 常数 ， 选 择 所 要 的 系统 调 
括 SYS_SoOCKET、SYS_BIND、SYS_AcCcEPT 和 SYs_REcV。 标 准 库 的 例 程 名 称 与 这 些 常数 基本 上 是 一 一 对 























]。 例 如 ， 可 能 














应 的 ， 但 在 内 部 都 重 定向 为 使 用 socketcall 和 对 应 的 常数 。 只 有 一 个 系统 调用 ， 是 由 历史 原 

















的 。 








PF， 本 书 已 多 次 提 到 过 该 


的 任务 不 同 ， 参 数列 表 


的 值 包 





办 造成 





sys_socketcal1 的 任务 并 不 特别 困难 ， 它 只 充当 一 个 分 派 器 ， 将 系统 调用 转 到 其 他 函数 并 传递 


参数 ， 后 者 中 的 每 个 函数 都 实现 了 一 个 “小 ”的 系统 调用 : 


net/socket.c 





asmlinkage long sys_socketcall(int call, unsigned long _ user *args) 


{ 
unsigned long al[l6]; 
unsigned long a0,al; 
int err; 


if(cal1<1||cal1>SYS_RECVMSG) 
return -EINVAL; 


/* copy_from_user 应 该 是 SMP 安 全 的 。*/ 
IE (copy_from user(a, args, nargs[calll)) 
return -EFAULT; 


a0=a[0]; 
al=al[1]; 
switch(call) 
下 
Case SYS_SOCKET: 


err = sys_socket (a0,al,a[2]); 


break; 
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case SYS_BIND: 
err = sys_bind(a0, (struct sockaddr _ user *)al, al[l2]); 
break; 


Case SYS_SENDMSG: 
err = sys_sendmsg(a0, (struct msghdr _ user *) al, al[l2]); 
break; 

case SYS_RECVMSG: 
err = sys_recvmsg(a0, (struct msghdr _ user *) al, al[l2]); 
break; 

default: 
err = -EINVAL; 
break; 








} 


return err; 





0 seetseveall 
OO 


表 12-3 给 出 了 socketcall 的 各 个 “ 子 调 用 ”。 
表 12-3 ”网络 相关 的 系统 调用 列表 ，sys_socketcall 充 当 多 路 分 解 器 














































































































函 数 语 义 
sys_socket 创建 一 个 新 的 套 接 字 
sys_bind 将 一 个 地 址 绑 定 到 一 个 套 接 字 
sys_connect 将 一 个 套 接 字 连 接 到 一 个 服务 器 
sys_listen 打开 被 动 连接 ， 在 套 接 字 上 监听 
sys_accept 湛 受 一 个 进入 的 连接 请 求 
Sys_getsockname 返回 套 接 字 的 地 址 
sys_getpeername 返回 参与 通信 的 另 一 方 的 地 址 
sys_socketpair 创建 一 对 套 接 字 ， 可 用 于 双向 通信 (两 个 套 接 字 都 在 同一 系统 上 ) 
sys_send 过 现存 连接 发 送 数 据 
SYS :sendto 明确 指定 的 目标 地 址 发 送 数据 《用 于 UDP 连接 ) 
SYS_TecV 八 数 据 




















Sys_recvfrom 


报 套 接 字 接 收 数据 ， 同 时 返回 源 地 址 


sys_shutdown 闭 连接 
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洋 
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sys_setsockopt 回 套 接 字 设置 的 有 关 信 息 
sys_getsockopt 安置 套 接 字 选项 
sys_sendmsg 以 BSD 风 格 发 送 消息 
sys_recvmsg 以 BSD 风 格 接收 信息 














12.10.4 创建 套 接 字 

sys_socket 是 创建 新 套 接 字 的 起 点 。 相 关 的 代码 流程 图 在 图 12-32 给 出 。 
首先 ， 使 用 sock_create 创 建 一 个 新 的 套 接 字数 据 结 构 ， 该 函数 直接 调用 了 __sock_create。 分 
配 所 需 内 存 的 任务 委托 给 sock_alloc， 该 函数 不 仅 为 struct socket 实 例 分 配 了 空间 ， 还 紧 接 着 该 实 
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例 为 一 个 inode 实 例 分 配 了 内 存 空 间 。 正 如 前 文 的 讨论 ， 这 使 得 两 个 对 象 可 以 联合 起 来 。 



















sock_map_fqd 


图 12-32 ”sys_socket 的 代码 流程 图 





























内 核 的 所 有 传输 协议 都 群集 在 net/socket.c 中 定义 的 数组 static struct net_proto_family 


* net_families[NPROTO] 中 (sock_register 用 于 向 该 数据 库 增加 新 数据 项 )。 各 个 数组 项 都 提供 
了 特定 于 协议 的 初始 化 函数 。 




















<net.h> 

struct net _ proto_ family { 
Ln family; 
int (*create) (struct socket *sock, int protocol); 
struct module *OWNer; 

于 





在 为 套 接 字 分 配 内 存 后 ， 刚 好 调用 函数 create。inet_create 用 于 因特网 连接 CTCP 和 UDP 都 使 
该 函数 )。 它 创建 一 个 内 核 内 部 的 sock 实 例 ， 尽 可 能 初始 化 它 ， 并 将 其 插入 到 内 核 的 数据 结构 。 

mapb_sock_fd 为 套 接 字 创 建 一 个 伪 文 件 〈 文 件 操作 通过 socket_ops 指 定 )。 还 要 分 配 一 个 文件 描 
述 符 ， 将 其 作为 系统 调用 的 结果 返回 。 


12.10.5 “接收 数据 


使 用 recvfrom 和 recv 以 及 与 文件 机 
党 类 似 , 在 处 理 过 程 的 早期 就 合并 起 来 ， 




































































日 关 的 readv 和 read 函 数 来 接收 数据 。 因 为 这 些 函 数 的 代 人 码 非 
因此 我 们 只 讨论 sys_recvfrom, 其 代码 流程 图 在 图 12-33 给 出 


Do 
sys_recvfrom 


fget_light] 
sock_from_ file] 


sock_recvmsg 
sock->ops->recvmsg 


move addr to_user| 


图 12-33 ”sys_recvfrom 的 代码 流程 
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用 于 确定 目标 套 接 字 的 文件 描述 符 传递 到 该 系统 调用 。 因 此 ， 第 一 个 任务 是 找到 对 应 的 套 接 字 。 
首先 ，fget_1ight 根 据 task_struct 的 描述 符 表 ， 查 找 对 应 的 file 实 例 。sock_from_file 确 定 与 之 
关联 的 inode， 并 通过 使 用 socKET_I 最 终 找 到 相关 的 套 接 字 。 
在 一 些 准备 工作 之 后 (不 在 这 里 讨论 )，sock_recvmsg 调 用 特定 于 协议 的 接收 例 程 sock->ops-> 
recvmsg。 例 如 ，TCP 使 用 tcp_recvmsg 来 完成 该 工作 。UDP 使 用 的 例 程 是 udp_recvmsg。UDP 的 实 
现 并 不 特别 复杂 。 

口 如 果 接 收 队 列 ( 通 过 sock 结 构 的 receive_queue 成 员 实现 ) 上 人 至少 有 一 个 分 组 ， 则 移 除 并 返 
可 该 分 组 。 

口 如 果 接 收 队 列 是 空 的 ， 显 然 没 有 数据 可 以 传递 到 用 户 进程 。 在 这 种 情况 下 ， 进 程 使 用 
wait_for_packet 使 自身 睡眠 ， 直 至 数据 到 达 。 
在 新 数据 到 达 时 总 是 调用 sock 结 构 的 data_ready 函 数 ， 因 而 进程 可 以 在 此 时 被 唤醒 。 
move_aqqr_to_usezr 将 数据 从 内 核 空间 复制 到 用 户 空间 ， 使 用 了 第 2 章 描述 的 copy_to_user 函 数 。 

TCP 的 实现 遵循 了 类 似 的 模式 ， 但 其 中 涉及 许多 细节 和 协议 的 奇异 之 处 ， 因 而 要 稍微 复杂 一 些 。 
12.10.6 ”发 送 数 据 

用 户 空间 程序 在 发 送 数 据 时 ,还 有 几 种 可 供 选 择 的 方法 。 它 们 可 以 使 用 两 个 与 网 络 有 关 的 库 函 数 
(sendto 和 send) 或 文件 层 的 write 和 writev 函 数 。 同 样 ， 这 些 函 数 的 控制 流 在 内 核 中 的 特定 位 置 会 
合并 为 一 ， 因 此 ， 考 察 上 述 第 一 个 函数 的 实现 〈 在 内 核 源 代码 的 sys_sendqto 过 程 中 ) 即 足 以 。 相 关 
的 代码 流程 图 在 图 12-34 给 出 ”。 


sock_ from file 


move_addr_ to_kernel 


sock sendmsg 站 ”| Sock->ops->sendmsg | 


图 12-34 ”sys_sendto 的 代码 流程 图 
fget_light 和 sock_from_file 根 据 文件 描述 符 查 找 相关 的 套 接 字 。 发 送 的 数据 使 用 move_ 

addr_to_kernel 从 用 户 空间 复制 到 内 核 空 间 ， 然 后 sock_sengmsg 调 用 特定 于 协议 的 发 送 例 程 

sock->ops->sendmsg。 该 例 程 产生 一 个 所 需 协 议 格式 的 分 组 ， 并 转发 到 更 低 的 协议 层 。 


12.11 内核 内 部 的 网 络 通信 


与 其 他 主机 通信 ， 不 只 是 用 户 层 应 用 程序 的 需求 。 内 核 同样 需要 与 其 他 计算 机 通信 ， 即 使 没有 用 
户 层 的 显 式 请 求 。 这 不 仅仅 对 一 些 古怪 的 特性 (如 某 些 发 行 版 包含 在 内 核 内 部 的 Web 服 务 器 ， 有 用 。 
网 络 文件 系统 如 CIFS 或 NCPFS 都 依赖 于 内 核 内 部 提供 的 网 络 通信 支持 。 


























































































































































































































































































































































































































































































































































































G@) 源 代码 中 处 理 了 __sock_sengmsg 使 用 异步 请 求 的 情况 。 这 里 故意 在 代码 流程 图 中 省 略 了 这 一 点 。 如 果 请 求 没 
有 在 __sock_sendmsg 中 直接 完成 ,那么 _sock_sendmsg 之 后 会 立即 调用 wait_on_sync_kiocb， 义 恢复 到 同步 行 
为 模式 。 
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但 这 尚未 满足 内 核 在 通信 方面 的 所 有 需求 ， 还 遗漏 了 最 后 一 部 分 : 各 个 内 核 组 件 之 间 的 通信 ， 以 
及 用 户 层 和 内 核 之 间 的 通信 。netlink 机 制 提 供 了 所 需 的 框架 。 
12.11.1 ”通信 函数 
本 节 将 讲述 内 核 内 部 的 网 络 API。 其 定义 基本 上 与 用 户 层 相同 : 
<net.h> 
int kernel_ sendmsg(struct socket *sock, struct msghdr *msg, 
struct kvec *vec, size t num, size 七 len); 
int kernel recvmsg(struct socket *sock, struct msghdr *msg, 
struct kvec *vec, size_t num, 
size_t len, int flags); 
int kernel bind(struct socket *sock, struct sockaddr *addr, 


int addrlen); 


kernel_ listen(struct socket *sock, 
kernel accept (struct socket *sock, 


int 
int 


int backlog); 
struct Socket **newsock, 


int flags); 


int kernel_ connect(struct Socket *sock, struct sockaddr *addr, 
int addrlen, int flags); 
int kernel getsockname (struct socket *sock, struct sockaddr *addr, 


int *addrlen); 


int kernel getpeername (struct socket *sock, struct sockaddr *adqdqr， 
int *addrlen); 
int kernel getsockopt(struct socket *sock, int level, int optname, 


char *optval, int *optlen); 
kernel_ setsockopt (struct socket *sock, 
char *optval, int optlen); 
kernel_ sendpage(struct socket *sock, struct page *page, 
size t size, int flags); 
kernel_ sock ioctl(struct socket *sock, int cmd, unsigned long arg); 
kernel_ sock_ shutdown(struct socket *sock, 

enum sock_shutdown_ cmd how); 





int int level, int optname, 


int int offset, 


int 
int 




















除了 kernel_sendmsg 和 kernel_recvmsg 之 外 ， 其 他 接口 的 参数 大 体 上 都 与 用 户 层 API 相 同 ， 只 
是 不 再 通过 文件 描述 符 来 指定 套 接 字 ， 而 直接 使 用 了 指向 struct socket 实 例 的 指针 。 这 些 接口 的 实 














现 都 比较 简单 ， 实 际 上 都 是 一 些 包 装 器 例 程 ， 真 正 的 工作 由 保存 在 struct socket 的 ops 成 员 中 的 函 








数 指针 〈 这 些 是 协议 操作 结构 proto_ops 的 成 员 ) 完成 : 


net/socket.c 


int kernel_connect(struct Socket *sock, struct sockaddr *addr, int addrlen, 























int flags) 
{ 
return sock->ops->connect (sock, addr, addrlen, flags); 
} 
在 指定 用 于 保存 接收 /发 送 数 据 的 缓冲 区 空间 时 ， 需 要 稍微 谨慎 一 些 。kernel_sendmsg 和 
kernel_recvmsg 并 不 像 用 户 层 那样 直接 通过 struct msghgdr 访 问 数据 区 ， 而 是 利用 了 struct kvec。 



























































但 内 核 自动 地 提供 了 两 种 表示 之 间 的 转换 ， 妇 


net/socket.c 
int kernel_ sendmsg(struct socket *sock, struct msghdr *msg, 
struct kvec *vec, size t num, size t size) 


{ 


kernel_sendmsg 所 示 。 





int result; 
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msg->msg_iov = (struct iovec *)vec; 
msg->msg_iovlen = num; 
result = sock sendmsg(sock, msg, size); 


return result; 


} 
12.11.2 netlink 机 制 


netlink 是 一 种 基于 网 络 的 机 制 ， 允 许 在 内 核 内 部 以 及 内 核 与 用 户 层 之 间 进 行 通信 。 其 正式 的 定义 
可 在 RFC 3549 中 找到 。 它 的 思想 是 ， 基于 BSD 的 网 络 套 接 字 使 用 网 络 框架 在 内 核 和 用 户 层 之 间 进 行 通 
言 。 但 netlink 套 接 字 大 大 扩展 了 可 能 的 用 途 。 该 机 制 不 仅仅 用 于 网 络 通 信 。 现 在 ， 该 机 制 最 重要 的 用 
户 是 通用 对 象 模型 ， 它 使 用 netlink 套 接 字 将 各 种 关于 内 核 内 部 事务 的 状态 信息 传递 到 用 户 层 。 其 中 包 
括 新 设备 的 注册 和 移 除 、 硬 件 层次 上 发 生 的 特别 的 事件 ， 等 等 。 在 此 前 的 内 核 版 本 中 ，netlink 曾 经 可 以 
编译 为 模块 ， 但 现在 只 要 内 核 文 持 网 络 ， 该 机 制 就 自动 集成 到 内 核 中 。 这 强调 了 该 机 制 的 重要 性 。 
内 核 中 还 有 其 他 一 些 可 选 的 方法 能 够 实现 类 似 的 功能 ， 比 如 procfs 或 sysfs 中 的 文件 。 但 与 这 些 方 
法 相 比 ，netlink 机 制 有 一 些 很 明显 的 优势 。 
口 任何 一 方 都 不 需要 轮 询 。 如 果 通 过 文件 传递 状态 信息 ， 那 么 用 户 层 需 要 不 断 检查 是 否 有 新 消 
县 到 达 。 

口 系统 调用 和 ioctl 也 能 够 从 用 户 层 向 内 核 传递 信息 ， 但 比 简单 的 netlink 连 接 更 难于 实现 。 另 外 ， 
使 用 netlink 不 会 与 模块 有 任何 冲突 ， 但 模块 和 系统 调用 显然 配合 得 不 是 很 好 。 

口 内 核 可 以 直接 向 用 户 层 发 送信 息 ， 而 无 须 用 户 层 事先 请 求 。 使 用 文件 也 可 以 做 到 ， 但 系统 调 
用 和 ioctl 是 不 可 能 

口 除了 标准 的 套 接 字 ， 用 户 空间 应 用 程序 不 需要 使 用 其 他 东西 来 与 内 核 交 互 。 

netlink 只 支持 数据 报信 息 ， 但 提供 了 双向 通信 。 另 外 ，netlink 不 仅 支 持 单 播 消 息 ， 也 可 以 进行 多 
播 。 类 似 于 任何 其 他 3 时 于 套 接 字 的 机 制 ， netlink 的 工作 方式 是 异步 的 。 

有 两 个 手册 页 提供 了 netlink 机 制 的 文档 : netlink(3) 描 述 了 内 核 中 用 于 操作 、 访 问 、 创 建 netlink 
数据 报 的 宏 。 手 册页 netlink(7) 包 含 了 有 关 netlink 套 接 字 的 一 般 性 信息 ， 并 给 出 了 这 里 使 用 的 数据 结 
构 的 文档 。 另 外 请 注意 ，/proc/net/netlink 包 含 了 关于 当前 活动 的 netlink 连 接 的 一 些 信息 。 
在 用 户 空间 ， 有 两 个 库 ， 简 化 了 创建 支持 netlink 套 接 字 的 应 用 程序 的 工作 。 

口 1ibnetlink 与 jproute2 软 件 包 捆绑 在 一 起 。 在 编写 这 个 库 时 ， 就 特别 考虑 到 了 路 由 套 接 字 
(routing socket)。 此 外 ， 它 不 是 独立 的 代码 ， 如 果 要 独立 使 用 ， 必 须 从 该 软件 包 中 提取 出 来 。 

口 1ibn1 是 一 个 独立 的 库 ， 并 没有 对 特定 的 使 用 情况 进行 优化 。 相 反 ， 它 对 各 种 类 型 的 netlink 连 
接 都 提供 了 文 持 ， 包 括 路 由 套 接 字 。 

1. 数据 结构 









































































































































































































































































































































































































































































































































































































































e0U000 

类 似 于 每 个 网 络 协议 ， 每 个 netlink 套 接 字 都 需要 分 配 一 个 地 址 。 下 列 struct sockadqdqr 的 变 体 表 
示 netlink 地 址 : 

<netlink.h> 


struct sockaddr_ nl 

{ 
sa_family t nl family; /* AF_NETLINK */ 
unsigned short nl _ pad; 六 
U32 nl Did; /* 站 Sf 
__ u32 nl_groups; /* 多 播 组 推 码 */ 
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为 区 分 内 核 的 不 同 部 分 使 用 的 各 个 不 同 的 netlink 通 道 ， 使 用 了 nl_family 成 员 。<netlink.h> 中 























指定 了 几 个 不 同 的 族 ， 这 个 列表 在 内 核 版 本 2.6 开 发 期 间 增 长 了 很 多 。 当 前 定义 了 20 个 族 ， 举 例如 下 。 





DN 














DN 









































ETLINK_KOBJECT_UEVENT 是 内 
































通常 使 用 其 线程 组 ID 。 请 注意 ， 这 呈 
































BTLINK_ROUTE 是 netlink 套 接 字 最 初 的 目的 ， 即 修改 路 由 选择 信息 。 

ETLINK_INET_DIAG 用 来 监控 人 P 套 接 字 ， 更 多 细节 请 参见 net/ipv4/inet_diag.c。 
ETLINK_XFRM 用 于 发 送 和 接收 有 关 IPSec (更 一 般 地 说 , 也 可 能 是 有 关 任 何 XFRM 变 换 ) 的 信息 。 
核 通 用 对 象 模型 向 用 户 层 发 送信 息 所 采用 的 协议 〈 反 过 来 ， 从 
户 层 到 内 核 是 不 能 采用 此 类 消息 的 )。 该 通道 构成 了 7.4.2 节 中 讨论 的 热 插 拔 机 制 的 基础 。 
nl_pid 为 此 类 套 接 字 提供 了 唯一 标识 符 。 对 内 核 自 身 来 说 ， 该 字段 总 是 0(， 而 用 户 空 间 应 用 程序 











































































































并 没 





和 明确 指定 n1_piq 表 示 进 程 ID， 它 可 以 是 任何 唯一 值 ， 使 用 



































线程 组 ID 不 过 是 方便 而 已 ." nl_piq 是 单 播 地 址 。 每 个 地 址 族 还 可 以 指定 不 同 的 多 播 组 ，nl_groups 


是 一 个 位 图 ， 表 示 该 套 接 字 所 属 的 多 播 地 ] 
基 单 播 传输 的 情况 。 
@ netlink[| [| 0 
可 想 一 下 12.10.4 节 ， 每 个 协议 族 都 需要 在 内 核 中 注册 一 个 net_proto_family 实 例 。 该 结构 包含 
折 套 接 字 时 调用 。netlink 将 netlink_create 用 于 该 目的 。 该 














下 文具 六 有 














一 个 函数 指针 ， 在 创建 属于 该 协议 族 的 3 























引 。 如 果 不 允 许 使 用 多 播 ， 该 字段 为 0。 为 简化 阐述 的 内 容 ， 



















































































函数 分 配 一 个 struct sock 的 实例 ， 通 过 socket->sk 关 联 到 套 接 字 。 但 不 仅 为 struct sock 分 配 了 空 
间 ， 还 为 分 配 了 一 个 更 大 的 结构 ， 定 义 如 下 (已 简化 ): 


net/netlink/af_netlink.c 
struct netlink_ sock { 


/* struct soc 


人 


实际 上 ， 该 结构 








struct sock sk; 
G32 Bid:; 
u32 dst_pigd; 


void 








k 必 须 是 net1link_sock 的 


第 一 个 成 员 */ 





(*netlink rcv) (struct Sk_buff *skb); 








P 还 有 很 多 与 netlink 相 关 的 成 员 ， 上 述 代码 不 过 选取 了 其 中 最 本 质 的 那 部 分 。 
sock 实 例 直 接 舱 入 到 netlink_sock 中 





。 给 出 一 个 netlink 套 接 字 的 struct sock 实 例 ， 与 之 相关 














联 、 特 定 于 netlink 的 netlink_socket 实 例 ， 可 以 使 用 辅助 函数 nlk_sk 获 得 。 连 接 两 端的 端口 有 DD 分 别 


保存 在 pida 和 ast_pid 中 。netlink_rcv 指 向 一 个 函数 ， 在 接收 数据 时 调用 。 





e0000 
netlink 消 息 需 要 遵守 一 定 的 格式 ， 如 图 12-35 所 示 。 

















消息 1 


struct nlmsg_hdr 



































补 齐 



































G@ 如 果 





用 户 空 间 ; 











程 想 持 有 多 个 netlink 套 


人 个 个 对 齐 到 





榜 字 ， 


NLMSG_ALIGNTO 











图 12-35 ”netlink 消 息 的 格式 














因而 需要 多 个 唯一 标识 符 , 这 种 情况 下, 请 参见 手册 页 hetlink(7)。 

















@@ 协议 族 操 作 netlink_family_ops 指 向 该 函数 。 回 想 12.10.4 节 的 内 容 ， 在 创建 新 套 接 字 时 自动 调用 了 创建 函数 。 
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每 个 消息 由 两 部 分 组 成 : 首部 和 净 荷 。 首 部 表示 为 struct nlmsghdr， 而 净 荷 可 以 任意 的 。” 首 
部 所 需 的 内 容 由 下 列 数据 结构 定义 ; 

<netlink.h> 
struct nlmsghdr 
{ 

_u32 nlmsg_len; /* 消息 长 度 ， 包 括 首部 在 内 */ 

ul16 nlmsg_type; /* 消息 内 容 的 类 型 */ 

_u1l6 nlmsg_flags; /* 附加 的 标志 */ 

_u32 nlmsg_seq; /* 序列 号 */ 

_u32 nlmsg_pid; /* 发 送 进程 的 端口 ID */ 
} 
口 整个 消息 的 长 度 ， 包 括 首部 和 任何 所 需 的 填充 字 节 ， 保 存在 nlmsg_len 中 。 
口 消息 类 型 由 nlmsg_type 表 示 。 该 值 是 协议 族 私 有 的 ， 通 用 的 netlink 代 码 不 会 检查 或 修改 。 








口 各 种 标志 可 以 保存 在 nlmsg_flags 中 。 所 有 可 能 的 什 


个 请 求 ， 要 求 
































主要 关注 两 个 标志 : 如 果 消 息 包含 















































都 定义 在 <ne 














































































































clink.h> 中 。 对 我 们 来 说 ， 
执行 某 个 特定 的 操作 (而 不 是 传输 一 些 状 

















态 信 息 )， 那 么 NLM_F_REQUEST 将 置 位 ， 而 NLM_F_ACK 要 求 在 接收 到 上 述 消息 并 成 功 处 理 请 求 
之 后 发 送 一 个 确认 消息 。 
口 nlmsg_seq 包 含 一 个 序列 号 ， 表 示 一 系列 消息 之 间 在 时 间 上 的 前 后 关系 。 
口 标识 发 送 者 的 唯一 的 端口 了 保存 在 nlmsg_pid 中 。 
请 注意 ，netlink 消 息 的 各 个 部 分 ， 总 是 像 图 12-35 中 那样 ， 对 齐 到 NLMSG_ALIGNTO 〈 通 常 是 4) 字 
于 struct nlmsghdr 的 长 度 当 前 是 NLMSG_ALIGNTO 的 倍数 ， 首 部 部 分 自然 是 满足 对 齐 条 件 

















节 边 界 。 
的 。 但 净 荷 后 面 可 能 需要 填充 一 些 字 节 。 为 确 









































呆 满 足 对 齐 的 要 求 ， 内 核 在 <netlink.h> 中 








宏 ， 可 用 于 正确 


计算 边界 。 手 册页 netlink(3) 对 这 些 宏 的 描 








一 个 消息 的 长 度 不 应 该 超过 一 页 ， 这 样 对 
么 消息 长 度 不 应 该 超过 8 KiB， 因 为 不 应 该 强制 用 





























述 很 完善 ， 这 里 将 不 重复 了 
内 存 分 配 的 压力 较 小 。 但 如 果 使 
户 层 分 配 过 大 的 缓冲 区 来 接收 netlink 消 





o 





自 











引入 了 几 个 


用 的 页 大 于 8 KiB， 那 
息 。 内 核定 义 




















了 常数 NLMSG_GoopsIZE， 这 是 消息 总 长 度 的 推荐 值 。N 
































的 长 度 。 在 分 配 用 于 netlink 消 息 的 套 接 字 缓冲 区 
@ [00 netlinkb0 [0 
内 核 
nl_table 实 现 的 ， 
实际 定义 ， 因 为 所 用 的 散 列 方法 非常 简单 。 
(1) nl 
议 族 成 员 都 
(2) 散 列 链 编 号 使 用 n1_pig_hashfn 确 定 ， 是 基于 端 
机 数 计算 得 出 。 > 


netlink insert 
















































































] 于 向 散 列表 插入 新 的 表 项 ， 


net/netlink/af_netlink.c 
static int netlink_ insert 


而 ne 











struct sock *sk, 


时 , NLMSG_GOODSIZE 是 缓冲 








区 长 度 的 





MSG_DEFAULT_SITZE 指 定 了 净 荷 部 分 可 用 空间 





个 和 


民 好 的 选择 。 





使 用 几 个 散 列 表 ， 跟 踪 了 由 sock 实 例 表示 的 所 有 netlink 连 接 。 这 些 散 列表 是 
该 数组 包含 了 指向 struct netlink_table 实 例 的 指针 。 这 里 不 详细 遇 








struct net *net, 


u32 pid); 








围 





绕 全 局 数组 
述 该 结构 的 














_table 的 每 个 数组 元 素 都 为 每 个 协议 族 成 员 提 供 了 一 个 独立 的 散 列 表 。 回 想 前 文 ， 每 个 协 
INETLINK_XXX 定 义 的 一 个 常数 来 标识 ， 例 如 ，XXxXX 可 以 是 Ro 


A 


UTE 或 KOBJECT_UEVENT 等 。 
口 D 和 一 个 与 该 散 列 链 相 关 的 《1 





全 一 的 ) 随 














tlink_lookup 用 来 查找 sock 实 例 : 


static _ inline _ struct sock *netlink lookup(struct net *net, int protocol, u32 pid); 





















































佳 数据 结构 struct nlattr。 这 种 做 法 没有 认 








Q 如 果 netlink 用 于 传输 属性 ， 内 核 为 此 提供 了 标 ; 
所 有 定义 的 属性 ， 以 及 一 系列 辅助 函数 ， 都 可 以 在 include/net/netlink.h 找 到 。 

















@ 实际 上 的 情况 更 复杂 一 些 ， 因 为 在 散 列表 项 更 多 时 ， 内 核 会 











了 散 列 所 有 表 项 ， 这 里 忽略 了 这 种 额外 的 复杂 性 。 


F 细 讨论 ， 但 请 注意 ， 
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请 注意 ， 散 列 数 据 结构 并 未 设计 为 按 命 名 空 
但 该 代码 是 可 以 感知 到 网 络 命名 空间 的 ， 在 查找 sock 实 例 时 ， 代 码 确 保 了 结果 在 适当 的 命名 空间 中 。 









































zs 间 进行 操作 ， 基 











为 整个 系统 只 有 一 个 全 局 结构 实例 。 











来 自 不 同 命名 空间 的 相同 端口 DD 可 以 同时 处 于 同一 散 列 链 上 ， 而 没有 问题 。 














en0U000000 












































作 。 这 些 操作 定义 如 下 : 
net/netlink/af_netlink.c 
static const struct proto_ops netl 
.family = PF_NETLINK, 
.Oowner = THIS_ MODULE, 




















ink_oOBs = { 


.release = netlink release, 


.bind = netlink bing, 


.Connect = netlink connect, 


.Socketpair = sock no_sock 
.accept = sock_no_accept, 


etpair, 


.getname = netlink getname, 


.poll = datagram poll, 
.ioctl = sock no_ioctl, 
.listen = sock no_listen, 


.Shutdown = sock_no_shutdown, 


.Setsockopt = netlink sets 
.getsockopt = netlink gets 


ockopt, 
ockopt, 


.Sendmsg = netlink_ sendmsg, 
.recvmsg = netlink_ recvmsg, 


.mmap = sock_no_mmap, 


.Sendpage = sock_ no_sendpage, 


3 
2. 编程 接口 









































1 于 用 户 层 应 用 程序 使 用 标准 的 套 接 字 接口 来 处 理 netlink 连 接 ， 内 核 必须 提供 一 组 特定 的 协议 操 





通用 的 套 接 字 实现 提供 了 netlink 所 需 的 大 部 分 基本 功能 。netlink 套 接 字 既 可 以 从 内 核 打 开 ， 也 可 








以 从 用 户 层 打开 。 前 一 种 情况 下 ， 使 用 了 net1link kernel_create， 而 在 后 一 种 情况 下 ， 将 通过 标准 
es 为 节省 篇 幅 ， 这 里 不 会 详细 讲述 用 户 层 协议 处 理 程序 

















的 实现 ， 而 只 考虑 如 何 从 内 核 初始 化 连接 。 


net/netlink/af_netlink.c 
Struct sock * 






































re, 














函数 需要 多 个 不 同 




















的 参数 : 


netlink kernel_ create(struct net *net, int unit, unsigned int groups, 


void 
struc 





*input) (struct sk _ buff *skb), 
上 mutex *cb_mutex, 


struct module *module); 


net 表 示 网 络 命名 空间 ，unit 指 定 所 属 协议 族 成 员 ， 而 input 是 一 个 回调 函数 ， 在 数据 到 达 该 套 





























接 字 时 将 调用 input。? en 那么 套 接 字 将 只 能 从 内 核 向 用 户 层 传输 数据 ， 
































反 过 来 就 不 行 了 。 图 12-36 给 出 的 代码 流程 图 ， 概 述 了 netlink_ kernel_create 执 行 的 任务 。 





(1) 分 配 所 有 需求 的 数据 结构 ， 特 别 是 s 




















truct socket 和 struct netlink_sock 的 实例 。sock_ 











create_lLite 处 理 第 一 个 需求 ， 而 分 配 netlink_sock 的 工作 则 委托 给 辅助 函数 mnetlink_create。 








C) 如 果 指定 了 input 函 数 ， 则 保存 在 netlink_sock->netlink_rcv 中 。 
(3) 通过 netlink_insert 将 新 的 sock 实 例 捐 














G@ 还 有 一 些 参数 ， 但 不 必 详 细 考 虑 。groups 给 出 
一 个 互 斥 量 (cb_mutex) 来 保护 netlink 的 回调 
通常 可 以 对 互 斥 量 参数 指定 NULL 指 针 ， 内 核 将 








入 到 netlink 的 散 列 表 中 。 











UD 





了 多 播 组 的 数目 ， 但 这 里 不 会 详细 讨论 相关 的 可 能 性 。 还 可 以 指定 























函数 ， 因 为 这 里 已经 忽略 了 对 该 机 制 的 讨论 ， 读 者 也 可 以 忽略 它 。 
回 退 到 默认 的 锁 方 案 。 
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netlink kernel create 


sock_create_ lite 


__netlink create 


保存 input 函 数 


图 12-36 netlink_kernel_create 的 代码 流程 图 (忽略 了 对 多 播 的 处 理 ) 
举例 来 说 ， 考 虑 通用 对 象 模型 如 何 创 建 用 于 uevent 机 制 的 netlink 套 接 字 (至 于 如 何 使 用 该 连接 ， 
参考 7.4.2 节 ): 


lib/kobject_uevent.c 
static int _ init kobject uevent init(void) 


{ 














































































uevent_sock = netlink kernel create(&init net, NETLINK KOBJECT_ UEVENT, 
1, NULL, NULL, THIS_ MODULE); 





return 0; 


_ 











由 于 uevent 消 息 不 需要 用 户 层 的 输入 ， 因 而 不 必 指 定 input 函 数 。 

在 创建 套 接 字 之 后 ， 内 核 可 以 构建 sk_buff 实 例 ， 并 用 netlink_unicast 或 netlink_broadcast 

将 其 发 送出 去 。 

很 自然 ， 在 允许 双向 通信 时 ， 会 涉及 更 多 的 东西 。 例 如 ， 考 上 处 审计 子 系统 ， 它 不 仅 向 用 户 空间 发 

送 消息 ， 还 从 用 户 空 间接 收 一 些 消息 。 首 先 ， 需 要 在 调用 netlink_kernel_create 时 指定 一 个 ijnput 
kernel/audit.c 


audit_sock = netlink kernel create(&init net, NETLINK_ AUDIT, 0, 
audit_ receive, NULL, THIS_ MODULE); 


audit_receive 负 责 处 理 接 收 的 消息 〈 保 存在 套 接 字 缓冲 区 中 )。audait_receive 只 是 一 个 包装 
器 ， 用 来 确保 使 用 了 正确 的 锁 ， 并 将 实际 工作 分 配给 audqit_receive_skb。 由 于 所 有 接收 函数 都 遵循 
了 类 似 的 模式 ， 考 察 该 函数 的 代码 是 有 指导 意义 的 : 


kernel/audit.c 
static void audit receive skb(struct sk buff *skb) 


{ 





















































EE: 












































































































































int err; 
struct nlmsghdr *nlh; 
u32 rlen; 


while (skb->len >= NLMSG SPACE(0)) { 
nlh = nlmsg_hdr (skb); 


rlen = NLMSG ALIGN (nlh->nlmsg_len); 


If ((err = audit receive msg(skb, nlh))) { 
netlink ack(skb, nlh, err); 

} else if (nlh->nlmsg_flags & NLM F_ACK) 
netlink ack(skb, nlh, 0); 
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0 





skb_pull (skb, 


} 
} 


rlen); 








一 个 套 接 字 缓冲 区 





又 中 可 外 




















数据 , ” 接 下 来 处 理 


净 荷 为止。 这 也 是 while 循 环 的 作用 。 
下 一 个 消息 。 


自 


CBC» J 














ee 
个 消息 ， 用 skb_pul 


EA 


> 因 





EE 包含 了 多 个 netlink 消 息 
这 里 的 通用 结构 是 
于 N et Be 























































































































I 


内 核 可 将 该 值 与 套 接 字 组 冲 
对 每 个 消息 来 
接 下 来 audqi 
完毕 之 后 ， 有 
(1) 解析 























如 下 两 种 可 
期 间 出 错 。 




















说 ， 用 nlmsg_har 提 
t_receive_msg 人 负责 分 析 消 
台 已 

Heto 

使 用 netlink_ack 发 送 一 个 确认 消 








区 中 剩余 数据 的 长 度 比较 ， 很 容易 判断 是 否 有 更 多 的 消 | 





















































和 息 中 与 审计 相关 的 

















自 ， 其 中 向 


Em ey 











包含 了 出 





直至 没有 剩 
1 移 除 处 理 
x 间 〈 不 包含 净 荷 
息 等 待 处 理 。 
取出 首部 ， 用 NLMSG_ALIGN 计 算 包含 填充 字 节 在 内 的 总 长 度 。 
内 容 ， 这 和 我 们 没什么 关系 了 。 在 数据 解析 


余 的 
过 的 
)， 
































洪 的 消息 和 错误 码 。 

















(2) 如 果 该 消息 通过 置 位 NI 



































消息 。 


12.12 











这 一 次 ， 回 复 中 不 包 


小 结 


EC 


Linux 经 常用 于 运行 网 络 服务 器 ， 








子 系 统 通用 的 分 层 结构 ， 其 

套 接 字 建立 了 网 络 实现 
在 表示 和 处 理 通过 网 络 获得 
运作 方式 ， 并 解释 了 NAPI 





























读者 已 经 看 到 了 IP 分 组 


自 


DO 





因为 netlink_ack 的 srror 参 数 设置 为 0。 





含 输入 的 消 
































因此 ， 其 网 络 实现 强大 、 复 杂 、 
中 容纳 了 大 量 不 同 的 协议 ， 并 提供 了 很 多 服务 。 





LM_F_ACK 标 志 来 请 求 确 认 , 内 核 仍 然 通 过 net1link_ack 发 送 所 要 的 











前 认 








涉及 面 颇 广 。 本 章 讨论 了 网 络 


和 用 户 层 之 间 的 关联 , 在 介绍 了 套 接 字 的 思想 之 后 , 讨论 了 套 接 字 缓 冲 区 ， 





和 发 送 的 分 组 
I 何 帮 助 设备 达到 尽 可 能 高 的 速度 。 











时 ， 这 是 一 个 根本 性 的 数据 结构 。 接 下 来 讨论 了 网 络 设备 的 

















是 如 何 穿 过 网 络 层 的 ， 以 及 传输 层 对 




















分 组 的 处 型 








E 从 应 用 层 结束 或 开 








台 ， 还 探讨 了 在 此 背后 的 相关 机 制 。 























本 章 最 后 ， 讨 论 了 如 何 
一 条 高 速 的 通信 链 路 。 











GD 确切 地 说 ， 


该 函数 没有 删除 数据 ， 只 





从 内 核 内 部 发 起 网 络 连 接 ， 以 及 如 何 用 netlink 机 币 


TCP 和 UDP 分 组 的 处 理 方 





| 在 内 核 和 帮 


是 相应 地 设置 了 套 接 字 缓 冲 区 的 数据 指针 。 但 效果 是 相同 的 。 


式 。 最 终 ， 











层 之 间 建 


系统 调用 




















用 户 程序 的 4 





度 来 看 ， 内 核 是 一 个 透明 的 系统 层 ， 











经 换 出 或 尚未 读 入 。 但 进程 















































取 文件 等 。 为 了 达到 上 述 目 的 ， 进 程 使 用 标准 











库 例 程 ， 库 例 程 接 下 来 调 
































责 在 各 个 请 求 进程 之 间 公 平 而 且 流 畅 地 共享 资源 和 
天 
用 于 在 不 同 的 体系 结构 和 系统 之 间 ， 标 准 化 并 简化 


从 内 核 的 视角 来 看 ， 情 况 当 然 有 一 点 复杂 ， 因 







































































而 , 应 用 程序 看 到 的 内 核 是 负责 执行 多 种 系统 功能 的 一 个 大 
内 核 例 程 的 管理 。 


服务 。 
























































的 不 同方 式 。 另 外 ， 我 们 还 比较 感 兴趣 的 一 点 是 ， 
和 返回 值 如 何 传递 。 本 章 将 讨论 这 些 问 题 。 
按 前 几 章 的 讨论 ， 系 统 调 用 






































我 们 已 经 考察 了 很 多 内 核子 系统 的 系统 调用 的 实现 。 
库 的 库 例 程 和 对 应 的 系统 调用 
细 考 察 内 核 源 代 码 ， 以 描述 用 于 从 用 户 空间 切换 到 内 核 空 间 的 机 制 。 我 们 将 描述 


























本 章 首先 简要 地 看 一 下 系统 程序 设计 ， 把 标准 


























基础 设施 ， 并 讨论 特别 的 实现 方面 的 特性 。 


13.1 系统 程序 设计 基础 








大 体 上 ， 系 统 程序 设计 主要 是 利用 标准 库 进 行 工作 ,标准 库 提供 了 各 种 基本 函数 ， 用 于 
程序 。 无 论 编写 何 种 应 用 程序 ， 程 序 员 都 必须 了 解 系统 程序 设计 的 基础 知识 。 一 个 简单 的 程序 ， 如 经 
幕 上 显示 “Hello, world!” 或 类 似 的 文本 ， 也 会 间接 使 月 
































FE 

















典 的 hello.c 例 程 ， 在 
的 字符 。 





不 同 已 经 在 本 书 前 几 章 中 讨论 过 。 要 特别 注意 两 种 模式 下 不 同 的 虚 ] 




















程 不 知道 内 核 是 否 在 运行 中 。 进 程 同样 不 知道 虚拟 内 存 的 哪些 内 容 在 物理 
直 忙 于 与 内 核 的 交互 : 请 求 系统 资源 、 访 问 外 设 、 与 其 他 进程 通信 、 读 



































的 例 程 集合 。 标 准 库 是 一 个 














内 核 函 数 ， 最 终 ， 


































































































当然 ， 系 统 程 序 设计 不 一 定 总 是 
讨厌 的 FORTRAN 也 或 多 或 少 地 支持 直 
使 用 C 语 言 编写 系统 程序 ， 因 
Linux 也 不 例外 。 

标准 库 不 仅 是 实现 内 核 系统 调用 的 接 




































































用 C 语 言 。 还 有 其 他 编 
接 使 用 外 部 库 的 例 程 ， 
为 它 与 UNIX 概 念 融 合 得 最 好 ， 所 有 的 UNIX 内 核 都 





























-中 也 提供 了 商 


因而 也 能 够 调 






























































程 语言 ， 如 C++、Pascal、Java， 其 至 邻 

















F 多 其 他 完全 在 





标准 库 





日 于 开发 应 月 


它 一 直 存 在 ， 但 从 未 真正 被 注意 到 。 进 
内 存 中 ， 哪 些 已 


内 核 负 


局 间 层 ， 


为 用 户 态 和 核心 态 之 间 有 几 个 重大 的 不 同 ， 有 一 些 

拟 地 址 空间 和 利用 各 种 处 理 器 特性 

控制 权 如 何在 应 用 程序 和 内 核 之 间 来 回 传递 ， 参 数 

于 从 用 户 应 用 程序 调用 内 核 例 程 ， 以 利用 内 核 的 一 些 专门 的 功能 。 


区 分 清楚 。 接 下 来 仔 
用 于 实现 系统 调用 的 





有 


日 系统 例 程 来 输出 必要 


人 
会 























也 


是 用 C 语 言 编 

















i 











数 。 这 简化 了 程序 员 的 工作 ， 使 得 程序 员 不 需要 
代码 ， 肯 定 是 能 用 得 上 的 。 
为 通用 编程 语言 正在 向 越 来 越 高 的 抽象 

















[el 














I 























直 “ 重 新 发 明 轮子 ”而 GNU C 库 中 











函数 。 但 通常 
与 


户 空间 实现 的 函 
的 大 约 100 MiB 


妇 次 发 展 , 而 系统 程序 设计 的 真正 意义 正在 被 缓慢 地 侵 
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蚀 。 在 用 鼠标 点 击 几 ， 
要 的 是 一 条 中 间 道 路 。 




















对 一 个 用 于 在 文本 文件 中 扫 








力 深 究 打 开 和 读 取 文本 文件 的 机 制 。 在 这 种 情况 下 ， 
男 一 方面 , 包含 上 G 或 上 T 字 节 数 据 的 数据 库 当 然 想 要 知道 


问 其 文件 或 裸 数据 的 底 





结构 























] 主 义 的 看 法 就 足够 了 。 但 在 











中 的 一 个 
































层 操 作 系 统 机 制 ， 
巨型 矩阵 提供 特定 的 值 就 是 一 个 经 
， 如 何 来 极 大 地 提高 程序 的 性 





























是 某 个 














以 便 对 数据 库 代 码 进行 调 优 ， 从 而 提 
Ph 可 以 看 到 ， 通 过 考察 操作 系统 也 
。 如 果 上 述 和 矩阵 的 数据 散布 在 几 个 内 存 页 面 上 ， 那 么 向 矩阵 


列子 ， 我 们 从 











> 








的 内 部 结构 和 架构 
13.1.1 
下 列 例子 展示 了 如 何 使 用 标准 库 的 包装 器 例 程 来 进行 系统 调用 : 


直 的 1 
最 有 效 地 








下 ， 就 能 毫 不 费力 地 创建 一 个 程序 时 ， 为 什么 还 要 费心 关注 系统 细节 呢 ? 
字符 串 的 简单 Perl 脚 本 来 说 ， 不 太 可 
只 需要 知道 数据 总 会 以 某 利 

















供 最 高 的 性 能 。 


方式 从 文件 读 取出 3 


这 里 需 
全 


能 去 费 















































顺序 就 非常 关键 。 根 据 











使 用 系统 的 缓存 和 缓冲 





内 存 管理 
区 








子 系统 管理 




















本 章 讨论 的 技术 

















未 从 内 核 的 功能 抽象 出 来 
-的 一 些 原则 ， 包 括 对 外 部 的 











追踪 系统 调用 











include<stdio.h> 
include<fcntl.h> 
include<unistd.h> 
include<malloc.h> 





int main() { 
int handle, 
void* ptr; 


bytes; 


handle = open("/tmp/test.txt", 


ptr = 


bytes = read(handle, 
brintf("Ses"; DEE)s 


close(handle); 
return 0; 


} 
这 个 示例 程序 打 

















heag 命 令 的 一 个 非常 简单 的 版 本 。 


论 过 


体 使 





应 用 程序 发 出 的 所 有 系统 调用 





ptr, 


(void*)malloc(150); 


150)s 














内 存 的 方式 ， 可 以 避免 不 必要 的 调 页 操作 ， 并 





O_RDONLY); 


文件 /tmp/test.txt， 读 取 前 150 个 字 节 ， 寺 

















这 个 程序 使 用 了 多 少 个 系统 调 
)。 而 printf 函 数 也 是 通过 系统 



































调用 在 标准 库 




















Ph 实现 的 。 当 然 可 以 阅 

















3 了 哪个 系统 调 








]， 但 这 肯定 是 见长 乏味 的 。 





























核 自然 需要 为 记录 系统 调用 提 
个 系统 调用 (ptrace )， 我 人 
接 下 来 使 用 strace 命 令 将 shead (上 述 的 例子 程序 ) 发 


./shead 

















wolfgang@meitner> strace -o log.txt 


读者 的 预期 可 能 要 多 很 多 : 


log.txt 的 内 容 比 





( strace 有 其 他 选项 用 于 指定 具体 保存 哪些 数据 ， 这 些 记录 在 strace (1) 手 册页 中 。 





供 专门 的 支持 ， 
] 只 对 其 输出 感 兴趣 ]。 








个 简单 些 的 方案 是 使 
将 该 信息 提供 给 程序 员 ， 在 调试 程序 时 ， 这 个 工 


















































(至 少 抽象 程度 不 高 )， 这 更 使 得 我 们 需要 考察 内 核 
接口 。 


将 其 写 到 标准 输出 ， 这 是 UNIX 


] 呢 ?能 直接 看 到 的 只 有 open、read 和 close( 其 实现 在 第 8 章 讨 
读 标 准 库 的 代码 ， 来 看 看 具 
























































jstrace 工 具 ， 它 可 


lL 是 不 可 缺少 







































































这 将 在 13.3.3 节 讨论 [不 出 所 料 ， 这 项 支持 功能 


























以 记录 
的 。 内 


也 是 一 


的 所 有 系统 调用 的 列表 写 到 log.txt 中 : ” 
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execve("./shead", ["./shead"], [/* 27 vars */]) = 0 
uname (sys="Linux", node="jupiter", ...) = 0 
brk(0) = 0x8049750 
old_mmap (NULL, 4096, PROT_READ | PROT_WRITE, ..., -1, 0) = 0x40017000 
open("/etc/ld.so.preload", O_RDONLY) = -1 ENOENT (No such file or directory) 
open("/etc/ld.so.cache", O_RDONLY) 于 3 
fstat64(3, st_ mode=Ss_IFREG|0644, st_size=85268, ...) = 0 
old_ mmap (NULL, 85268, PROT_READ, MAP_PRIVATE, 3, 0) = 0x40018000 
close(3) = 0 
openm("/1ib/i686/1ibc.so.6"，O_RDONLY) E 
read(3, "\177ELF\1\1\1\0\0\0\0\0\0\0\0\0\3\0\3\0\1\0\0\0\200\302"..., 1024) = 1024 
fstat64(3, st_ mode=Ss_IFREG|0755, st_size=5634864, ...) = 0 
old_ mmap (NULL, 1242920, PROT_READ | PROT_EXEC, MAP_PRIVATE, 3, 0) = 0x4002d000 
mprotect (0x40153000, 38696, PROT_NONE) = 0 
olgd_mmap (0x40153000, 24576, PROT_ READ|PROT WRITE, ..., 3, 0x125000) = 0x40153000 
old mmap (0x40159000, 14120, PROT_READ | PROT_WRITE, .0 -1, 0) = 0x40159000 
close(3) = 0 
munmap (0x40018000, 85268) = 0 
getpidqd() = 10604 
open("/tmp/test.txt", O_ RDONLY) | 
brk (0) = 0x8049750 
brk (0x8049800) = 0x8049800 
brk (0x804a000) = 0x804a000 
read(3, "A black cat crossing your path s"..., 150) = 109 
fstat64(1, st_ mode=Ss_IFCHR|0620, st_rdev=makedev(136, 1), ...) = 0 
mmap2 (NULL, 4096, PROT_READ | PROT_WRITE, MAP_PRIVATE | MAP_ANONYMOUS, -1, 0) = 0x40018000 
ioctl(1, TCGETS, B38400 opost isig icanon echo ...) = 0 
writel(l1i; "A Dlack Gat crossing your path 8",,..; 77) 三 77 
write(1, " -- Groucho Marx\n", 32) = 32 
munmap (0x40018000, 4096) = 0 
_exit(0) 本 
跟踪 记录 显示 ， 该 应 用 程序 进行 了 大 量 源 代码 中 没有 明确 列 出 的 系统 调用 。 因 此 ，strace 的 输 
出 并 不 容易 阅读 。 为 此 ， 上 文 复制 的 文本 中 ， 但 凡 能 够 在 例子 程序 的 C 源 代码 中 找到 对 应 系统 调用 的 
行 ， 都 以 斜体 显示 。 其 他 行 对 应 的 系统 调用 ， 是 由 编译 时 自动 添加 的 一 些 代 码 生成 的 。 
其 他 的 系统 调用 是 由 启动 和 运行 应 用 程序 所 需 的 框架 代码 生成 的 ， 例 如 ，C 标 准 库 是 动态 映射 到 
进程 内 存 区 的 。 其 他 调用 ， 如 olg_mmap 和 unmap， 负 责 管理 应 用 程序 使 用 的 动态 内 存 区 域 。 
3 个 直接 使 用 的 系统 调用 open、read 和 close， 都 转换 为 对 相应 的 内 核 函 数 的 调用 。” 标准 库 的 另 
外 两 个 例 程 在 内 部 使 用 了 不 同名 的 系统 调用 ， 以 达到 预期 的 效果 。 
口 malloc 是 用 于 在 进程 堆 区 域 分 配 内 存 的 标准 函数 。 第 3 章 提 到 ，GNU 库 的 malloc 变 体 提 供 了 
一 个 额外 的 内 存 管理 设施 ， 以 便 有 效 使 用 由 内 核 分 配 的 内 存 空间 。 
malloc 在 内 部 执行 了 brk 系 统 调用 ， 其 实现 在 第 3 章 描 述 。 系 统 调用 的 记录 表明 ，malloc 的 内 
部 算法 执行 了 该 调用 3 次 ， 每 次 参数 都 不 同 。 
口 printf 首 先 处 理 传 递 的 参数 ， 在 这 里 是 一 个 动态 字符 串 ， 并 用 write 系统 调用 显示 结果 。 
使 用 strace 工 具 还 有 一 个 好 处 ， 无 须 接触 所 跟踪 应 用 程序 的 源 代码 即 可 了 解 其 内 部 结构 和 运作 
本 节 给 出 的 小 示例 程序 很 清楚 地 说 明了 应 用 程序 与 内 核 之 间 强 烈 的 依赖 关系 , 其 中 反复 使 用 了 系 
统 调用 。 虽 然 科 学 计算 程序 大 部 分 时 间 都 花费 在 与 数字 打交道 上 ， 而 很 少 调用 内 核 提 供 的 功能 ， 但 离 
开 了 系统 调用 也 无 法 管理 。 男 一 方面 ， 交 互 式 应 用 程序 (如 emacs 和 mozilla) 会 频繁 使 用 系统 调用 。 
GO GNU 标 准 库 还 包括 一 个 通用 例 程 ， 如 果 没 有 包装 器 例 程 可 用 ， 可 以 根据 编号 来 执行 系统 调用 。 
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对 emacs 来 说 , 只 统计 程序 


KiB。 


13.1.2 ”支持 的 标准 


在 所 有 类 型 
实现 是 影响 系统 怕 





样 重 要 的 是 可 用 例 程 的 多 样 性 和 选择 权 ， 这 使 得 《〈 应 
进 了 程序 在 各 种 不 同 UNIX 变 体 之 间 在 源 代码 级 别 上 的 可 移植 性 
的 出 现 ， 从 而 使 得 不 同系 统 的 接口 





了 标准 和 事实 标准 








JUNIX 操 作 系统 时 


















































| 


局 动 时 的 系统 调用 ( 即 到 程序 初始 化 结束 为 止 ), 日 志文 件 的 长 度 可 达到 170 


Ph， 系统 调用 都 是 特别 
能 的 一 个 主要 因素 .LINUX 中 系统 调用 





















































具有 





POSIX 标 准 〈 这 是 Portable Operating System Interface 


的 目 








内 核 





作 系 统 的 玫 
源 于 AT&T 





全 
局。 



























































实现 了 该 函数 。 


F 发 。 在 UNIX 
的 原始 代码 )， 
上 的 NetBSD、FreeBSD、 

Linux 提 供 的 系统 调 
码 ， 这 仅仅 是 因为 法 律 和 许可 方面 的 问题 。 


的 ) 已 经 成 为 该 领域 的 主导 标准 。 
POSIX 标 准 进行 简要 讨论 的 原 
急速 扩展 (当前 
Linux 内 核 基 本 上 与 POSIX-1003.1 标 准 兼 
代码 中 。 
除了 POSIX 之 外 ， 还 有 其 他 标准 ， 这 些 不 是 





Linux 入 














IC 标 准 库 
因 。 从 20 世 纪 80 年 代 末 PO 





致 性 。 








重要 的 。 系 统 调用 的 作用 范围 、 速 度 、 高 效 
的 实现 非常 高 效 , 这 一 点 将 在 13.3 节 阐述 。 同 
用 程序 和 标准 库 〉 程序 员 的 生活 更 加 轻松 ， 
。 在 UNIX 超 过 25 年 的 历史 中 ， 这 促进 



























































版 本 包括 4 卷 " )， 现 在 许多 程序 员 认为 它 已 经 太 长 也 太 复杂 。 











容 。 很 自然 ， 标 准 的 新 发 























的 














口 flock 锁 定 一 个 文件 ， 防 止 这 个 文 伯 
POSIX 标 准 规定 的 。 
口 BSD UNIX 提 供 了 truncate 调 用 ， 





for UNIX 的 首 字母 缩写 词 ， 也 揭示 了 该 标准 
尽力 遵循 POSIX 标 准 ， 这 也 是 为 什么 值得 对 
SIX 第 一 个 版 本 发 布 以 来 ， 该 标准 涵盖 的 范围 









































展 需 要 一 定 的 时 间 才 能 渗透 到 


| 某 个 委员 会 制定 的 ， 而 是 来 源 于 UNIX 和 类 UNIX 操 




















历史 中 ， 两 条 开发 主线 产生 了 





汲取 自 所 有 上 述 3 个 来 源 ， 当 然 是 独立 实 
































例如 ， 下 面 


LF 被 几 个 进程 六 

































































F 行 访问 ， 以 确保 文 

















也 采用 了 该 系统 调 


口 sysfs 收 集 内 核 已 知 的 文件 系统 有 关 的 信 
































了 。 但 Linux 


























POSIX、 


同 档 
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它 是 在 IA-32 处 型 





























有 些 情况 下 











前 一 个 


总 之 ， 只 实现 POSIX 标 准 并 不 能 











中 该 












































是 解决 同 




















Weird sysv syscall”。 
区 /proc/filesystems 更 容易 地 获取 。 
系统 调用 是 所 有 3 个 标准 都 需要 的 。 例 如 ， time、gettimeofday、settimeofday 在 System V、 
4.3BSD 中 的 形式 是 相同 的 ， 在 Linux 
# ， 有 些 系统 调用 是 特地 为 Linux 开 发 的 
一 个 例子 是 vm86 系 统 调 
于 暂停 进程 执行 很 短 一 段 时 间 的 nanosleep， 
， 两 个 系统 调 


内 核 中 也 是 如 此 。 
， 在 其 他 标准 /系统 中 或 者 根本 不 存在 ， 或 者 名 称 不 同 。 
器 上 实现 DOS 仿 真 程 序 的 基础 。 更 一 般 的 调 
岂 是 Linux 特 有 的 系统 调用 。 
问题 的 不 同方 法 。 主 要 的 例子 是 po11 和 select 系 统 调用 ， 
在 System V 中 引入 ， 后 者 在 4.3BSD 中 引入 。 最 终 ， 二 者 执行 的 功能 是 相同 的 。 
建立 一 个 完整 的 UNIX 系 统 ， 除 了 名 称 之 外 ， 这 种 做 法 一 文 不 














标准 的 电子 形式 可 在 www.opengroup.org/onlinepubs/007904975/ 获 得 。 





个 独立 的 系统 ， 一 个 是 System V〔 直 接 起 
男 一 个 是 BSD (Berkeley Software Distribution， 在 加 州 大 学 
OpenBSD 都 是 基于 BSD 的 ， 还 有 











发 ， 现 在 市 场 





基于 BSD 的 商业 系统 ， 如 BSDI 和 MacOS X)。 
纲 的 。 其 中 没有 使 
列 出 的 3 个 著名 的 系统 调用 起 源 于 3 个 不 同 的 阵 

















竞争 系统 的 代 























牛 的 一 致 性 。 


用 是 由 








该 调 














于 按 指 定 的 字 节 数 截 短 一 个 文件 。Linux 也 以 同样 的 名 称 


息 ， 在 SVR4 (System V Release 4) 中 引入 。 Linux 
发 者 并 不 全 然 同 意 System V 设 计 者 对 该 调用 实际 价值 的 观点 ， 
至 少 ， 源 代码 的 注释 中 写 了 “whee . . 
现在 ， 该 信息 可 以 通过 读 
右上 






































， 诸 如 用 























TIT 











131 UUUUUUDDU 659 




















POSIX 无 非 是 一 组 接口 的 集合 ， 其 具体 实现 并 不 是 强制 性 的 ， 也 不 一 定 
虽然 有 些 操作 系统 本 身 的 设计 是 非 UNIX 的 ， 但 它们 却 以 普通 的 函数 库 
进 UNIX 应 用 程序 的 移植 。? 


13.1.3 ”重启 系统 调用 


在 系统 调用 与 信号 冲突 时 ,会 发 生 一 个 有 趣 的 问题 。 如 果 在 一 个 进程 执行 系统 调用 时 ， 问 该 进程 
发 送 一 个 信号 ， 那 么 在 处 理 时 ， 二 者 的 优先 级 如 何 分 配 呢 ? 应 该 等 到 系统 调用 结束 再 处 理 信 号 ， 还 是 
中 断 系 统 调用 ， 以 便 尽 快 将 信号 投递 到 该 进程 ? 第 一 种 方案 导致 的 问题 显然 比较 少 ， 也 是 比较 简单 的 
方案 。 遗 憾 的 是 ， 只 有 在 所 有 系统 调用 都 能 够 快速 结束 、 不 会 让 进程 等 待 太 长 时 间 的 情况 下 ， 这 个 方 
案 才能 正确 运作 《在 第 5 章 提 到 过 ， 信 和 号 投递 的 时 机 ， 总 是 在 进程 处 理 完 一 个 系统 调用 、 返 回 到 用 户 
态 的 时 候 )。 情 况 不 总 是 这 样 。 系 统 调用 不 仅 需要 一 定 的 执行 时 间 ， 而 且 在 最 坏 情况 下 ， 很 可 能 使 进 
程 睡 眠 《〈 例 如， 没有 数据 可 供 读 取 时 )。 对 同时 发 生 的 信号 而 言 ， 这 意味 着 信号 投递 的 严重 延迟 。 医 
而 ， 必 须 不 惜 任何 代价 防止 这 种 情况 。 
如 果 一 个 正在 执行 的 系统 调用 被 中 断 ， 内 核 应 该 向 应 用 程序 返回 什么 样 的 值 ? 在 通常 的 场景 下 ， 
只 有 两 种 情况 : 调用 成 功 或 者 失败 。 在 出 错 的 情况 下 ， 将 返回 一 个 错误 码 ， 使 用 户 进 程 能 够 确定 错误 
的 原因 ， 并 适当 地 做 出 反应 。 倘 若 系统 调用 被 中 断 ， 则 发 生 了 第 三 种 情况 : 必须 通知 应 用 程序 ， 如 果 
系统 调用 在 执行 期 间 没 有 被 信号 中 断 ， 那 么 系统 调用 已 经 成 功 结束 。 在 这 种 情况 下 ，Linux〈 和 其 他 
System V 变 体 ) 下 将 使 用 -EINTR 常 数 。 

该 过 程 的 负面 效应 是 很 明显 的 。 尽管 该 方案 易于 实现 , 但 它 迫 使 用 户 空间 应 用 程序 的 程序 员 必 须 
明确 检查 所 有 系统 调用 的 返回 值 ， 并 在 返回 值 为 -EINTR 的 情况 下 ， 重 新 启动 被 中 断 的 系统 调用 ， 直 至 
该 调用 不 再 被 信号 中 断 。 用 这 种 方法 重启 的 系统 调用 称 作 U D D 0 0 D D (restartable system call )， 
该 技术 则 称 为 口 口 (restarting ) 。 

该 行为 第 一 次 引入 是 在 System V _ UNIX 中。 该 方案 将 新 信号 的 快速 投递 和 系统 调用 的 中 断 组 合 起 
来 ， 但 它 并 非 是 唯一 的 组 合 方式 ，BSD 所 采用 的 方法 即 可 证 实 这 一 点 。 我 们 来 考察 BSD 内 核 在 系统 调 
用 被 信号 中 断 时 ， 会 做 出 何 种 反应 。 
BSD 内 核 将 中 断 系统 调用 的 执行 并 切换 到 用 户 态 执行 信号 处 理 程序 。 在 发 生 这 种 情况 时 ， 该 系统 
调用 不 会 有 返回 值 ， 内 核 在 信号 处 理 程序 结束 后 将 自动 重启 该 调用 。 因 为 该 行为 对 用 户 应 用 程序 是 透 
明 的 ， 也 不 再 需要 重复 实现 对 -EINTR 返 回 值 的 检查 和 调用 的 重启 ， 所 以 与 System V 方 法 相 比 ， 这 种 方 
案 更 受 程序 员 的 欢迎 。 

Linux 通 过 SA_RESTART 标 志文 持 BSD 方 案 ， 可 以 在 安装 信号 处 理 例 程 时 按 需 对 具体 信号 指定 该 标 
志 。System V 提 议 的 机 制 用 作 默 认 方案 ， 因 为 BSD 机 制 偶尔 会 导致 一 些 困 难 ， 如 下 列 例子 所 示 〈 取 自 
[ME02] 第 229 页 )。 


#include <signal.h> 
#include <stdio.h> 
#include <unistd.h> 


















































要 归 入 到 内 核 来 实现 。 因 而 ， 
完全 实现 了 POSIX 标 准 ， 以 促 





























































































































































































































































































































































































































































































































































































































































































































































































































































































































volatile int signaled = 0; 


void handler (int signum) { 
printf("signaled called\n"); 
signaled = 1; 





Q 比较 新 的 Windows 版 本 就 包含 了 一 个 这 种 类 型 的 库 。 
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} 


int main() { 
char ch; 
struct sigaction sigact; 
sigact.sa handler = handler; 
sigact.sa_ flags = SA _ RESTART; 
sigaction(SIGINT, &sigact, NULL); 


while (read(STDIN_ FILENO, &ch, 1) != 1 && !signaled); 
} 


这 个 简短 的 C 程 序 在 一 个 while 循 环 中 等 待 ， 直 至 用 户 通 过 标准 输入 键入 了 一 个 字符 ， 或 者 程序 
被 SIGINT 信 号 中 断 〈 可 使 用 kil1-INT 发 送 该 信号 ， 也 可 以 按键 CTRL+C)。 我 们 来 考察 其 代码 的 控制 
流 。 如 果 用 户 点 了 一 个 普通 的 按键 ， 没 有 导致 发 送 STGINT， 那 么 reaq 将 得 到 一 个 正 的 返回 值 ， 即 读 
取 字 符 的 数目 。 
要 结束 while 循 环 ， 循 环 的 控制 条 件 必须 在 逻辑 上 为 false。 这 里 的 控制 条 件 是 由 逻辑 与 (&&) 
运算 连接 的 两 个 表达 式 ， 要 结束 循环 ， 需 要 二 者 之 一 为 false， 或 全 部 为 false， 如 下 。 
口 按 下 了 一 个 键 ，reaq 返 回 1， 检 查 readq 返 回 不 等 于 1 的 表达 式 ， 其 值 为 false。 
口 signaled 变 量 设置 为 1， 该 变量 的 反 (!signaled) 也 将 为 false 值 。 

这 些 条 件 意味 着 ， 程 序 要 结束 ， 或 者 需要 等 到 键盘 输入 ， 或 者 需要 sIGINT 信 号 到 达 。 

为 在 上 述 代码 中 应 用 Linux 默 认 实现 的 System V 行 为 ， 需 要 取消 SA_RESTART 标 志 的 设置 。 换 名 话 
说 ，sigact.sa_flags = SA_RESTART 一 行 需要 删除 或 注释 掉 。 在 这 样 做 之 后 ， 程 序 将 按 上 面 的 描述 
运行 ， 在 按 下 一 个 键 或 接收 到 sIGINT 时 结束 。 

如 果 激 活 了 BSD 行 为 模式 ， 而 read 被 SIGINT 信 号 中 断 ， 那 么 示例 程序 的 情况 将 更 为 有 趣 。 在 这 
种 情况 下 ， 将 调用 信号 处 理 程序 ， 将 signaleq 设 置 为 1， 并 输出 一 个 消息 表示 接收 到 了 SsTGINT， 但 程 
序 不 会 结束 。 为 什么 ?在 运行 处 理 程序 之 后 ，BSD 机 制 将 重启 read 调 用 ， 并 再 次 等 待 输 入 一 个 字符 。 
这 种 情况 使 得 while 循 环 控制 条 件 中 的 1signaled 部 分 无 法 进行 求 值 ， 导 致 循环 不 能 结束 。 因 而 该 程 
序 不 能 通过 向 其 发 送 sIGNIT 信 号 结束 ， 尽 管 在 表面 上 ， 代 码 的 语义 确实 如 此 。 


13.2 ”可 用 的 系统 调用 


在 深入 讨论 内 核 (和 用 户 空间 库 ) 如 何 实现 系统 调用 的 技术 细节 之 前 ， 简 要 看 一 下 内 核 以 系统 调 
用 形式 实际 提供 的 各 个 函数 是 很 有 用 处 的 。 

每 个 系统 调用 都 通过 一 个 符号 常数 标识 ， 符 号 常数 的 定义 是 平台 相关 的 ， 在 <asm-arch/unis- 
td.h> 中 指定 。 因 为 并 非 所 有 体系 结构 都 支持 所 有 的 系统 调用 《有些 组 合 是 无 意义 的 )， 不 同 的 平台 上 
可 用 调用 的 数目 会 有 一 定 的 不 同 ， 粗 略 地 说 ， 总 共有 200 多 个 系统 调用 。 随 着 时 间 的 流逝 ， 内 核对 系 
统 调用 实现 的 各 种 更 改 使 得 一 些 调用 现在 是 多 余 的 ， 其 编号 现在 已 经 不 再 使 用 。Linux 在 Sparc 〈32 位 
处 理 器 ) 上 的 移植 版 本 就 有 很 多 废弃 的 系统 调用 ， 在 调用 编号 列表 中 形成 了 “缺口 ” 

对 程序 员 来 说 , 还 是 将 系统 调用 按 功 能 分 类 比较 简单 一 些 , 这 样 程 序 员 将 无 需 关 注 各 个 调用 编号 ， 
只 需要 记 住 系 统 调用 的 符号 名 称 和 语义 即 可 。 下 面 简单 列 出 (并 不 完备 ) 了 各 种 功能 类 别 的 概述 ， 以 
及 其 中 最 重要 的 系统 调用 。 

1. 进程 管理 

进程 处 于 系统 的 中 心 ， 因 此 进程 管理 方 
询 简单 的 信息 ， 到 局 动 新 进程 ， 等 等 。 










































































































































































































































































































































































































































































































































































































































































































































































































































































本 有 大 量 系统 调用 。 这 些 系统 调用 提供 的 功能 很 多 ， 从 碍 
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口 fork 和 vfork 将 一 个 现存 进程 分 文 为 两 个 新 进程 ， 如 第 2 章 所 述 。clone 是 fork 的 增强 版 ， 除 
了 具有 fork 的 功能 ， 还 支持 创建 线程 。 
口 exit 结 束 一 个 进程 并 释放 其 资源 。 
口 有 一 大 堆 系 统 调用 可 用 于 查询 (和 设置 ) 进程 的 属性 ， 如 PID、UID、 等 等 ， 其 中 大 多 数 调用 
只 是 读 取 或 修改 task_struct 中 的 字段 而 已 。 可 以 读 取 下 列 属性 : PID、GID、PPID、SID、 
UID、EUID、PGID、EGID、PGRP。 可 以 设置 下 列 属性 : UID、GID、REUID、REGID、SID、 
SUID 和 FSGID 。 
系统 调用 按照 一 种 合乎 逻辑 的 方案 来 进行 命名 ,使 用 的 名 称 诸如 setgid、setuigd 利 geteuig 等 。 
口 personality 定 义 了 应 用 程序 的 执行 环境 ， 例 如 ， 可 用 于 二 进 制 仿真 的 实现 。 
口 ptrace 使 得 能 够 跟踪 系统 调用 ， 它 是 strace 工 具 的 基础 。 
口 nice 设 置 普通 进程 的 优先 级 ， 它 给 进程 分 配 的 优先 级 在 -20 和 19 之 间 ， 随 数值 的 升 高 优先 级 递 
减 。 只 有 root 进 程 (或 有 cAP_sYs_NICE 权 限 的 进程 ) 才能 指定 负 的 优先 级 值 。 
口 setrlimit 用 于 设置 一 定 的 资源 限制 ， 例 如 ，CPU 时 间或 子 进程 的 最 大 容许 数目 。getrlimit 
查询 当前 的 限制 ( 即 允 许 的 最 大 值 )， 而 getrusage 查 询 当 前 资源 使 用 情况 ， 检 查 进 程 是 否 合 
乎 定义 的 资源 限制 。 
2. 时 间 操 作 
时 间 操 作 很 关键 ， 不 仅 可 用 来 查询 和 设置 当前 系统 时 间 ， 还 使 进程 能 够 执行 基于 时 间 的 操作 ， 如 
第 15 章 所 述 。 
口 adjtimex 读 取 和 设置 基于 时 间 的 内 核 变 量 ， 以 控制 内 核 在 时 间 方 面 的 行为 。 
口 alarm 和 setitimer 建 立 报 警 器 和 间隔 定时 器 , 将 操作 延迟 到 一 个 稍 后 的 时 间 执 行 。getitimer 
读 取 设置 。 
口 gettimeofday 和 settimeofday 分 别 获取 和 设置 当前 系统 时 间 。 与 time 不 同 ， 这 两 个 函数 还 
考虑 了 当前 时 区 和 夏令 时 的 因素 。 
口 sleep 和 nanosleep 让 进程 执行 暂停 一 个 指定 的 时 间 段 。nanosleep 可 以 高 精度 的 时 间 单 位 来 
指定 暂停 的 时 间 段 。 
口 time 返 回 自 1970 年 1 月 1 日 零 时 《这 个 日 期 是 UNIX 系 统 经 典 的 时 间 基 线 ) 以 来 经 过 的 秒 数 。 
stime 设 置 这 个 值 ， 因 而 也 会 改变 当前 系统 的 日 期 。 
3. 信号 处 理 
信号 是 在 进程 之 间 交 换 有 限 信 息 以 及 促进 进程 间 通 信 的 最 简单 (也 最 古老 ) 的 方法 。Linux 不 仅 
文 持 所 有 类 UNIX 系 统 所 共有 的 经 典 信号 ， 还 支持 实时 信号 ， 这 与 POSIX 标 准 是 一 致 的 。 第 5 章 曾 述 了 
信号 机 制 的 实现 。 
口 signal 设 置信 号 处 理 函数 。sigaction 是 signal 的 现代 增强 版 本 ， 文 持 附加 的 选项 ， 并 提供 
了 更 大 的 灵活 性 。 
sigpending 检 查 进程 当前 是 否 有 待 决 信号 被 阻塞 。 
sigsuspend 将 进程 置 于 等 待 队 列 上 ， 直 至 某 个 特定 《一 组 信号 中 的 一 个 ) 的 信号 到 达 。 
setmask 局 用 信和 号 的 阻塞 机 制 ， 而 getmask 返 回 所 有 当前 阻塞 信号 的 列 于 
kil11 用 于 向 一 个 进程 发 送 任何 信号。 
还 有 一 组 处 理 实时 信和 号 的 系统 调用 ， 但 其 对 应 的 函数 名 带 有 前 级 rt_。 例 如 ，rt_sigaction 
设置 一 个 实时 信号 处 理 程序 ， 而 rt_sigsuspend 将 进程 置 于 等 待 状态 ， 直 至 某 个 特定 (一 组 
信号 中 的 一 个 ) 信号 到 达 。 
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与 传统 信号 机 制 相 比 ， 所 有 体系 结构 〈 即 使 是 32 位 CPU ) 都 可 以 处 理 64 个 不 同 的 实时 信和 号。 实时 
信号 可 以 关联 附加 信息 ， 这 使 得 (应 用 ) 程序 员 的 工作 稍微 容易 些 。 











4. 调度 
























































与 调度 相关 的 系统 调用 可 以 归 类 到 进程 管理 ， 因 为 所 有 此 类 调用 都 与 系统 进程 有 关 。 之 所 以 值得 














调用 。 








ps 























实时 优先 级 的 参数 )。 








口 scheqd_yield 自 愿 释放 CPU 的 控制 权 ， 即 使 进程 当前 仍然 有 CPU 时 间 可 用 。 














5. 模块 

















口 请 注意 ，Linux 不 仅 支 持 不 同 的 进程 优先 级 ， 还 提供 了 多 种 调度 类 ， 以 适应 应 用 程序 在 时 间 方 






























































建立 一 个 独立 的 类 别 ， 只 是 因为 Linux 在 进程 行为 的 参数 化 方面 ， 提 供 了 大 量 的 操作 选项 。 
口 setpriority 和 getpriority 分 别 设置 和 获取 进程 的 优先 级 , 因而 是 用 于 i 
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度 目 的 的 关键 系统 


























面具 体 的 行为 和 需求 。 scheqd_setscheduler 和 sched_getscheduler 分 别 设置 和 查询 调度 类 。 
sched_setparam 和 和 sched_getparam 分 别 设置 和 查询 进程 的 附加 调度 参数 (当前 ， 只 使 用 




































































系统 调用 还 用 于 向 内 核 增 加 模块 和 从 内 核 移 除 模 块 ， 如 第 7 章 所 述 。 


口 init_module 添 加 一 个 新 
口 delete_module 从 内 核 移 
6. 文件 系统 

所 有 关于 文件 系统 的 系统 调 














模块 。 
除 一 个 模块 。 





用 都 应 用 到 VEFS 层 的 例 程 ， 如 第 8 章 所 述 。 从 VEFS 层 开始 ， 各 个 调用 转 






































发 到 具体 文件 系统 的 实现 ， 后 者 通常 会 访问 块 层 。 从 资源 和 执行 时 间 来 衡量 ， 此 类 系统 调用 的 代价 都 


很 高 。 


API 屏 蔽 起 来 了 ，C 标 准 局 
每 种 语言 都 有 不 同 的 动态 内 存 管 
进行 精巧 而 复杂 的 分 配 。 
口 就 动态 内 存 管理 而 言 ， 最 重要 的 调用 是 brk， 它 修改 进程 数据 段 的 长 度 。 调 用 了 malloc 或 相似 














口 一 些 系统 调用 被 用 作用 户 


mkdir、 rmdir、rename、 


























口 下 列 实用 程序 用 于 处 理 文 





























口 mount 和 umount 用 于 文件 











口 bol1 和 select 用 于 等 待 某 些 事 件 。 
































空间 中 同名 实用 程序 的 直接 基础 , 用 来 创建 和 修改 目录 结构 : chqir、 
symlink、getcwd、chroot、umask 和 mknod。 

















口 文件 和 目录 属性 可 以 用 chown 和 chmod 修 改 。 








件 内 容 , 其 实现 在 标准 库 中 , 与 对 应 的 系统 调用 同名 : open、close、 




















read 与 readv、write 与 writev、truncate 和 11seek。 

口 xeaddir 和 getdents 读 取 目 录 结 构 。 

口 Link、symlink 和 unlink 创 建 和 删除 链接 〈 或 文件 ， 如 果 该 文件 是 某 个 硬 链接 的 最 后 一 个 成 
员 )。readlink 读 取 链 接 的 内 容 。 











系统 的 装载 和 仓 载 。 





























口 execve 装 载 一 个 新 进程 ， 
7. 内 存 管理 




















蔡 换 旧 的 进程 。 在 与 fork 联 合 使 用 时 ， 它 会 启动 一 个 新 的 程序 。 


















































在 通常 的 环境 下 ,用户 应 用 程序 很 少 或 从 未 接触 到 内 存 管理 系统 调用 ， 因 为 这 个 领域 被 标准 库 的 

















FE 提 供 了 malloc、lballoc 和 calloc 等 隙 数 。 实 现 通 常 与 编程 语言 相关 ， 因 为 






























































里 需求 ， 还 经 常会 提供 垃圾 收集 这 样 的 特性 ， 需 要 对 内 核 提供 的 内 存 





























函数 的 程序 (几乎 所 有 非 








对 虚拟 内 存 中 特定 区 域 的 





口 mmap、mmap2、munmap 和 mremap 执 行内 存 映 射 、 解 除 映 射 和 重新 映射 操作 ， 而 mprotect 控 带 











平凡 的 代码 ， 都 符合 这 个 条 件 ) 会 频繁 使 用 该 系统 调用 。 
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访问 ，madvice 提 出 对 特定 虚拟 内 存 区 域 的 使 用 建议 。 
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mmap 和 mmap2 的 参数 稍 有 不 同 ， 更 多 细节 请 参考 手册 页 。 默 认 情 况 下 ，GNU C 库 使 用 mmap2; 
现在 mmap 只 是 一 个 用 户 层 包 装 器 函数 。 
根据 malloc 的 实现 ， 它 在 内 部 可 以 使 用 mmap 或 mmap2。 这 是 可 行 的 ， 因 为 匿名 映射 允许 建立 
没有 文件 作为 后 备 存 储 的 映射。 与 使 用 brk 相 比 ， 该 方法 更 加 灵活 。 
口 swapon 和 swapoff 分 别 启 用 和 禁用 外 存储 器 设备 上 《附加 ) 的 交换 区 。 
8. 进程 间 通 信和 网 络 功能 
因为 “进程 间 通 信 〈IPC) 和 网 络 ” 是 比较 复杂 的 问题 ， 很 容易 脐 断 有 大 量 相关 的 系统 调用 。 但 
根据 第 12 章 和 第 5 章 所 述 ， 事 实 刚 好 相反 。 只 有 两 个 系统 调用 来 处 理 所 有 可 能 的 任务 。 但 其 中 涉及 了 
非常 多 的 参数 。C 标 准 库 将 这 些 功 能 安排 到 许多 不 同 的 函数 ， 这 些 函 数 只 有 少量 参数 ， 使 得 程序 员 更 
容易 处 理 。 最 终 ， 这 些 函 数 总 是 基于 下 面 两 个 系统 调用 。 
口 socketcall 处 理 网 络 方面 的 问题 ， 用 于 实现 套 接 字 抽象 。 它 管理 各 种 类 型 的 连接 和 协议 ， 
共 实 现 了 17 种 功能 , 通过 sYs_ACCEPT、SYS_SENDTO 等 常数 来 区 分 。 0 
指 问 一 个 与 函数 类 型 相关 的 用 户 空 间 结 构 ， 其 中 保存 了 所 需 的 数据 。 
口 ipc 与 socketcal1 相 对 应 ， 用 于 处 理 计 算 机 本 地 的 连接 ， 而 不 是 通过 网 络 建立 的 连接 。 因为 
该 系统 调用 “只 ”需要 实现 11 种 功能 ， 它 使 用 了 固定 数目 的 参数 来 从 用 户 空 间 向 内 核 空间 传 
递 数据 ， 总 共 是 5 个 。 
9. 系统 信息 和 设置 
Ae 
信息 必须 保存 到 系统 日 志文 件 。 内 核 提 供 了 下 列 3 个 系统 调用 来 执行 此 类 任务 。 
口 syslog 问 系统 日 志 写 入 消息 ， 并 允许 设置 不 同 的 优先 级 (根据 消息 的 优先 级 不 同 ， 用 户 空 
间 工 具 或 者 向 持久 性 的 日 志文 件 发 送 消息 , 或 者 直接 向 控制 台 输 出 消息 以 通知 用 户 某 些 关 键 
情况 。 
口 sysinfo 返 加 有 关系 统 状态 的 信息 , 特别 有 关内 存 使 用 的 统计 量 〈 物 理 内 存 、 绥 冲 区 、 交 换 区 )。 
口 sysct1 用 于 “微调 ”内 核 参数 。 内 核 现 在 支持 大 量 的 动态 可 配置 选项 ， 可 以 使 用 proc 文 件 系 
统 读 取 和 修改 ， 如 第 10 章 所 述 
10. 系统 安全 和 能 
传统 的 UNIX 安 全 模型 基于 用 户 、 组 和 一 个 “万 能 的 ”root 用 户 ， 对 现代 需求 而 言 已 经 不 够 灵活 。 
这 就 导致 引入 了 能 力 系统 ， 该 系统 根据 细 粒 度 方案 ， 使 得 非 root 进 程 能 够 拥有 额外 的 权限 和 能 
此 外 ，LSM (Linux security modules，Linux 安 全 模块 ) 子 系统 提供 了 一 个 通用 接口 ， 文 持 内 核 在 
各 个 位 置 通 过 挂钩 调用 模块 函数 来 执行 安全 检查 。 
口 capset 和 capget 负 责 设置 和 查询 进程 的 能 
口 security 是 一 个 系统 调用 的 多 路 分 解 器 ， 用 于 实现 LSM。 


13.3 系统 调用 的 实现 


在 系统 调用 的 实现 中 ,不 仅 需要 讨论 提供 所 需 函数 的 内 核 源 代码 ， 还 需要 阐述 调用 这 些 函数 的 方 
式 。 这 些 函数 的 调用 方式 与 普通 的 C 函 数 不 同 ， 因 为 需要 跨越 用 户 态 和 核心 态 的 边界 。 这 引发 了 各 种 
问题 ,这些 问题 需要 由 平台 相关 的 汇编 语言 代码 处 理 。 该 代码 尽 可 能 快速 地 建立 了 一 个 独立 于 处 理 器 
的 状态 ， 使 得 系统 调用 的 实现 能 够 独立 于 底层 体系 结构 。 参 数 如 何在 用 户 空间 和 内 核 空 间 之 间 传 递 的 
问题 也 必须 考虑 。 
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13.3.1 系统 调用 的 结构 






































z. 


大 量 细节 ， 因 而 最 终 实 现 使 





















































1. 处 理 程序 函数 的 实现 
我 们 首先 仔细 观察 一 下 ， 克 
核 中 各 处 ， 因 为 这 些 函 数 都 嵌入 到 了 与 其 目 























大 | 








都 在 fts/ 内 核子 目录 下 ， 
子 目 录 的 文件 中 。 









































用 ; 








用 于 实现 系统 调用 的 内 核 代码 划分 为 
C 例 程 ， 与 其 余 内 核 代 码 几 习 






































FE 实际 处 理 






















































































的 关系 最 密切 的 代码 中 。 






















































































个 磊 为 不 同 的 部 分 。 系统 调用 执行 的 实际 任务 实现 为 一 个 
没有 差别 。 用 于 调用 该 例 程 的 机 制 则 充满 了 平台 相关 的 特性 ， 必 须 考虑 
[ 编 语言 代码 是 必然 的 。 








程序 函数 的 C 语 言 实现 之 后 有 哪些 东西 。 这 些 函 数 散 布 在 内 
网 如 ， 所 有 文件 相关 的 系统 调用 








为 它们 与 虚拟 文件 系统 直接 交互 。 同 样 地 ， 所 有 














的 内 存 管理 










































































E 调 用 都 在 mm/ 








E 一 地 标识 为 一 个 系统 调用 ， 更 精确 地 说 ， 标 识 关 
LE 程序 函数 。 在 以 下 各 节 中 ， 


用 于 实现 系统 调用 的 处 理 程序 函数 ， 在 形式 上 有 如 下 几 个 共同 的 特性 。 

口 每 个 函数 的 名 称 前 级 都 是 sys_， 将 该 函数 
一 个 系统 调用 的 处 理 程序 函 数 。 通 常 ， 不 必 区 分 系统 调用 和 处 型 
仅 当 有 必要 之 处 才 进 行 区 分 。 

口 所 有 的 处 理 程序 函数 都 最 多 接受 5 个 参数 。 这 些 参数 在 参数 列表 中 指定 ， 与 普通 的 C 函 数 相同 
(提供 参数 值 的 方式 与 传统 方法 稍 有 不 同 ， 读 者 稍 后 会 看 到 )。 



































j 户 态 的 内 存 。 忻 























口 所 有 的 系统 调用 都 在 核心 


态 执行 。 


























际 读 写 操作 之 前 











在 内 核 将 控制 权 转 移 给 处 理 






































CPU 或 体系 结构 。 但 因为 各 利 












































在 返回 结果 时 ， 处 理 程序 函数 无 须 进行 特别 的 操作 ， 简 单 的 一 个 return 后 接 返 回 值 即 





Ph 原 





























的 时 间 顺 序 。 





用 户 态 之 间 的 切换 ， 由 特定 








用 户 裕 












x 间 








图 13-1 





系统 调 | 











对 而 ， 第 2 章 讨论 的 限制 是 适用 的 ， 主 要 
想 copy_from_user、copy_to_user 或 其 他 同类 函数 ， 都 必 
标 内 存 区 对 内 核 必 须 是 可 用 的 。 
程序 例 程 后 ， 控 制 流 就 进入 了 平台 中 立 的 代码 ， 即 不 依赖 于 特定 的 
因 , 也 有 一 些 例外 。 有 少量 处 理 程序 也 


























于 平台 的 内 核 代 码 执 行 ， 这 与 中 断 处 理 





























内 核 空间 

















上 述 方法 极 大 简化 了 程序 员 的 工作 ， 
同 的 。 有 些 系统 调用 非常 简 重 




















用 实现 如 下 : 


kernel/timer.c 











因为 处 理 


各 


] 中 各 操作 的 时 间 顺 序 


训 是 无 关 的 。 图 











是 不 允许 直接 访问 
须 确保 在 进行 实 























数 是 针对 各 个 平台 分 别 实 现 的 。 
可 。 在 核心 态 和 
13-1 说 明了 相关 












































只 用 一 行 C 语 言 代码 实现 。 


asmlinkage long sys_getuid(void) 


/* 我 们 只 改变 这 个 ， 使 之 变 为 SMP 安 全 的 */ 


return current->uid; 


{ 


例如 ， 返 


























current 是 一 个 指针 ， 指 向 当前 进程 的 task_struct 实 例 ， 











task_struct 的 uigd 成 员 (当前 





二 
二 | 











户 ID )。 








已 





已 经 不 能 更 简单 了 ! 











1 内 核 自 





动 设 : 








程序 函数 的 实现 实际 上 与 普通 内 核 代 码 的 实现 是 相 
回 当 前 进程 UID 的 getuid 系 统 调 


。 上 述 代 码 返 回 
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当然 ， 还 有 复杂 得 多 的 系统 调用 ， 其 中 一 些 已 经 在 前 面 儿童 讨论 过 。 处 理 程序 函数 的 实现 总 是 简 
短 而 紧凑 的 。 它 通常 会 尽快 将 控制 权 传 递 给 一 个 更 通用 的 内 核 辅助 函数 ， 以 read 为 例 。 


fs/read_write.c 
asmlinkage ssize t sys_read(unsigned int fd, char _ user * buf, size t count) 

































































于 
Steuet. EiLe: “ELLES 
ssize t ret = -EBADF; 
int fput needed; 
file = fget_ light (fd, &fput_ needed); 
a 
loff t pos = file pos read(file); 
ret = vfs_read(file, buf, count, &pos); 
file pos_write(file, pos); 
fput_ light (file, fput needed); 
} 
return ret; 
} 




















这 里 ， 大 部 分 工作 是 由 vfs_read 完 成 的 ， 如 第 8 章 所 述 。 





























第 三 种 “类 型 ”系统 调用 充当 多 路 分 解 器 。 多 路 分 解 器 使 用 常数 ， 将 系统 调用 委派 给 执行 不 同 任 
务 的 函数 。 一 个 典型 的 例子 是 socketcall (在 第 12 章 讨论 )， 其 中 聚集 了 所 有 网 络 相关 的 调用 。 


net/socket.c 
asmlinkage long sys_socketcall(int call, unsigned long _ user *args) 


{ 


























unsigned long al[l6]; 
unsigned long a0,al; 
int err; 


switch(call) 
{ 
Case SYS_SOCKET: 
err = sys_socket (a0,al,a[2]); 
break; 
case SYS_BIND: 
err = sys_bind(a0, (struct sockaddr _ user *)al, al[l2]); 
break; 
case SYS_CONNECT: 
err = SYS_connect (a0， (struct sockaddr _ user *)al, al[l2]); 
break; 
case SYS_LISTEN: 
err = sys_listen(a0,al); 
break; 








Case SYS_RECVMSG : 
err = sys_recvmsg(a0, (struct msghdr _ user *) al, al[l2]); 
break; 
default: 
err = -EINVAL; 
break; 





} 


return err; 
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形式 上 ， 只 传递 了 一 个 void 指针 ， 因 为 根据 多 路 分 解 常 数 的 不 同 ， 系 统 调用 参数 数目 也 有 变化 。 
因而 第 一 个 任务 是 确定 所 需 参 数 数目 并 填充 a[] 数 组 的 各 个 数组 项 (这 涉及 指针 和 数组 操作 ， 不 在 这 
里 讨论 )。 接 下 来 根据 调用 参数 来 判断 使 用 哪个 内 核 函 2 步 的 处 理 。 

无 论 其 复杂 性 如 何 ， 所 有 处 理 程序 函数 都 有 一 个 共同 点 。 每 个 函数 说 明 都 包括 了 额外 的 
(asmlinkage) 限定 符 ， pt ny asmlinkage 是 一 个 汇编 语言 宏 ， 定 义 在 
<1linkage.h> 中 。 其 用 途 是 什么 呢 ? 对 大 多 数 平 台 来 说 ， 答 案 非常 简单 ， 它 根本 什么 都 不 做 ! 
但 该 宏 连 同 附录 C 讨 论 的 GCC 增强 特性 〈 attribute ) 一 同 在 IA-32 和 IA-64 系 统 上 使 用 时 ， 
只 是 为 了 通知 编译 器 该 函数 的 特别 的 调用 规范 (在 下 一 节 详 细 讲 述 )。 

2. 调用 分 派 和 参数 传递 

系统 调用 由 内 核 分 配 的 一 个 编号 唯一 标识 。 这样 做 有 其 实际 原因 , 在 考虑 触发 系统 调用 的 过 程 时 ， 
该 原因 会 逐渐 明朗 化 。 所 有 的 系统 调用 都 由 一 处 中 枢 代 码 处 理 ， 根 据 调用 编号 和 一 个 静态 表 ， 将 调用 
分 派 到 具体 的 函数 。 传 递 的 参数 也 由 中 槐 代码 处 理 ， 这 样 参 数 的 传递 独立 于 实际 的 系统 调用 。 

从 用 户 态 切换 到 核心 态 ， 以 及 调用 分 派 和 参数 传递 ， 都 是 由 汇编 语言 代码 实现 的 ， 这 其 中 考虑 了 
许多 平台 相关 的 特性 。 由 于 Linux 文 持 大 量 体 系 结构 ， 书 中 不 可 能 涵盖 所 有 细节 ， 所 以 本 节 的 描述 仅 
限于 广泛 使 用 的 IA-32 体 系 结构 。 其 他 处 理 器 上 的 实现 方法 几乎 相同 ， 当 然 汇 编 语言 的 细节 可 能 不 同 。 
为 容许 用 户 态 和 核心 态 之 间 的 切换 ， 用 户 进程 必须 通过 一 条 专 用 有 的 机 器 指令 令 ， 引 起 处 理 器 /内 核 
对 该 进程 的 关注 ， 这 需要 C 标 准 库 的 协助 。 内 核 也 必须 提供 一 个 例 程 ， 来 满足 切换 请 求 并 关注 技术 细 
节 。 该 例 程 不 能 在 用 户 空 间 中 实现 ， 因 为 其 中 需要 执行 普通 应 用 程序 不 允许 执行 的 命令 。 

eUU0D0 

不 同 的 平台 使 用 不 同 的 汇编 语言 方法 来 执行 系统 调用 。 ”在 所 有 平台 上 ， 系 统 调用 参数 都 是 通过 
寄存 器 直接 传递 的 ， 对 具体 的 处 理 程序 函数 而 言 ， 参数 与 寄存 器 之 间 的 映射 是 精 确定 义 的 。 还 需要 一 
个 寄存 器 来 定义 系统 调用 编号 ， 将 系统 调用 分 派 给 匹配 的 处 理 程 序 函数 。 

下 面 概述 了 一 些 流行 的 体系 结构 上 进行 系统 调用 的 方法 。 

口 在 IA-32 系 统 上 , 使 用 汇编 语言 指令 int $0x80 来 引发 软件 中 断 128。 这 是 一 个 D0 0 Ccall gate), 
为 此 指派 了 一 个 特定 的 函数 来 继续 进行 系统 调用 的 处 理 。 系 统 调用 编号 通过 寄存 器 eax 传 递 ， 
而 参数 通过 寄存 器 epx、ecx、edx、esi 和 edi 传 递 。 
在 IA-32 系 列 中 ， 更 为 现代 的 处 理 器 (Pentium I 和 后 续 处 理 器 ) 采用 了 两 个 汇编 语言 指令 
(sysenter 和 sysexit) 来 快速 进入 和 退出 核心 态 。 其 中 仍然 采用 同样 的 方法 传递 参数 ， 但 在 
特权 级 别 之 间 切 换 的 速度 更 快 。 
为 使 sysenter 调 用 更 快 ， 而 又 不 失去 与 旧 处 理 器 的 向 下 兼容 性 ， 内 核 将 一 个 内 存 页 面 映 射 到 
地 址 空间 的 顶端 〈0xffffe000)。 根 据 处 理 机 类 型 的 不 同 ， 该 页 上 的 系统 调用 代码 可 能 包含 
int 0x80 或 者 sysenter。 
调用 存储 在 该 地 址 〈0xffffe000) 的 代码 使 得 标准 库 可 以 自动 选择 与 使 用 的 处 理 器 相 匹 配 的 
方法 。 








































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































@ 细节 很 容易 在 GNU 标 准 库 的 源 代码 中 找到 ， 可 参考 sysdeps/unix/sysv/lLinux/arch/syscal1.Ss 文 件 。 特 定 平 台 
所 需 的 汇编 语言 代码 可 以 在 syscal1 标 号 下 找到 ， 这 些 代码 为 库 其 余部 分 提供 了 一 个 通用 接口 ， 可 用 于 调用 系统 
调 

©@ 除了 0x80 调 用 门 ， 内 核 在 IA-32 处 理 器 上 的 实现 提供 了 其 他 两 种 进入 核心 态 执 行 系统 调用 的 方法 ， 分 别 是 lcal17 
和 1cal127 调 用 门 。 这 些 用 于 执行 对 BSD 和 Solaris 的 二 进 制 仿真 ， 因 为 这 些 系统 分 别 以 本 机 方式 进行 系统 调用 。 它 
们 只 与 Linux 的 标准 方法 稍 有 区 别 ， 几 乎 不 能 向 读者 提供 什么 新 的 见识 ， 因 而 就 不 费力 在 这 里 讨论 它们 了 。 
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口 Alpha 处 理 器 提供 了 一 种 DUODDDOD (privileged architecture level，PAL)， 在 其 中 可 以 存储 
系统 的 各 种 内 核 例 程 。 内 核 利 用 该 机 制 将 一 个 函数 存储 到 PAL 代 码 中 ， 而 执行 系统 调用 必须 激 
活该 函数 。call_pal PAL_callsys 将 控制 流转 移 到 目标 例 程 。vo 用 于 传递 系统 调用 编号 ， 而 
5 个 可 能 的 参数 分 别 保存 在 a0 到 a4〔 请 注意 ， 与 较 早期 的 系统 如 IA-32 相 比 ， 较 新 的 体系 结构 


上 寄存 器 的 命名 更 为 系统 化 )。 










































































口 PowerPC 处 理 器 提供 了 一 条 优雅 的 汇编 语言 指令 ， 称 作 sc (system call)。 该 指令 专门 用 于 实现 


系统 调用 


。 和 寄存 器 r3 保 存 系统 调 




















UD 





马 
一 一 
将 
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号 ， 而 参数 保存 在 寄存 器 xr4 到 r8 中 。 





























口 AMD64 体 系 结构 在 实现 系统 调用 时 ， 也 提供 了 自身 的 汇编 语言 指令 ， 其 名 称 为 syscal1。 系 











统 调 用 编号 保存 在 raw 寄 存 器 中 ， 而 参数 保存 在 rdqi、rsi、rdx、r10、r8 和 r9 中 。 
































在 应 用 程序 借助 于 标准 | 











函数 ， 并 向 该 








rs 




















E 切 换 到 核心 态 后 , 内核 面 临 的 任务 是 查找 与 该 系统 调用 匹配 的 处 理 程序 









































处 理 函 数 提 供 传 递 的 参数 。sys_cal1_table 表 中 保存 了 一 组 指向 处 理 程序 例 程 的 函数 


















































指针 ， 可 用 于 查找 处 理 程序 (在 所 有 平台 上 )。 因 为 该 表 是 用 汇编 语言 指令 在 内 核 的 数据 段 中 产生 的 ， 




































































e000 





D0 





我 们 考察 一 


他 系统 的 系统 



























































其 内 容 因 平台 而 不 同 。 但 原理 总 是 同样 的 ,内核 根 据 系统 调用 编号 找到 表 中 适当 的 位 置 ， 由 此 获得 指 
向 目标 处 理 程序 函数 的 指针 。 


























下 Sparc64 系 统 上 的 sys_call_table, 定义 在 arch/sparc/kernel/systlbs.S 中 (其 












































调用 表 ， 通 常 可 以 在 与 处 理 器 类 型 对 应 的 目录 下 的 entry.s 文 件 中 找到 )。 











arch/sparc64/kernel/systbls.S 

sys_call_table64: 

sys_call_table: 

/*0*/ .word sys_restart_syscall, sparc exit, sys_fork, sys_read, sys_write 
/*5*/ .word sys_open, sys_close, sys wait4, sys_creat, sys_link 


10% 
A eh 
/*20*/ 
7 二 2 35 二/ 
/*30*/ 


.word 
.word 
.word 
.word 
.word 


.word 


/*40*/ 


.word 


.word 


/*50%/ 


.word 


.Word 


/6OWY 


/#280KY 
/*290*7 


/*300*7 


/*310*7 


.word 


Sys_unlink, sys_nis_ syscall, sys_chdir, sys_chown, sys_mknod 
sys_chmod, sys_lchown, sparc_ brk, sys_perfctr, sys_lseek 

sys_getpid, sys_capget, sys_capset, sys_setuid, sys_getuid 
Sys_vmsplice, sys_ptrace, sys_alarm, sys_sigaltstack, sys_nis_ syscall 
Sys_utime, sys_nis_ syscall, sys_nis_ syscall, sys_access, sys_nice 
sys_nis_syscall, sys_sync, sys_kill, sys_ newstat, sys_sendfile64 
Sys_newlstat, sys_dup, sys_pipe, sys_times, sys_nis_syscall 
Sys_umount, sys_setgid, sys_getgid, sys_signal, sys_geteuid 
Sys_getegid, sys_acct, sys_memory_ ordering, sys_nis syscall, sys_ioctl 
Sys_reboot, sys_nis_ syscall, sys_symlink, sys_readlink, sys_execve 
Sys_umask, sys_chroot, sys_ newfstat, sys_fstat64, sys_getpagesize 


.Word sys_tee, sys_add key, sys_request key, sys_keyctl, sys_openat 

.word sys_mkdirat, sys_ mknodat, sys_fchownat, sys_futimesat, sys_fstatat64 
.word sys_unlinkat, sys_renameat, sys_linkat, sys_symlinkat, sys_readlinkat 
.word sys_fchmodat, sys_faccessat, sys_pselect6, sys_ppoll, sys_unshare 


.word 


.WOrd 


sys_set_robust_ list, sys_get_ robust list, sys_migrate pages, sys_mbingd, 
sys_get mempolicy 
sys_set_ mempolicy, sys_kexec load, sys_move pages, sys_getcpu, sys_ epoll pwait 


.word sys_utimensat, sys_signalfd, sys_ timerfd, sys_eventfd, sys_fallocate 











IA-32 处 型 





器 上 ， 


该 表 的 定义 是 类 似 的 。 


arch/x86/kernel/syscall_table_32.S 
ENTRY (sys_call_table) 


.long 


Sys_restart_syscall /* 0 - old "setup()" system call, used for restarting */ 


.long sys_exit 
.long sys_fork 





668 D1B30 U0OD0OO 





.long sys_read 
.long sys_write 
.long sys_open /* 5 */ 
.long sys_close 


.long sys_utimensat /* 320 */ 
.long sys_signalfd 

.long sys_timerfd 

.long sys_eventfd 

.long sys_fallocate 


.long 语 句 的 作用 是 在 内 存 中 对 齐 各 个 表 项 。 
用 这 种 方法 定义 的 表 ， 与 C 数 组 类 似 ， 也 可 以 用 指针 运算 处 理 。sys_call_table 是 基 指 针 ， 指 问 
数组 的 起 始 处 ， 即 〈 按 C 语 言 的 术语 ) 指 问 索引 为 0 的 数组 项 。 如 果 一 个 用 户 空间 程序 调用 open 系 统 调 
日 ， 传 递 的 系统 调用 编号 是 5。 分 配器 例 程 将 编号 5 加 到 sys_call_table 的 基地 址 ， 得 到 该 数组 的 第 6 
项 ， 其 中 保存 了 sys_open 的 地 址 ， 这 是 独立 于 处 理 器 的 处 理 程序 函数 。 在 将 保存 在 寄存 器 中 的 参数 值 
复制 到 栈 上 之 后 ， 内 核 调用 处 理 程序 例 程 ， 并 切换 到 系统 调用 处 理 中 独立 于 处 理 器 的 部 分 。 


OU 
加 时 加 
国有 


3. 返回 用 户 态 

每 个 系统 调用 都 必须 通知 用 户 应 用 程序 ， 是 否 执行 了 相关 例 程 ， 执 行 结 果 如 何 。 这 是 通过 返回 码 
完成 的 。 从 应 用 程序 的 角度 来 看 ， 上 只 需 在 C 程 序 中 读 取 一 个 普通 变量 即 可 。 但 内 核 连 必须 花费 
更 多 的 努力 ， 才 能 使 用 户 进程 的 处 理 像 前 面 述 的 那样 简单 

eUU0000 
通常 ， 系 统 调用 的 返回 值 有 如 下 约定 : 负 值 表示 错误 ， 而 正 值 (和 0) 表示 成 功 结束 。 

当然 ， 程 序 和 内 核 都 不 会 用 纯粹 的 数字 来 处 理 错 误 码 ， 这 里 使 用 了 借助 于 预 处 理 器 在 incluqey/ 
asm-generic/errno-base.h 和 include/asm-generic/errno.h 中 定义 的 符号 常数 ?>。<errno.n> 文 
件 中 包含 了 儿 个 额外 的 错误 码 ， 但 这 些 是 特定 于 内 核 的 ， 用 户 应 用 程序 从 来 不 会 看 到 。511 之 前 ( 含 ) 
的 错误 码 用 于 一 般 性 错误 ， 内 核 相 关 的 错误 码 使 用 512 以 上 的 值 。 
因为 潜在 错误 的 数目 很 多 不 出 所 料 )， 这 里 只 列 出 了 部 分 常数 。 


<asm-generic/errno-base.h> 
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define EPERM 1 /* 操作 不 允许 */ 

define ENOENT 2 /* 文件 或 录 不 存在 */ 
define ESRCH 3 人 程 不 存在 */ 

define EINTR 4 /* 中 断 的 系统 调用 */ 
define EIO 5 /* I/O 错 误 */ 

define ENXIO 6 /* 设备 或 地 址 不 存在 */ 
define E2BIG 7 /* 参数 列表 太 长 */ 
define ENOEXEC 8 /* 错误 的 可 执行 文件 格式 */ 
define EBADF 9 /* 错误 的 文件 编号 */ 
define ECHILD 10 /* 没有 子 进程 */ 















































(D SPARC、Alpha、PA-RISC 和 MIPS 体 系 结构 对 这 些 文件 定义 了 自身 的 版 本 ， 因 为 它们 与 Linux 的 其 他 移植 版 使 用 的 
错误 码 数值 不 同 。 这 是 因为 不 同 平台 使 用 的 二 进 制 规范 未 必 使 用 同样 的 魔 数 所 致 。 
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#define EMLINK 31 /* 链接 过 多 */ 

#define EPIPE 32 /* 断 开 的 管道 */ 

#define EDOM 33 /* 数学 参数 超出 函数 定义 域 */ 
#define ERANGE 34 /* 数学 运算 结果 无 法 表示 */ 











使 用 UNIX 系 统 调用 时 可 能 出 现 的 典型 错误 都 列 出 在 srrno-base.h 中 。 另 一 方面 ，errno.h 包 含 
的 错误 码 比 较 少 见 一 些 ， 即 使 老练 的 程序 员 也 未 必 能 立即 弄 清楚 其 语义 。 例 如 ，EOPNOTSUPP 表 示 
“Operation not supported on transport endpoint”( 传 输 端 点 不 支持 此 操作 )， 而 ELNRNG 表 示 “Link number 
out of range”( 链 接 数 目 越界 )， 这 些 都 不 能 归 类 到 常识 中 。 以 下 是 更 多 的 一 些 例子 。 


<asm-generic/errno.h> 


































































































define EDEADLK 35 /* 可 能 发 生 了 资源 死 锁 */ 
define ENAMETOOLONG 36 /* 文件 名 太 长 */ 
define ENOLCK 37 /* 没有 记录 锁 可 用 */ 
define ENOSYS 38 /* 函数 未 实现 */ 
define ENOKEY 126 /* 所 需 的 密 钥 不 可 用 */ 
define EKEYEXPIRED 127 /* 密 钥 过 期 */ 
define EKEYREVOKED 128 /* 密 钥 已 经 撤销 */ 
define EKEYREJECTED 129 /* 服务 拒绝 了 密 钥 */ 
/* 用 于 健壮 的 互 斥 量 */ 
define EOWNERDEAD 130 ”/* 所 有 者 死亡 */ 
define ENOTRECOVERABLE 131  /* 状态 是 不 可 恢复 的 */ 



























































尽管 前 面 刚 提 到 错误 码 总 是 以 负数 形式 返回 ， 但 这 里 给 出 的 所 有 错误 码 都 是 正 值 。 这 是 一 个 内 核 
惯例 ， 错 误 码 定义 为 正 值 ， 但 返回 时 增加 负 号 。 例 如 ， 如 果 不 允 许 某 操作 执行 ， 则 处 理 程 序 将 返回 
-ENOPERM， 即 错误 码 -1。 
这 里 特地 考察 open 系 统 调用 的 返回 值 (在 第 8 章 中 讨论 过 的 sys_open 实 现 )。 在 打开 一 个 文件 时 ， 
J 能 发 生 什么 错误 呢 ? 读者 可 能 认为 ， 不 会 太 多 。 但 内 核发 现 了 9 种 可 能 导致 问题 的 地 方 。 各 个 错误 
的 来 源 ， 请 参见 标准 库 的 文档 当然， 还 有 内 核 源 代码 )。 最 常见 的 系统 调用 错误 码 如 下 。 

口 EACCES 表 示 文 件 不 能 按 指定 的 访问 权限 处 理 ， 例 如 ， 如 果 文 件 的 权限 串 中 写 权限 没有 置 位 ， 
则 文件 不 能 以 写 方式 打开 。 

口 如 果 试 图 创建 已 经 存在 的 文件 ， 则 返回 EEXIST。 

口 ENOENT 意 味 着 目标 文件 不 存在 ， 而 同时 又 没有 指定 允许 创建 不 存在 文件 的 标志 。 

如 果 系 统 调用 成 功 结束 ， 则 返回 一 个 大 于 等 于 0 的 正 数 。 第 8 章 讨论 过 ，open 在 这 里 返回 的 是 一 个 
文件 句柄 ， 用 于 在 后 续 操作 以 及 内 核 内 部 的 数据 结构 中 表示 该 文件 。 

Linux 使 用 long 数 据 类 型 从 内 核 空 间 向 用 户 空 间 传 输 结果 。 根 据 使 用 的 处 理 器 类 型 不 同 ， 这 可 能 
是 32 或 64 位 。 其 中 1 位 是 符号 位 "。 对 大 多 数 系统 调用 来 说 ， 这 不 会 导致 问题 ， 如 open。 返 回 的 正 值 ; 
常 很 小 ， 不 会 超出 long 的 范围 。 
遗憾 的 是 ， 如 果 返 回 比较 大 的 数字 ， 可 能 占据 unsigneqd long 的 整个 范围 时 ， 情 况 就 比较 复杂 。 
如 果 分 配 的 内 存 地 址 位 于 虚拟 内 存 空间 的 顶部 ，malloc 和 1ong 的 情形 就 是 如 此 。 内 核 会 将 返回 的 指 
针 解 释 为 负数 ， 因 为 它 超出 了 signed long 的 正 值 范围 ,尽管 系统 调用 成 功 结束 ， 仍 然 会 报告 错误 。 内 
核 如 何 阻止 这 样 的 事故 呢 ? 

如 上 所 述 ， 能 够 返回 到 用 户 空间 的 错误 码 符号 常数 不 会 大 于 511。 换 句 话说 ， 返 回 的 错误 码 从 -1 
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Q 当然 ， 二 进 制 补 码 计数 法 用 来 防止 错误 ， 其 中 有 两 个 符号 不 同 的 0。 有 关 该 格式 的 更 多 信息 ， 请 参见 
http://en.wikipedia.org/wiki/Two%27s_complement。 
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到 -$S11。 因 而 ， 小 于 -$11 的 返 后 





的 ) 返回 值 。 


成 功 地 结束 系统 调用 还 需要 完成 的 工作 ， 就 是 从 核心 态 切换 回 用 户 态 。 返 回 值 的 传递 方式 ， 与 
用 时 参数 的 传递 方式 类 似 。 实 现 系统 调用 处 理 程 序 的 C 函 数 使 用 return 将 返回 值 放置 在 内 核 栈 上 。t 
值 被 复制 到 一 个 特定 的 处 理 器 寄存 器 (IA-32 系 统 上 的 eax，Alpha 系 统 上 的 a3， 等 等 )， 标 准 库 会 处 理 
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都 排除 在 错误 码 之 外 ， 可 以 正确 地 解释 为 成 功 的 系统 调用 的 很 大 

































































该 寄存 器 并 将 返回 值 传递 给 应 
13.3.2 ”访问 用 户 空间 











1 








尽管 内 核 尽 可 
的 虚拟 内 存 。 当 然 ， 这 只 在 内 





用 程序 。 




















Cen 





























Ne 



























































能 保持 内 核 空间 和 用 户 空间 的 独立 ， 有 些 情况 下 ， 内 核 代码 必须 访问 用 户 应 用 程 请 



































程 进行 的 读 或 写 访问 ， 否 则 不 
当然 ,对 系统 调用 的 处 理 
务 。 因 为 如 下 两 种 原 


























核 执 行 由 用 户 应 用 程序 发 起 的 同步 操作 时 才 有 意义 ， 而 不 适用 于 任意 进 



































仅 不 能 解决 问题 ， 还 会 导致 当前 执行 的 代码 产生 危险 的 后 果 。 





























就 是 此 类 情况 的 一 个 














中 型 的 例子 ， 内 核 忙于 同步 执行 应 用 程序 指派 的 任 





央 ， 内 核 必 须 访问 应 用 程序 的 











口 如 果 





口 由 系 
过 指 
问 。 


在 内 核 访 问 自 








个 系统 调用 需要 








超过 6 个 不 同 的 参数 ， 
递 。 系 统 调用 将 借助 寄存 器 ， 将 指向 该 结构 实例 的 一 个 指针 传递 给 内 核 。 


也 址 空间 。 








它们 只 能 借助 进程 内 存 空间 中 的 C 结 构 实例 来 传 


























统 调 用 的 副 效应 产生 的 大 量 数据 ， 不 能 通过 返回 值 机 制 传递 给 用 户 进程 。 相 反 ， 必 须 通 








定 的 内 存 区 交换 该 数据 。 当 然 ， 该 内 


























物理 内 存 中 。 














对 源 代码 的 自动 化 检查 9。 


因而 ， 内 核 不 能 简单 地 反 引 用 月 
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区 必须 在 用 户 空间 中 ， 使 得 用 户 应 用 程序 能 够 访 












































身 的 内 存 区 时 ， 虚拟 地 址 和 物理 内 存 页 之 间 的 映射 总 是 存在 的 。 但 用 户 空间 中 的 情 
况 有 所 不 同 ， 如 第 3 章 所 述 。 这 里 ， 页 可 能 被 换 出 ， 


























甚至 可 能 尚未 分 配 物理 内 存 页 。 
































Pn 


户 空 间 的 指针 ， 








而 必须 采用 特定 的 函数 ,确保 目标 内 存 区 已 经 在 














为 确保 内 核 遵 守 了 这 种 约定 ， 用 户 空间 指针 通过 ”user 属 性 标记 ， 以 支持 C check tools 


























第 3 章 讨论 ] 
和 copy_from user, 












































13.3.3 ”追踪 系统 调用 


strace 工 具 用 来 追踪 进程 的 系统 调用 ， 它 使 
sys_ptrace 处 理 程序 例 和 









































Pan 
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用 于 在 用 户 空间 和 内 核 空间 之 间 复 制 数 据 的 函数 。 大 多 数 情况 下 ， 是 copy_to_user 
但 还 有 更 多 的 变 体 可 



























































用 


了 13.1.1 节 描述 的 ptrace 系 统 调用 。 

















幸运 的 是 ， 各 个 体系 结构 的 对 
作 的 一 般 性 概述 ， 而 不 深入 到 
在 详细 考察 该 系统 调 
空间 中 的 值 的 工具 ， 不 能 用 于 
程 并 就 进行 的 系统 调用 得 出 结 













































































直接 跟踪 系统 调用 。 














日 


时 的 实现 是 体系 结构 相关 的 ， 定 义 在 arch/arch/kernel/ptrace.c 中 。 
应 版 本 之 间 ， 代 码 只 有 微小 的 差别 。 因 而 这 里 只 提供 了 对 该 例 程 如 何 工 
体系 结构 相关 的 细节 中 。 
用 的 流程 之 前 ， 应 该 注意 到 ptrace 本 质 上 是 一 个 用 于 读 取 和 修改 进程 地 址 
只 有 从 正确 的 位 置 提取 出 所 需 的 信息 ， 才 能 跟踪 进 





















































论 。 即 使 调试 器 如 gap 的 实现 也 完全 依赖 于 ptrace。ptrace 不 仅 能 用 于 





跟踪 系统 调 月 





ptrace 在 内 核 源 代 人 码 


<syscall 


日 ， 还 提供 了 更 多 








s.h> 


的 选项 。 


的 定义 需要 4 个 参数 


asmlinkage long sys_ptrace(long request, 








GD Linus Torvalds 设 计 了 该 工具 ， 
@ <syscalls.h> 包 含 了 所 有 独立 于 体系 结构 的 系统 调 





long pid, long addr, long data); 

















于 发 现 内 核 源 代码 





日 

















接 反 引 户 空间 指针 之 处 。 















































了 











6 原型， 这 些 调用 的 参数 在 所 有 体系 结构 上 都 是 相同 的 。 
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口 bid 标识 了 目标 进程 。 进 程 标识 符 根据 调用 者 的 命名 空间 来 解释 。 尽 管 strace 的 处 理 方式 暗示 
必须 从 开始 就 启用 进程 追踪 ， 但 这 不 是 真实 的 。 跟 踪 者 程序 必须 通过 ptrace 将 自身 连接 到 目 
标 进 程 ， 而 且 这 可 以 在 进程 已 经 运行 后 进行 〈 不 仅 能 在 进程 开始 时 进行 )。 
strace 负 责 连 接 到 进程 ， 通 




























































































































































































曾 常 是 用 fork 和 exec 启 动 目标 程序 后 立即 进行 。 
口 adqr 和 aqata 向 内 核 传递 一 个 内 存 地 址 和 附加 信息 。 其 语义 因 选 择 的 操作 而 不 同 。 
口 借助 于 符号 常数 ，request 用 于 选择 一 个 操作 ， 由 ptrace 执 行 。 手 册页 ptrace (2)、 内 核 源 代 

码 中 的 <ptrace.h> 列 出 了 所 有 可 能 值 。 可 用 的 选项 如 下 。 

上 PTRACE_ATTACH 发 出 一 个 请 求 , 连接 到 一 个 进程 并 开始 跟踪 。PTRACE_DETACH 从 该 进程 断 开 

并 结束 跟踪 。 当 被 跟踪 的 进程 有 待 决 信号 时 ， 进 程 总 是 会 被 终止 。 该 选项 使 得 被 跟踪 进程 
在 系统 调用 后 或 一 条 汇编 语言 指令 之 后 暂停 。 
在 被 跟踪 的 进程 暂停 时 , 跟踪 者 程序 通过 srIGcHLD 信 号 得 到 一 个 通知 ; 在 被 跟踪 进程 暂停 前 ， 
跟踪 者 可 用 第 2 章 讨论 的 wait 函 数 等 待 。 
在 设置 了 跟踪 之 后 ， 将 SIGSTOP 信 号 发 送 给 被 跟踪 进程 ， 这 导致 跟踪 者 进程 第 一 次 被 中 断 。 
在 跟踪 系统 调用 时 ， 这 是 必要 的 ， 如 下 面 的 例子 所 示 。 
时 PEEKTEXT、PEEKDATRA 和 PEEKUSR 从 进程 地 址 空间 读 取 数据 。PEEKUSR 读 取 普 通 的 CPU 寄存 
器 和 使 用 的 任何 其 他 调试 寄存 器 "” (当然 ， 会 根据 标识 符 只 读 取 一 个 寄存 器 的 内 容 ， 而 不 是 
读 取 整 个 寄存 器 集合 的 内 容 )。PEEKEXT 和 PEEKDATA 从 进程 的 代码 段 和 数据 段 读 取 任 意 字 。 
POKETEXT、POKEDATA 和 PEEKUSR 向 被 监控 进程 的 三 个 指定 区 域 写 入 值 ， 因 而 可 以 操作 进程 
地 址 空间 的 内 容 。 这 在 交互 式 调试 程序 时 是 非常 重要 的 。 
因为 PTRACE_POKEUSR 操 作 CPU 的 调试 寄存 器 ， 该 选项 支持 对 高 级 调试 技术 的 使 用 。 例 如 可 
监控 此 类 事件 : 在 一 定 的 条 件 满足 时 ， 在 特定 位 置 暂停 程序 的 执行 。 
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四 PTRACE_SETREGS 和 PTRACE_GETREGS 设 置 和 读 取 CPU 的 特权 寄存 器 集合 的 值 。 
加 PTRACE_SETFPREGS 利 PTRACE_GETFPREGS 设 置 和 读 取 用 于 浮 点 计算 的 寄存 器 。 这 些 操 作 在 


















































测试 和 交互 式 调试 应 用 程序 时 也 非常 有 用 。 
@ 系统 调用 追踪 是 基于 PTRACE_SYSCALL 的 。 如 果 用 该 选项 激活 ptrace， 那 么 内 核 将 开始 执行 
进程 ， 直 至 调用 一 个 系统 调用 。 在 被 扎 踪 进程 停止 后 ，wait 通 知 跟 踪 者 进程 ， 跟 踪 者 接 下 
来 可 以 使 用 上 述 的 ptrace 选 项 , 来 分 析 被 跟踪 进程 的 地 址 空间 , 以 收集 有 关系 统 调用 的 信息 。 
在 完成 系统 调用 之 后 ， 被 跟踪 的 进程 第 二 次 暂停 ， 使 得 跟踪 者 进程 可 以 检查 调用 是 否 成 功 。 
因为 系统 调用 机 制 因 平台 而 不 同 ， 跟 踪 程 序 如 strace 必 须 针 对 每 个 体系 结构 分 别 实现 数据 
的 读 取 ; 这 是 一 个 乏味 的 任务 ， 很 快 会 致使 可 移植 程序 的 源 代码 变 得 不 可 读 (strace 的 源 
代码 中 有 大 量 预 处 理 嚣 条件， 阅读 其 代码 非常 痛苦 )。 
上 PTRACE_SINGLESTEP 将 处 理 器 在 执行 被 扎 踊 进程 期 间 ， 置 于 单 步 执行 模式 。 在 这 种 模式 下 ， 
跟踪 者 进程 在 每 个 汇编 语言 指令 之 后 ， 可 以 访问 被 跟踪 进程 。 这 仍然 是 一 种 非常 流行 的 应 
用 程序 调试 技术 ， 特 别 是 在 试图 跟踪 编译 器 错误 或 其 他 比较 微 秒 的 问题 时 。 
单 步 功能 的 实现 非常 强烈 地 依赖 于 所 使 用 的 CU， 毕竟， 内 核 此 时 是 在 一 个 面向 机 器 的 层 
次 上 运作 的 。 尽 管 如 此 ， 在 所 有 平台 上 都 可 以 向 跟踪 者 进程 提供 一 个 一 致 的 接口 。 在 汇编 
指令 执行 之 后 ， 向 跟踪 者 发 送 一 个 SIGCHLD 人 信号， 跟踪 者 接 下 来 会 使 用 其 他 的 ptrace 选 项 ， 















































































































































































































































































































































Q@ 因为 在 调用 ptrace 系 统 调用 时 , 执行 的 进程 显然 不 是 被 跟踪 进程 , CPU 物理 寄存 器 自然 保存 的 是 跟踪 者 进程 的 值 ， 
而 不 是 被 跟踪 进程 。 这 也 是 使 用 第 14 章 讨论 的 pt_regs 实 例 的 数据 的 原因 。 这 些 数据 在 进程 经 过 进程 切换 后 重新 
激活 时 ， 将 被 复制 到 寄存 器 集合 中 。 操 作 该 结构 的 数据 ， 相 当 于 操作 寄存 器 本 身 。 
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收集 被 跟踪 进程 状态 相关 的 详细 信息 。 该 循环 不 断 重 复 ， 在 用 PTRACE_SINGLESTEP 参 数 调 
jptrace 之 后 将 执行 下 一 条 汇编 指令 ， 被 跟踪 进程 进入 睡眠 ， 通 过 sIGCHLD 信 号 通知 跟踪 
时 PTRACE_KILT 发 送 KILL 人 信号， 关闭 被 追踪 进程 。 
上 PTRACE_TRACEME 开 始 对 当前 进程 的 跟踪 。 当 前 进程 的 父 进程 自动 承担 跟踪 者 的 角色 ， 必 须 
准备 好 从 子 进程 接收 信息 。 
和 PTRACE_CONT 恢 复 被 跟踪 进程 的 执行 , 但 不 自动 暂停 该 进程 的 具体 条 件 , 被 跟踪 的 进程 将 在 
接收 到 信号 时 暂停 。 
1. 系统 调用 追踪 
下 列 简 短 示 例 程 序 说 明了 ptrace 的 使 用 。ptrace 将 当前 进程 连接 到 一 个 进程 ， 并 检测 系统 调用 
的 使 用 。 就 这 点 而 论 ， 它 是 最 简 版 本 的 strace。 
/* strace(1) 的 简单 替换 */ 
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include<stdio.h> 
include<stdlib.h> 
include<signal.h> 
include<unistd.h> 
include<sys/ptrace.h> 
include<sys/wait.h> 
include<asm/ptrace.h> yh 














2 








日 于 ORIG_EAX */ 





static long pid; 


int upeek (int pid, long off, long *res) { 
long val; 


val = ptrace (PTRACE PEEKUSER, pid, off, 0); 
if (val == -1) { 
return -1; 


} 


*res = val; 
return 0; 


} 


void trace_syscall() { 
long res; 


res = ptrace (PTRACE SYSCALL, pid, (char*) 1, 0); 
if (res < 0) { 
printf("Failed to execute until next syscall: %d\n", res); 
} 
} 


void sigchld handler (int signum) { 
long scno; 
int res; 











/* 查 明 系统 调用 (系统 相关 的 )…… */ 
if (upeek (pid, 4*ORIG EAX, &scno) < 0) { 
return; 











} 
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a 并 输出 信息 */ 
if (scno != 0) { 
printf("System call: Su\n", scno); 


} 
/* 激活 追踪 直至 下 一 个 系统 调用 */ 


trace_syscall (); 




































































} 
int main(int argc, char** argv) { 
int res; 
/* 检查 参数 数目 */ 
if (argc != 2) { 
printf("Usage: ptrace <pid>\n"); 
exit(-1); 
} 








/* 从 命令 行 参数 读 取 目标 piq */ 
pid = strtol(argv[1], NULL, 10); 
if (pid <= 0) { 
printf("No valid pid specified\n"); 
exit(-1); 
} else { 
printf("Tracing requested for PID %u\n", pid); 








} 


/* 安装 STGCHLD 的 处 理 程序 */ 

struct sigaction sigact; 

sigact.sa handler = sigchld handler; 
sigaction(SIGCHLD, &sigact, NULL); 























/* 连接 到 目标 进程 */ 
res = ptrace (PTRACE ATTACH, pid, 0, 0); 
if (res < 0) { 
printf ("Failed to attach: %d\n", res); 
exit(-1); 
} else { 
printf("Attached to Su\n", pid); 
} -for (77) A{ 
wait(&res); 
if (res == 0) { 
exit (1); 




















} 


程序 结构 大 体 上 如 下 。 

口 从 命令 行 读 取 被 跟踪 程序 的 pida， 并 进行 通常 的 检查 。 

口 安装 cHLD 信 和 号 的 一 个 处 理 程序 ， 因 为 每 次 被 跟踪 程序 中 断 时 ， 内 核 都 会 向 跟踪 者 进程 发 送 该 
上 
口 跟踪 者 进程 通过 ptrace 请 求 PTRACE_ATTACH， 将 自身 连接 到 目标 应 用 程序 。 

口 跟踪 者 程序 的 主体 由 一 个 简单 的 无 限 循环 组 成 ， 其 中 重复 调用 wait 目 录 ， 等 竺 新 的 cHLD 信 号 
的 到 达 。 

该 程序 的 结构 并 不 依赖 于 特定 的 处 理 器 类 型 ， 可 以 用 于 Linux 支 持 的 所 有 系统 。 但 用 于 确定 所 调 
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用 系统 调 
台 将 系统 调 




















用 编号 
asm/ptrace.h 定 义 的 ORIG 1 





用 编号 的 方法 ， 却 是 与 体系 结构 非常 相关 的 。 该 程序 给 出 的 方法 只 适 





放置 7 












































在 所 保存 的 寄存 器 集合 中 
EAX 常数 中 。 其 值 














系 结构 上 寄存 器 的 字 长 是 4 字 节 。 


当然 ， 在 其 他 体系 结 








部 分 ， 以 及 标准 
我 们 主要 的 



































后 ， 大 部 分 工作 都 委托 给 cHLD 信 和 号 的 处 到 





下 列 任务 。 
口 使 





= 























系统 调用 





用 平台 相关 的 方法 ， 帮 助 查找 所 调 
如 果 结 果 是 一 个 不 等 于 0 的 系统 调 














构 上 的 实现 会 是 不 同 的 。 详 细 
的 strace 工 具 的 源 代码 。 
目标 是 说 明 如 何 














可 以 使 有 





情况 











个 特定 的 偏 移 量 处 。 
月 PTRRACE 








用 于 IA-32 系 统 ， 该 平 
该 偏 移 量 保存 在 

















P 








EEKUSER 读 取 ， 必 须 乘 以 4， 











， 请 参见 内 核 源 代码 中 与 系统 调 











jptrace 检 查 被 监控 的 进程 ,在 通过 PTRACE_ATTACH 开 始 跟 路 


因为 此 体 


用 相关 的 











条 进 程 之 

















用 








用 编 


程序 函数 ， 其 实 ] 





系统 调 





号 ， 则 输出 该 信息 。 





， 而 不 是 发 送 给 被 跟踪 进程 





口 帮助 恢复 被 跟踪 进程 的 控制 流 。 当 然 ， 必 须 通 























的 











ee 





暂 














在 




















停 。 这 是 使 
始 运转 之 后 , 程序 的 控制 流 是 很 
机 制 ， 进而 向 跟踪 者 进程 发 送 cHLD 信 号 。2 














编号 ， 并 输 
靳 。 








但 整个 过 程 是 丸 


出 它 ， 然 后 





























的 处 理 程 序 。 如 上 所 


上 何 























则 会 调用 对 应 的 处 型 





用 ptrace 请 求 PTRACE 





了 次 使 用 p 


人 运转 


述 , 在 一 个 信 











跟踪 过 程 运 转 起 来 。 
2. 内 核 端 实现 














数 arch _Dtrace， 位 





程 发 送 一 个 sroP 信 号 ， 以 确保 在 跟踪 开始 时 调 








SYSCALL 
明显 的 。 被 盟 
踪 者 进程 的 信和 号 处 至 
trace 机 市 。 被 跟踪 进 


信号 。 

















现在 sigchld handlerd 





用 的 编号 。 





Ph 。 该 函数 负责 执 
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行 




















检测 0 是 必要 的 ， 
























































的 ? 无 论 如 何 
































不 出 所 料 ，ptrace 系 统 调 





的 处 到 














sys_ptrace 








Jarch/arch/kernel/ptrace.c 中 。 


号 发 送 到 被 追踪 进程 时 ， 内 核 
调用 发 生 时 相同 。 事 实 上 ,在 


用 处 理 程 





» 
》 \ 


户 
器 























程序 函数 称 作 sys_ptrace。 除 少数 候 
了 该 实现 中 体系 结构 无 关 的 部 分 ， 这 可 以 在 kernel/ptrace.c 中 找到 。 而 体系 
图 








ptrace get_ task_ struct | 
































ptrace 系 统 调 





行 预 备 工作 , 主要 是 使 用 ptrace_get_task_structW 


的 语义 

















请 求 了 PTRACE_ATTACH? 


区 
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13-2 











request 人 参数 探 人 


上 
全 






程 的 执行 将 恢复 ， 并 在 


序 〈 即 


ptrace_attach 
ptrace_check_ attach 


E 程 方 会 读 取 所 需 信 息 》 
于 次 调 



























































发 起 跟踪 时 ， 内 核 会 
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13-2 给 出 了 其 代码 流程 图 。 




















arch ptrace 站 ~ 


sys_ptrace 的 代码 流程 图 





央 ， 从 其 代码 

















定 所 传递 PID 对 应 的 


执行 特定 于 请 求 的 操作 














即 系统 调 
了 系统 调用 时 中 


上 外 ， 所 有 体系 乡 
构 相 关 的 音 


因为 只 要 求 记 


= 


水 





知 内 核 ， 该 进程 的 执行 将 在 下 一 个 系统 调 月 
完成 的 。 
R 踪 进程 请 求 的 系统 调用 会 触发 内 核 中 的 ptrace 


时 











的 











吉 构 都 使 
分 即 函 





用 对 系统 调用 的 跟踪 ， 都 需要 第 一 次 调用 cHLD 
也 会 向 跟踪 者 发 送 一 个 sIGCHLD 信 


和 


动向 被 跟踪 进 
使 跟踪 者 没有 收 到 其 他 信号 )。 这 使 得 








= 村 = 




















的 结构 可 以 很 清楚 地 看 到 这 一 点 。 
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人 进 
task_struct 结 构 实 例 。 这 
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在 本 质 上 使 用 了 finaq_task_by_vpidq, 来 查找 所 需 的 task_struct 实 例 , 还 防止 了 对 init 进 程 的 跟踪 
一 一 如 果 对 piaq 参 数 传递 值 1， 则 放弃 ptrace 操 作 。 
































e0U00 
进程 的 task_struct 中 包含 了 几 个 与 ptrace 相 关 的 成 员 ， 将 在 下 文 讲 到 。 
<sched.h> 


struct task_struct { 
unsigned int ptrace; 
/* ptrace_list/ptrace_children 是 ptrace 能 够 看 到 的 当前 进程 的 子 进程 列表 。*/ 


struct list head ptrace children; 
struct list _ head ptrace list; 




















Wat 


struct task_struct *real_ parent; /* 真正 的 父 进 程 (在 被 调试 的 情况 *] 





}3 

如 果 设 置 了 PTRACE_ATTACH， 则 用 ptrace_attach 建 立 跟踪 者 进程 与 目标 进程 之 间 的 关联 。 在 完 
成 后 ， 将 进行 如 下 几 步 。 

口 目标 进程 的 ptrace 成 员 设置 为 PT_TRACED。 

口 跟踪 者 进程 变 为 目标 进程 的 父 进程 (真正 的 父 进程 保存 在 real_parent )。 

口 被 跟踪 进程 添加 到 跟踪 者 的 ptrace_chilgdren 链 表 , 使 用 task_struct 的 ptrace_list 成 员 作 

为 链表 元 素 。 

口 向 被 跟踪 的 进程 发 送 一 个 SroP 信 和 号 。 

如 果 请 求 了 一 个 不 同 于 PTRACE_ATTACH 的 操作 , ptrace_check_attach 首 先 检 查 跟 踪 者 是 否 已 经 
连接 到 目标 进程 ， 而 后 代码 路 径 根据 特定 的 ptrace 操 作 进行 分 支 。 这 是 在 arch_ptrace 中 处 理 的 
个 体系 结构 都 定义 了 该 函数 ， 它 不 能 由 通用 代码 提供 。 但 这 一 点 并 不 是 完全 正确 的 : 事实 上 ， 一 些 请 
求 可 以 由 体系 结构 无 关 代码 人 处理， 这 些 是 在 ptrace_request (定义 在 kernel/ptrace.c) 中 处 理 的 ， 
该 函数 由 arch_ptrace 调 用 。 只 有 非常 简单 的 请 求 可 以 由 该 函数 处 理 。 例 如 ，PTRACE_DETACH 就 是 其 
中 之 一 ， 它 可 以 将 跟踪 者 与 目标 进程 断 开 连接 。 

通常 ， 为 此 会 使 用 一 个 大 的 switch/case 语 句 ， 根 据 request 参 数 分 别处 理 每 种 情况 。 这 里 只 讨 
论 一 些 重要 的 情况 : PTRACE_ATTACH 和 PTRACE_DETACH、PTRACE_SYSCALL、PTRACE_CONT、 以 及 


PTRACE_PEEKDATRA 和 PTRACE_POKEDRATA。 剩 余 请 求 的 实现 都 遵循 了 类 似 的 模式 。 
内 核 执行 的 所 有 进一步 的 跟踪 操作 ， 都 位 于 第 $ 章 讨论 的 信号 处 理 程序 代码 中 。 在 投递 一 个 信和 号 
对， 内 核 会 检查 task_struct 的 ptrace 字 段 是 否 设置 了 PT_TRACED 标 志 。 如 果 是 这 样 ， 进 程 的 状态 则 
设置 为 TASK_STOPPED (在 kernel/signal.c 的 get_signal to deliver 中 )， 以 中 断 执 行 。 
notify_parent 以 及 cHLD 信 号 用 于 通知 跟踪 者 进程 。( 如 果 跟 踪 者 刚好 处 于 睡眠 状态 ， 则 唤醒 该 进 
程 .) 跟踪 者 接 下 来 按照 剩余 的 ptrace 选 项 ， 对 目标 进行 所 要 的 检查 。 
@ PTRACE CONT[| PTRACE_ SYSCALI[| [D0 
在 被 跟踪 的 进程 因为 收 到 信号 暂停 后 ，PTRACE_CONT 将 就 恢复 其 执行 。 该 功能 的 内 核 端 实现 关联 
到 PTRACE_SYSCALL〔 该 请 求 在 信号 到 达 后 或 系统 调用 执行 前 后 ， 都 会 暂停 被 跟踪 进程 的 执行 )。 

本 节 同 时 讨论 这 两 个 选项 ， 因 为 二 者 对 应 的 代码 只 是 稍 有 不 同 。 

口 在 使 用 pTRACE_SYsCALLH 时 , 将 在 被 监控 进程 的 task_struct 中 , 设置 TITF_SYSCALI，TRACE 标 志 。 
口 在 使 用 PTRACE_CONT 时 ， 使 用 clear_tsk_thread_flag 柚 除 该 标志 。 
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676 D130 00020 

这 些 都 只 是 操作 进程 的 threaa_info 实 例 的 flags 字 段 对 应 的 标志 位 。 

在 该 标志 被 设置 或 清除 后 ， 内 核 在 恢复 被 跟踪 进程 的 正常 工作 前 ， 只 需要 用 wake_up_process 
唤醒 该 进程 。 

TIEF_SYSCALL_TRACE 标 志 的 效果 如 何 ? 因 为 系统 调用 是 高 度 便 件 相关 的 , 该 标志 的 效果 需要 到 汇 
编 语言 源 代 码 entry.S 中 才能 看 到 。 如 果 设 置 了 该 标志 , 在 系统 调用 完成 后 会 调用 C 函 数 ao_syscal1_ 
trace， 但 只 针对 IA-32、PowerPC、 和 PowerPC64 平 台 。 其 他 体系 结构 使 用 的 机 制 不 在 这 里 描述 。 

无 论 如 何 , 该 标志 的 效果 在 所 有 支持 的 平台 上 都 是 相同 的 ,在 被 监控 进程 执行 一 个 系统 调用 前 后 ， 
进程 状态 设置 为 TASK_STOPPED， 而 且 会 通过 cHLD 信 号 通知 跟踪 者 。 接 下 来 ， 所 需 的 信息 可 以 从 寄存 
器 或 特定 内 存 区 的 内 容 提取 。 

e000D0 

使 用 PTRACE_DETACH 来 停止 跟踪 ， 它 使 得 ptrace 的 中 枢 处 理 程序 将 任务 委托 给 kernel/ 
ptrace.c 中 的 ptrace_detach 了 函数。 该 任务 由 下 列 步 又 组 成 。 

(1) 体系 结构 相关 的 挂钩 ptrace_qisable 用 来 执行 停止 追踪 所 需 的 底层 操作 。 

(2) 从 子 进程 的 线程 标志 中 ， 清 除 TIF_SYSCALL_TRACE。 


(3) 目标 进程 task_struct 的 ptrace 成 员 导 


链表 删除 。 


(4) 将 被 跟踪 进程 的 父 进程 重 置 为 原 父 进程 ， 












































































































































































































































































































































即将 task_struct->paren 




















臣 置 为 0, 将 目标 进程 从 跟踪 者 进程 的 ptrace_childqren 











赋值 为 real_parent。 




































































































































































































































































被 追踪 的 进程 用 wake_up_process 唤 醒 ， 使 之 恢复 其 工作 。 
euUU000000000D0 
PTRACE_PEEKDATA 从 目标 进程 的 数据 段 读 取信 息 ”。 针对 该 请 求 , ptrace 调 用 需要 如 下 两 个 参数 。 
口 aqdr 指 定 将 要 读 取 的 数据 段 中 的 地 址 。 
口 gata 用 于 接收 相关 的 结果 。 
读 取 操作 委托 给 mm/memory.c 中 实现 的 access_process_vm 妙 数 。( 该 函数 曾经 位 于 kernel/ 
ptrace.c 中 ， 但 新 的 位 置 显然 是 个 更 好 的 选择 。) 
该 函数 使 用 get_user_pages 在 用 户 空间 内 存 中 查找 匹配 目标 地 址 的 页 。 使 用 内 核 中 的 一 个 临时 
内 存 区 来 缓冲 所 需 的 数据 。 在 一 些 清理 工作 之 后 ， 控 制 返回 到 分 配器 。 
因为 所 需 数据 仍然 在 内 核 空 间 中 ， 必 须 使 用 put_user 将 结果 复制 到 用 户 空 间 中 的 内 存 位 置 ， 由 
data 指 定 。 
可 通过 PTRACE_POKEDATA， 以 类 似 的 方式 操作 被 跟踪 的 进程 。(PTRACE_POKETEXT 的 用 法 完全 相 
同 ， 因 为 这 两 个 代码 段 在 虚拟 地 址 空间 中 毫 无 区 别 。) access_process_vm 查 找 与 所 需 地 址 相关 的 内 
存 页 。access_process_vm 还 负责 将 现存 数据 替换 为 系统 调用 参数 指定 的 新 值 ”。 
13.4 小结 
从 某 种 角度 来 看 ， 可 以 将 内 核 视 作 一 个 综合 性 的 库 ， 它 包含 了 各 种 可 向 用 户 层 应 用 程序 提供 的 功 
能 。 系 统 调 用 是 应 用 程序 与 该 库 之 间 的 接口 。 通 过 调用 系统 调用 , 应 用 程序 可 以 向 内 核 请 求 一 个 服务 ， 
天 为 内 存 管 理 不 能 区 分 文本 段 和 数据 段 ， 它 们 以 不 同 的 地 址 开始 ， 但 以 相同 的 方式 被 访问 ， 这 里 讲述 的 内 容 同 样 
适用 于 PTRACE_PEEKTEXT。 
@ 可 以 选择 一 个 布尔 值 参 数 ， 来 指定 只 读 取 数 据 (PTRACE_PEEKTEXT 或 PTRACE_PEEKDATA)， 或 者 顺便 将 指定 数据 替 
身 为 新 值 。 








13.4 串口 677 








内 核 接 下 来 满足 该 请 求 。 本 章 首先 介绍 了 系统 程序 设计 的 基础 ， 这 会 导向 系统 调用 在 内 核 中 的 实现 。 
与 普通 函数 相 比 ， 调 用 系统 调用 需要 更 多 的 工作 量 ， 因 为 必须 将 CPU 在 用 户 态 和 核心 态 之 间 切 换 。 
于 内 核 和 用 户 层 位 于 虚拟 地 址 空间 中 的 不 同 部 分 , 读者 还 会 看 到 , 在 内 核 与 应 用 程序 之 间 传 输 数据 时 ， 
需要 注意 一 些 问 题 。 最 后 ， 读 者 看 到 了 如 何 使 用 系统 调用 跟踪 ， 来 跟踪 程序 的 行为 ， 这 是 用 户 空间 中 
一 个 不 可 缺少 的 调试 工具 。 

系统 调用 是 从 用 户 态 切换 到 核心 态 的 同步 机 制 。 下 一 章 将 向 读者 介绍 中 断 ， 这 是 两 种 状态 之 间 的 


异步 切换 。 



















































































































































































和 把 13 章 说 明了 系统 
考察 各 种 内 核 活 允 








系统 调用 不 是 在 











Linux 的 平台 都 采用 了 0D DUO interruptD 的 概念 ， 


种 类 型 的 中 断 。 


口 硬件 中 断 (hardware interrupt): 


地 实现 设备 驱动 
进行 交互 的 。 


口 软 中 断 〈SoftIRQ ): 
与 内 核 的 其 他 部 分 相 比 ， 


内 核 


活动 











在 执行 时 可 以 划分 为 两 个 大 而 不 同 的 部 分 : 
来 作出 结论 ， 
] 户 态 和 系统 状态 之 间 切 换 
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即 需 
的 唯 























要 更 细 粒 度 的 划分 。 


途径 。 





核心 态 和 用 广 











以 便 ( 





E 的 中 断 。 需 

















从 此 前 各 章 的 阐述 显然 可 知 ， de 
因 种 种 原因 》〉 引 入 周期 必 






































系统 自身 和 




















程 请 


与 之 连接 的 乡 











设 自动 产生 。 它 介 














也 用 于 引起 处 理 器 





























于 有 效 实现 内 核 中 的 




















用 于 处 理 








中 断 和 系统 











以 解决 C 语 言 无 法 独立 处 
的 方法 如 何 ， 大 多 数 操作 


中 ,使 














地 分 隔 开 了 。 





内 核 经 常 需 要 一 些 机 制 ， 将 某 些 活动 延迟 到 未 来 的 某 个 时 间 执 行 ， 或 将 活动 置 了 








上 1 





里 的 























时 间 充 裕 时 进行 后 续 处 理 。 





将 仔细 地 考察 其 实现 。 
14.1 中 断 


直至 内 核 版 本 2.4， 
实 存在 的 ， 但 
构 的 组 件 中 
的 通用 框架 。 


首先 介绍 


的 任务 、 造 成 的 问题 。 
14.1.1 中断 类 型 


通常 ， 各 种 类 型 的 
口 同步 中 断 和 异常 















































所 有 的 相似 性 
。 在 内 核 版 本 2.6 的 开 











PP 断 可 分 为 如 下 


数 妙 问题 。 








系统 的 开发 者 都 试图 将 此 类 问题 的 | 
之 对 其 余 的 代码 不 可 见 。 
着 时 间 的 演化 ， 已 经 达到 了 这 样 一 种 状态 : 








因 


身 对 异常 或 错误 的 关注 ， 这 些 是 


延期 操作 。 
周 用 相关 部 分 的 代码 中 , Y 
这 不 是 一 个 特定 于 Linux 





的 问题 。 


] 


[ 编 和 C 代 码 交 织 
无 论 各 个 操作 系统 采用 








] 于 支持 更 高 效 
需要 与 内 核 代码 





在 一 起 ， 











为 技术 上 的 现实 情况 ， 这 并 不 是 但 
高 层 代码 和 底层 的 硬件 交互 代码 ， 














度 层 处 理 尽 可 能 深 地 隐 














藏 到 内 核 源 代码 

















中 断 处 理 部 分 随 




















经 尽 可 能 有 效 而 干净 












































读者 在 此 前 各 章 中 ， 已 经 遇 到 了 对 此 类 机 制 的 若干 使 用 。 


在 Linux 所 支持 的 各 个 平台 上 ， 中 断 实现 的 
到 此 为 止 了 。 大 量 代码 (和 廊 
































个 类 别 。 











CPU 自身 产生 ， 针 对 当 











发 期 间 , 这 种 情况 有 了 很 大 改善 ， 
各 个 平台 现 在 只 负责 在 最 低层 次 上 与 硬件 
最 向 见 的 系统 中 断 类 型 ， 


交互 。 所 有 其 他 功 色 
并 将 其 作为 讨论 的 起 点 ， 然 后 详细 











由 于 运行 时 发 生 


的 程序 设计 错误 (典型 的 例子 是 除 0)， 





唯一 共 
[多 复制 功 
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同 点 就 是 ， 
能 ) 散布 到 

















于 是 个 


各 个 特定 于 体系 结 
为 其 中 引入 了 一 个 用 于 中 断 和 IRQ 


队列 上 , 在 
在 本 章 中 ， 我 们 





这 些 代码 都 是 真 















































述 中 断 





E 都 由 通用 代码 提供 。 
的 运作 方式 、 完 成 























前 执行 的 程序 。 异 常 可 能 因 种 种 原因 触发 : 
或 由 于 出 现 了 寞 常 的 情况 或 条 件 ， 致 
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使 处 理 器 需要 “外 部 ”的 帮助 才能 处 理 。 
在 前 一 种 情况 下 ， 内 核 必 须 通 知 应 用 程序 出 现 了 异常 。 举 例 来 说 ， 内 核 可 以 使 用 第 5 章 描 述 的 
言 号 机 制 。 这 使 得 应 用 程序 有 机 会 改正 错误 、 输 出 适当 的 错误 消息 或 直接 结束 。 
异常 情况 不 见得 是 由 进程 直接 导致 的 ， 但 必须 借助 于 内 核 才能 修复 。 一 个 可 能 的 例子 是 缺 页 
异常 ， 在 进程 试图 访问 虚拟 地 址 空间 的 一 页 ， 而 该 页 不 在 物理 内 存 中 时 ， 才 会 发 生 此 类 异常 。 
根据 第 4 章 的 讨论 ， 内 核 必 须 与 CPU 交互 ， 确 保 将 预期 的 数据 取 入 物理 内 存 。 接 下 来 ， 进 程 可 
以 在 发 生 异 常 的 位 置 恢复 执行 。 
常 的 存在 。 
口 异步 中 断 。 这 是 经 典 的 中 断 类 型 ， 由 外 部 设备 产生 ， 可 能 发 生 在 任意 时 间 。 不 同 于 同步 中 断 ， 
异步 中 断 并 不 与 特定 进程 关联 。 它 们 可 能 发 生 在 任何 时 间 ， 而 不 牵涉 系统 当前 执行 的 活动 。” 
网 卡通 过 发 出 一 个 相关 的 中 断 来 报告 新 分 组 的 到 达 。 因 为 数据 可 能 在 任意 时 刻 到 达 系 统 ， 所 
以 当前 执行 的 很 可 能 是 与 数据 无 关 的 某 个 进程 或 其 他 东西 。 为 避免 损害 该 进程 ， 内 核 必须 确 
果 中 断 能 够 尽快 处 理 完毕 (通过 缓冲 数据 )， 使 得 CPU 时 间 能 够 返还 给 当前 进程 。 这 也 是 内 核 
需要 延期 操作 机 制 的 原因 ， 该 机 制 也 在 本 章 讨论 。 
类 中 断 的 共同 特性 是 什么 ? 如 果 CPU 当 前 不 处 于 核心 态 ， 则 发 起 从 用 户 态 到 核心 态 的 切换 。 接 
下 来 ， 在 内 核 中 执行 一 个 专门 的 例 程 ， 称 为 0D0D DUODOD (interrupt service routine， 简 称 ISR) 或 0 口 
D0000 Ginterrupt handler)。 
该 例 程 的 作用 是 处 理 异 常 条 件 或 情况 ， 毕 竟 ， 中 断 的 作用 就 在 于 引起 内 核对 此 类 改变 的 关注 。 
同步 和 异步 中 断 之 间 的 简单 区 别 ， 并 不 足以 描述 这 两 类 类 型 中 断 的 特性 。 还 需要 考虑 另 一 方面 。 
许多 中 断 可 以 禁用 ， 但 有 些 不 行 。 举 例 来 说 ， 后 一 类 就 包括 了 因 便 件 故 障 或 其 他 系统 关键 事件 而 发 出 
的 中 断 。 
在 可 能 的 情况 下 ， 内 核 试 图 避免 禁用 中 断 ， 因 为 这 显然 会 损害 系统 性 能 。 但 有 些 场合 禁用 中 断 是 
必要 的 ， 这 是 为 防止 内 核 遇 到 一 些 严 重 的 麻烦 。 在 仔细 考察 中 断 处 理 程序 时 ， 读 者 会 看 到 ， 在 处 理 第 
一 个 中 断 时 ， 如 果 发 生 第 二 个 中 断 ， 内 核 中 可 能 发 生 严重 的 问题 。 如 果 内 核 在 处 理 关键 代码 ?时 发 生 
了 中 断 ， 那 么 可 能 会 发 生 第 5 章 讨 论 的 同步 问题 。 在 最 坏 情 况 下 ， 这 可 能 引起 内 核 死 锁 ， 致 使 整个 系 
统 变 得 不 可 用 。 
如 果 内 核 容许 在 禁用 中 断 的 情况 下 ， 花 费 过 多 时 间 处 理 一 个 ISR， 那 么 可 能 (也 必 将 ) 会 丢失 一 
些 对 系统 正确 运作 必 不 可 少 的 中 断 。 内 核 为 解决 该 问题 ， 将 中 断 处 理 程序 划分 为 两 个 部 分 ， 性 能 关键 
的 前 一 部 分 在 禁用 中 断 时 执行 ， 而 不 那么 重要 的 后 一 部 分 延期 执行 ， 进 行 所 有 次 要 的 操作 。 早 期 的 内 
核 版 本 也 包含 了 一 种 同名 机 制 ， 用 于 将 操作 延期 一 段 时 间 执 行 。 但 该 机 制 已 经 被 更 高 效 的 机 制 取代 ， 
将 在 下 文 讨论 。 
每 个 中 断 都 有 一 个 编号 。 如 果 中 断 号 a 分 配给 一 个 网 卡 而 mz 2 分 配给 SCSI 控 制 器 ， 那 么 内 核 即 可 
区 分 两 个 设备 ， 并 在 中 断 发 生 时 调用 对 应 的 ISR 来 执行 特定 于 设备 的 操作 。 当 然 ， 同 样 的 原则 也 适应 
于 异常 ,不 同 的 异常 指派 了 不 同 的 编号 。 遗憾 的 是 , 由 于 特别 设计 (通常 是 历史 上 的 ) 的 “特性 ”(IA-32 
体系 结构 就 是 一 个 恰当 的 特例 )， 情 况 并 不 总 是 像 描述 的 那样 简单 。 因 为 只 有 很 少 的 编号 可 用 于 硬件 
中 断 ， 所 以 必须 由 儿 个 设备 共享 一 个 编号。 在 IA-32 处 理 器 上 ， 硬 件 中 断 的 最 大 数目 通常 是 15， 这 个 
值 可 不 怎么 大 ， 还 有 考虑 到 有 些 中 断 编号 已 经 永久 性 地 分 配给 了 标准 的 系统 组 件 ( 键 盘 、 定 时 器 ， 等 

















































































































































































































于 内 核 自动 恢复 了 这 种 情况 ， 进 程 甚至 不 会 注意 到 缺 页 异 

















































































































































































































































































































































































































































































































































































































































































































































































































































































































Q 因为 中 断 可 能 被 禁用 《读者 稍 后 即 会 看 到 )， 这 种 说 法 是 不 完全 正确 的 。 系 统 至 少 能 影响 何 时 不 发 生 中 断 。 
@ 即 获得 了 锁 。 译 者 注 
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等 ) ， 因 而 限制 了 可 用 于 其 他 外 部 设备 的 中 断 编 号 数目 。 
这 个 过 程 称 为 0D 口 口 口 (interrupt sharing)。" 但 必须 硬件 和 内 核 同 时 支持 才能 使 用 该 技术 ， 因 为 
必须 要 识别 出 中 断 来 源 于 哪个 设备 。 本 章 将 更 详细 地 阐述 该 机 制 。 


14.1.2 ”硬件 IRQ 


以 前 , 0 0 这 个 名 词 使 用 得 很 不 谨慎 ， 用 来 表示 由 CPU 和 外 部 硬件 发 出 的 中 断 。 明 白 的 读者 当然 
会 注意 到 这 陈述 得 不 大 准确 。 中 断 不 能 由 处 理 器 外 部 的 外 设 直接 产生 ， 而 必须 借助 于 一 个 称 为 0 D 癌 
吕 器 (interrupt controller) 的 标准 组 件 来 请 求 ， 该 组 件 存在 于 每 个 系统 中 。 
外 部 设备 〈 或 其 槽 位 )， 会 有 电路 连接 到 用 于 向 中 断 控制 器 发 送 中 断 请 求 的 组 件 。 控 制 器 在 执行 
we 
能 直接 发 出 中 断 ， 而 必须 通过 上 述 组 件 请 求 中 断 ， 所 以 这 种 请 求 更 正确 的 叫 法 是 IRQ， 或 0D DDO 
ee request )。 
因为 就 软件 而 言 ，IRQ 和 中 断 之 间 的 差别 不 是 那么 大 ， 这 两 个 术语 通常 可 符 换 使 用 。 在 所 指 的 语 
义 清 楚 的 情况 下 ， 这 不 成 问题 
旦 这 里 的 个 要 点 涉及 IRQ 和 中 断 的 数 ， 我 们 绝 不 能 忽视 这 一 点 ， 因 为 它 会 影响 到 软件 。 对 大 
多 数 CPU 来 说 ， 都 只 是 从 可 用 于 处 理 硬件 中 断 的 整个 中 电 号 范围 抽取 一 小 部 分 使 用 。 抽 取出 的 范围 通 
常 位 于 所 有 中 断 号 序列 的 中 部 ， 例 如 ，IA-32 CPU 总 共 提 供 了 16 个 中 断 号 ， 从 32 到 47。 
如 果 读 者 曾经 在 IA-32 系 统 上 配置 过 IO 扩展 卡 ， 或 研究 过 /proc/interzrupts 的 内 容 ， 那 么 就 会 
了 解 到 ， 扩 展 卡 的 IRQ 编 号 从 0 开始 ， 到 15 结 束 ， 当 然 ， 前 提 是 使 用 了 典型 的 中 断 控 制 器 8256A。 这 意 
味 着 这 里 同样 有 16 个 不 同 的 选项 ， 但 数值 不 同 。 中 断 控制 器 除了 负责 IRQ 信 号 的 电工 处 理 之 外 ， 还 会 
对 IRQ 编 号 和 中 断 号 进行 一 个 “转换 ”。 在 IA-32 系 统 上 ， 加 32 即 可 。 如 果 设 备 发 出 IRQ 9，CPU 将 产 
生 中 断 41， 在 安装 中 断 处 理 程序 时 必须 考虑 到 这 一 点 。 其 他 体系 结构 在 中 断 号 和 JIRQ 编 号 之 间 采 用 其 
他 映射 方式 ， 这 里 不 会 详细 阐述 。 


14.1.3 ”处 理 中 断 


在 CPU 得 知 发 生 中 断后 ， 它 将 进一步 的 处 理 委托 给 一 个 软件 例 程 ， 该 例 程 可 能 会 修复 故障 、 提 供 
专门 的 处 理 或 将 外 部 事件 通知 用 户 进 程 。 由 于 每 个 中 断 和 异常 都 有 了 唯一 的 编号 ， 内 核 使 用 一 个 数组 ， 
数组 项 是 指向 处 理 程序 函数 的 指针 。 相 关 的 中 断 号 根据 数组 项 在 数组 中 的 位 置 判 断 ， 如 图 14-1 所 示 。 


handle page_ fault 
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n ntl n+2 n+3 n+4 n+5 n+6 n+7 








图 14-1 ”管理 中 断 处 理 程序 














1. 进入 和 退出 任务 
如 图 14-2 所 示 ， 中 断 处 理 划 分 为 3 部 分 。 首 先 ， 必 须 建 立 一 个 适当 的 环境 ， 使 得 处 理 程序 函数 能 
办 







































































够 在 其 中 执行 ， 接 下 来 调用 处 理 程序 自身 ， 最 后 将 系统 复原 〈 在 当前 程序 看 来 ) 到 中 断 之 前 的 状态 。 
调用 中 断 处 理 程序 前 后 的 两 部 分 ， 分 别称 为 LU DOD (lentry path) 和 0 DDD (exitpath)。 





































































































G 很 自然 ， 精 巧 设计 的 总 线 系统 无 需 该 方案 。 这 种 系统 为 硬件 设备 提供 了 很 多 中 断 ， 根 本 不 需要 共享 。 
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到 进程 


有 必要 
进行 调度 ? 













切换 到 内 核 栈 









中 断 处 理 程序 





保存 寄存 器 











恢复 寄存 器 























图 14-2 ”中 断 的 处 理 


进入 和 退出 任务 还 负责 确保 处 理 器 从 用 户 态 切换 到 核心 态 。 进 入 路 径 的 一 个 关键 任务 是 ， 从 用 户 
态 栈 切 换 到 核心 态 栈 。 但 是 ， 只 有 这 一 点 还 不 够 。 因 为 内 核 还 要 使 用 CPU 资源 执行 其 代码 ， 进 入 路 径 
必须 保存 用 户 应 用 程序 当前 的 寄存 器 状态 ， 以 便 在 中 断 活动 结束 后 恢复 。 这 与 调度 期 间 用 于 上 下 文 切 
换 的 机 制 是 相同 的 。 在 进入 核心 态 时 ， 只 保存 整个 寄存 器 集合 的 一 部 分 。 内 核 并 不 使 用 全 部 寄存 器 。 
举例 来 说 ， 内 核 代码 中 不 使 用 浮 点 操作 (只 有 整数 计算 )， 因 而 并 不 保存 浮 点 寄存 器 。" 浮 点 寄存 器 的 
值 在 执行 内 核 代码 时 不 会 改变 。 平 台 相 关 的 数据 结构 pt_regs 列 出 了 核心 态 可 能 修改 的 所 有 寄存 器 ， 
它 的 定义 考虑 到 了 不 同 的 CPU 之 间 的 差别 (14.1.7 节 将 仔细 考察 该 结构 ) 。 在 汇编 语言 编写 的 底层 例 
程 负责 填充 该 结构 。 
在 退出 路 径 中 ， 内 核 会 检查 下 列 事项 。 
口 调度 器 是 否 应 该 选择 一 个 新 进程 代替 旧 的 进程 。 
口 是 否 有 信号 必须 投递 到 原 进 程 。 
从 中 断 返 回 之 后 ， 只 有 确认 了 这 两 个 问题 ， 内 核 才能 完成 其 常规 任务 ， 即 还 原 寄存 器 集合 、 切 换 
到 用 户 态 栈 、 切 换 到 适用 于 用 户 应 用 程序 的 适当 的 处 理 器 状态 ， 或 切换 到 一 个 不 同 的 保护 环 。® 
因为 需要 C 语 言 代码 和 汇编 语言 代码 之 间 的 交互 ， 所 以 必须 特别 小 心 ， 才 能 正确 设计 在 汇编 语言 
层次 和 C 语 言 层次 上 的 数据 交换 。 对 应 的 代码 位 于 arch/arch/kernel/entry.s 中 ， 彻 底 利用 了 各 个 
处 理 器 的 具体 特性 。 为 此 ， 该 文件 的 内 容 应 该 尽 可 能 少 修改 ， 即 使 修改 也 必须 极其 小 心 。 


天 
本 
二 


术语 DUODDODO (interrupthandler) 的 使 用 是 可 能 引起 贝 义 的 。 它 用 于 指 代 CPU 对 ISR 中断 服 
务 程序 ) 的 调用 ， 包括 了 进入 /退出 路 径 和 ISR 本 身 。 当 然 ， 如 果 只 指 代 在 进入 路 径 和 退出 路 径 之 间 执 
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GO 一 些 体系 结构 〈 例 如 ，IA-64) 不 遵循 该 规则 ， 使 用 了 一 些 浮 点 寄存 器 ， 并 在 每 次 进入 核心 态 时 保存 这 些 寄存 器 。 
内 核 仍 然 不 会 “触及 ”大 部 分 浮 点 寄存 器 ， 也 不 会 使 用 显 式 的 浮 点 操作 。 
@) 一 些 处 理 器 可 自动 进行 此 切换 ， 无 须 内 核 明 确 请 求 。 


































































































































































































































































































































































































































































































































































































































































































































































































































































































082 0D I40 00000 
行 、 由 C 语 言 实现 的 例 程 ， 将 更 为 准确 。 

2. 中 断 处 理 程序 

中 断 处 理 程序 可 能 会 遇 到 困难 ， 特 别 是 ， 在 处 理 程 序 执行 期 间 ， 发 生 了 其 他 中 断 。 尽 管 可 以 通过 
在 处 理 程序 执行 期 间 禁 用 中 断 来 防止 但 这 会 引起 其 他 问题 ， 如 遗漏 重要 的 中 断 。 DD 《Masking， 
这 个 术语 用 于 表示 选择 性 地 禁用 一 个 或 多 个 中 断 ) 因 而 只 能 短 时 间 使 用 。 

因此 ISR 必 须 满足 如 下 两 个 要 求 

(1) 实现 〈 特 别 是 在 禁用 其 他 中 断 时 ) 必须 包含 尽 可 能 少 的 代码 ， 以 支持 快速 处 理 。 

(2) 可 以 在 其 他 ISR 执 行 期 间 调用 的 中 断 处 理 程序 例 程 ， 不 能 彼此 干扰 。 

尽管 后 一 个 要 求 可 以 通过 高 超 的 编程 和 精巧 的 ISR 设 计 来 满足 ， 然 而 前 一 个 要 求 更 难 满 足 。 根 据 
具体 的 中 断 ， 必 须 运 行 某 个 程序 ， 来 满足 中 断 处 理 的 最 低 要 求 。 因 而 代码 长 度 无 法 任意 缩减 。 

内 核 如 何 解决 这 种 两 难 问 题 呢 ? 并 非 ISR 的 每 个 部 分 都 同等 重要 。 通 常 ， 每 个 处 理 程 序 例 程 都 可 
以 划分 为 3 个 部 分 ， 具 有 不 同 的 意义 。 

(1) 关键 操作 必须 在 中 断 发 生 后 立即 执行 。 否 则 ， 无 法 维持 系统 的 稳定 性 ， 或 计算 机 的 正确 运作 。 
在 执行 此 类 操作 期 间 ， 必 须 禁 用 其 他 中 断 。 

(2) 非 关 键 操 作 也 应 该 尽快 执行 ， 但 允许 启用 中 断 〈 因 而 可 能 被 其 他 系统 事件 中 断 )。 

(3) 可 延期 操作 不 是 特别 重要 ， 不 必 在 中 断 处 理 程序 中 实现 。 内 核 可 以 延迟 这 些 操作 ， 在 时 间 充 
裕 时 进行 。 

内 核 提 供 了 tasklet， 用 于 在 稍 后 执行 可 延期 操作 。14.3 节 将 更 详细 地 曾 述 tasklet。 

14.1.4 数据 结构 

中 断 技术 上 的 实现 有 两 方面 : 汇编 语言 代码 ， 与 处 理 器 高 度 相 关 ， 用 于 处 理 特定 平台 上 相关 的 
底层 细节 ; 抽象 接口 ， 是 设备 驱动 程序 及 其 他 内 核 代码 安装 和 管理 IRQ 人 处 理 程序 所 需 的 。 本 节 主 要 
关注 第 二 方面。 描述 汇编 语言 部 分 的 功能 会 涉及 无 数 细节 ， 可 以 参考 处 理 器 体系 结构 方面 的 书籍 或 
手册 。 

为 响应 外 部 设备 的 IRQ， 内 核 必须 为 每 个 潜在 的 IRQ 提 供 一 个 函数 。 该 函数 必须 能 够 动态 注册 和 
注销 。 静 态 表 组 织 方式 是 不 够 的 ， 因 为 可 能 为 设备 编写 模块 ， 而 且 设 备 可 能 与 系统 的 其 他 部 分 通过 中 
断 进 行 交 互 。 

IRQ 相 关 信 息 管理 的 关键 点 是 一 个 全 局 数组 ， 每 个 数组 项 对 应 一 个 IRQ 编 号 。 因 为 数组 位 置 和 中 
断 号 是 相同 的 ， 很 容易 定位 与 特定 的 IRQ 相 关 的 数组 项 : IRQ 0 在 位 置 0，IRQ 15 在 位 置 15， 等 等 。IRQ 
最 终 映 射 到 哪个 处 理 器 中 断 ， 在 这 里 是 不 相关 的 。 

该 数组 定义 如 下 : 





kernel/irq/handle.c 


struct irqg desc irg desc[NR_ IRQS] 
NR_IRQOS-1] 


}; 
尽 


相关 的 





4 
管 
A 
蜗 


WO ns 


} 


各 个 





数 NR_IRos 指 





{ 
.Status = IRQO_DISABLED, 
.Chip = &no_irqg chip, 


cacheline aligned in smp = { 


.handle_ irqgq = handle bad irg, 


depth = 1; 


数组 项 使 用 的 是 一 个 体系 结构 无 关 的 数据 类 型 ， 





定 的 。 大 多 数 体系 结构 下 ， 


的 最 大 可 能 数 
器 相关 的 头 文件 


但 IRQ 
该 常数 定义 在 处 理 




















有 是 通过 一 个 平台 








Finclude/asm- 
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arch/irq.h 中 。" 不 同 处 理 器 间 及 同一 处 理 器 家 族 内 ， 该 常数 的 值 变化 都 很 大 ， 主 要 取决 于 辅助 CPU 
管理 IRQ 的 辅助 芯片 。Alpha 计 算 机 在 小 型 系统 上 可 文 持 32 个 中 断 ， 而 在 Wildfire 主 板 上 可 支持 2048 个 
中 断 ， 真 令 人 难以 置信 。IA-64 处 理 器 的 中 断 数目 总 是 256。IA-32 系 统 连同 经 典 的 8256A 控 制 器 ， 只 提 
供 了 16 个 IRQ。 如 果 使 用 IO-APIC (advanced programmable interrupt controller， 高 级 可 编程 中 断 控 制 器 ) 
扩展 ， 中 断 数 目 可 增加 到 224 个 。 该 特性 在 所 有 多 处 理 器 系统 都 支持 ， 也 可 以 部 署 到 单 处 理 器 系统 。 
最 初 ， 所 有 中 断档 位 都 使 用 handle_baqd_irg 作 为 处 理 程序 ， 该 函数 只 对 没有 安装 处 理 程序 的 中 断 进 
行 确认 。 

与 IRQ 的 最 大 数目 相 比 ， 我 们 对 各 数组 项 的 数据 类 型 更 感 兴趣 〈 与 上 述 简单 例子 相反 ， 该 类 型 并 
仅仅 是 函数 指针 )。 在 深入 技术 细节 之 前 ， 需 要 概述 内 核 的 IRQ 处 理子 系统 。 
内 核 在 2.6 之 前 的 版 本 包含 了 大 量 平台 相关 代码 来 处 理 IRQ， 在 许多 地 方 是 相同 的 。 因 而 ， 在 内 核 
版 本 2.6 开 发 期 间 ，3 引 入 了 一 个 新 的 通用 的 IRQ 子 系统 。 它 能 够 以 统一 的 方式 处 理 不 同 的 中 断 控 制 器 和 
不 同类 型 的 中 断 。 基 本 上 ， 它 由 3 个 抽象 层 组 成 ， 如 图 14-3 所 示 。 
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流 处 理 


















高 层 中 断 


服务 例 程 
图 14-3 中断 处 理子 系统 的 各 部 分 及 交互 方式 


(1) 高 层 ISR〈high-level interrupt service routines， 高 层 中 断 服 服务 例 程 ) 针对 设备 驱动 程序 端 (或 
其 他 内 核 组 件 ) 的 中 断 ， 执 行 由 此 引起 的 所 有 必要 的 工作 。 例 如 ， 如 果 设 备 使 用 中 断 通 知 一 些 数 据 已 
经 到 达 ， 那 么 高 层 ISR 的 工作 应 该 是 将 数据 复制 到 适当 的 位 置 。 

(2) 中 断 电 流 处 理 (interrupt flow handling) : 处 理 不 同 的 中 断 电流 类 型 之 间 的 各 种 差别 ， 如 0 口 
DD (edge-triggering) 和 0D DO DD (level-triggering)。 

边沿 触发 意味 着 人 硬件 通过 感知 线路 上 的 电位 差 来 检测 中 断 。 在 电 平 触发 系统 中 ,根据 特定 的 电势 
值 检 测 中 断 ， 与 电势 是 否 改 变 无 关 。 

从 内 核 的 角度 来 看 ， 电 平 触发 更 为 复杂 ， 因 为 在 每 个 中 断后 ， 都 需要 将 线路 明确 设置 为 一 个 特定 
的 电势 ， 表 示 “ 没 有 中 断 ” 

(3) 芯片 级 硬件 封装 (chip-level hardware encapsulation): 需要 与 在 电子 学 层次 上 产生 中 断 的 底 
人 硬件 直接 通信 。 该 抽象 层 可 以 视 为 中 断 控制 器 的 某 种 “设备 驱动 程序 ”。 

我 们 返回 到 问题 的 技术 层面 ， 用 于 表示 IRQ 描 述 符 的 结构 定义 如 下 〈 稍 有 简化 ) : 2 
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Q@ 在 IA-32 体 系 结构 下 ， 使 用 /include/asm-x86/mach-type/irg vectors_limits.h。 

@ 除了 一 些 技术 性 的 成 员 ， 用 于 支持 MSI (message signaled interrupt) 特性 的 成 员 也 被 忽略 了 。MSI 是 PCI 标 准 的 一 个 
可 选 扩 展 ， 是 PCI Express 标 准 的 必需 组 件 。 该 扩展 特性 允许 不 使 用 硬件 的 物理 针脚 ， 而 通过 PCI 总 线 上 的 “消息 ” 
来 发 送 中 断 。 因 为 现代 处 理 器 可 用 针脚 数目 是 有 限 的 ， 而 又 需要 用 于 许多 其 他 目的 ， 因 此 针脚 实际 上 是 一 种 稀有 
资源 。 因 而 硬件 设计 师 在 寻找 发 送 中 断 的 替换 方法 ，MSI 机 制 就 是 其 中 之 一 。 在 未 来 ， 该 特性 的 重要 性 会 逐渐 增 
长 。 内 核 源 代码 中 的 pocumentation/MSI-HOWTO.txt 包 含 了 有 关 该 机 制 的 更 多 信息 。 
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<irq.h> 

struct irqg desc { 
irqgq_flow handler 七 handle_irq; 
Struct rao_ chis *anip; 
void *handler_data; 
void *chip_data; 
struct irqaction *action; /* IRQ 操 作 列 表 */ 
unsigned int status; /* IRQ 状 态 */ 
unsigned int depth; /* 骸 套 停 用 irq */ 
unsigned int irq_count; /* 于 检测 错误 的 中 断 */ 
unsigned int irgqs_unhandled; 
const char *name; 

} cacheline internodealigned_ in_ smp; 











从 内 核 中 高 层 代 码 的 角度 来 看 ， 每 个 耻 Q 都 可 以 由 该 结构 完全 描述 。 上 面 介 绍 的 3 个 抽象 层 在 该 
结构 中 表示 如 下 。 
口 电流 层 ISR 由 hanqle_iraq 提 供 。handler_dqata 可 以 指向 任意 数据 ， 该 数据 可 以 是 特定 于 IRQ 
或 处 理 程 序 的 。 每 当 发 生 中 断 时 ， 特 定 于 体系 结构 的 代码 都 会 调用 hanqdle_irq。 该 函数 负责 
使 用 chip 中 提供 的 特定 于 控制 器 的 方法 ， 进 行 处 理 中 断 所 必需 的 一 些 底层 操作 。 用 于 不 同 中 
断 类 型 的 默认 函数 由 内 核 提 供 。14.1.5 节 将 讨论 此 类 处 理 程序 函数 的 例子 。 
口 action 提 供 了 一 个 操作 链 ， 需 要 在 中 断 发 生 时 执行 。 由 中 断 通知 的 设备 驱动 程序 ， 可 以 将 与 
之 相关 的 处 理 程序 函数 放置 在 此 处 。 有 一 个 专门 的 数据 结构 用 于 表示 这 些 操 作 , 在 14.1.4 节 讨论 。 
口 电流 处 理 和 芯片 相关 操作 被 封装 在 chip 中 。 为 此 引入 了 一 个 专门 的 数据 结构 ， 稍 后 讲述 。 
chip_qata 指 向 可 能 与 cnip 相 关 的 任意 数据 。 
D name 指 定 了 电流 层 处 理 程序 的 名 称 ， 将 显示 在 /proc/interrupts 中 。 对 边沿 触发 中 断 ， 通 党 
是 “eqge”， 对 电 平 触发 中 断 ， 通 常 是 “level1”。 
结构 中 还 有 一 些 成 员 需 要 描述 。depth 有 两 个 任务 。 它 可 用 于 确定 IRQ 电 路 是 启用 的 还 是 禁用 的 。 
正 值 表示 禁用 ,而 0 表示 启用 。 为 什么 用 正 值 表 示 禁 用 的 IRQ 呢 ?因为 这 使 得 内 核能 够 区 分 启用 和 禁用 
的 IRQ 电 路 ， 以 及 重复 禁用 同一 中 断 的 情形 。 这 个 值 相 当 于 一 个 计数 器 ， 内 核 其 余部 分 的 代码 每 次 禁 
用 某 个 中 断 ， 则 将 对 应 的 计数 器 加 1; 每 次 中 断 被 再 次 启用 ， 则 将 计数 器 减 1。 在 aepth 归 0 时 ， 硬 件 才 
能 再 次 使 用 对 应 的 了 RQ。 这 种 方法 能 够 支持 对 和 骨 套 禁用 中 断 的 正确 处 理 。 
IRQ 不 仅 可 以 在 处 理 程 序 安装 期 间 改变 其 状态 ， 而 且 可 以 在 运行 时 改变 :status 描述 了 IRQ 的 当 
前 状态 。<irq.h> 文 件 定义 了 各 种 常数 ， 可 用 于 描述 IRQ 电 路 当前 的 状态 。 每 个 常数 表示 位 串 中 一 个 
置 位 的 标志 位 ， 只 要 不 相互 冲突 ， 几 个 标志 可 以 同时 设置 。 
口 IRO_DISABLED 用 于 表示 被 设备 驱动 程序 禁用 的 IRQ 电 路 。 该 标志 通知 内 核 不 要 进入 处 理 程序 。 
口 在 IRQ 处 理 程序 执行 期 间 ， 状 态 设置 为 IRO_INPROGRESS。 与 TRO_DISABLED 类 似 ， 这 会 阻止 其 
余 的 内 核 代码 执行 该 处 理 程序 。 
口 在 CPU 注意 到 一 个 中 断 但 尚未 执行 对 应 的 处 理 程序 时 ，IRQ_PENDING 标 志 位 置 位 。 
口 为 正确 处 理发 生 在 中 断 处 理 期 间 的 中 断 ， 需 要 IRQO_MASKED 标 志 。 具 体 参 见 14.1.4 节 。 
口 在 某 个 IRQ 只 能 发 生 在 一 个 CPU 上 时 ， 将 设置 IRO_PER_CPU 标 志 位 。( 在 SMP 系 统 中 ， 该 标志 
使 几 个 用 于 防止 并 发 访问 的 保护 机 制 变 得 多 余 。) 
口 IRO_LEVEL 用 于 Alpha 和 PowerPC 系 统 ， 用 于 区 分 电 平 触发 和 边沿 触发 的 IRQ。 
口 IRQ_REPLAY 意 味 着 该 IRQ 已 经 禁用 ， 但 此 前 尚 有 一 个 未 确认 的 中 断 。 
口 IRQ_AUTODETECT 和 IRO_WAITING 用 于 IRQ 的 自动 检测 和 配置 。 这 里 不 会 详细 讨论 该 特性 ， 相 
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应 的 代码 位 于 kernel/irq/autoprobe. c 中 。 

口 如 果 当 前 IRQ 可 以 由 多 个 设备 共享 不 是 专属 于 某 一 设备 ， 则 置 位 TRO_NOREQUEST 标 志 。 

根据 status 当 前 的 值 ， 内 核 很 容易 获知 某 个 IRQ 的 状态 ， 而 无 需 了 解 底层 实现 的 硬件 相关 特性 。 
当然 ， 只 设置 对 应 的 标志 位 是 不 会 产生 预期 效果 的 。 通 过 设置 ITRo_DISABLED 标 志 来 禁用 中 断 是 不 可 
能 的 ， 还 必须 将 新 状态 通知 底层 硬件 。 因 而 ， 该 标志 只 能 通过 特定 于 控制 器 的 函数 设置 ， 这 些 函 数 同 
时 还 负责 将 设置 信息 同步 到 底层 硬件 。 在 很 多 情况 下 ， 这 必须 使 用 汇编 语言 代码 ， 或 通过 out 命 令 向 
特定 地 址 写 入 特定 数值 。 
最 后 ，irq_desc 的 irgq_count 和 irq_unhandled 字 段 提供 了 一 些 统计 量 , 可 用 于 检测 停顿 和 未 处 
理 ， 但 持续 发 生 的 中 断 。 后 者 通常 称 作 口 口 口 《spurious interrupt)。 这 里 不 会 更 详细 地 讨论 这 个 问题 
Ta 
1. IRQ 控 制 器 抽象 
handler 是 一 个 hw_irgq_controller 数 据 类 型 的 实例 ， 该 类 型 抽象 出 了 一 个 IRQ 控 制 器 的 具体 特 
征 , 可 用 于 内 核 的 体系 结构 无 关 部 分 。 它 提供 的 函数 用 于 改变 IRQ 的 状态 , 这 也 是 它们 还 负责 设置 flag 
的 原因 : 

























































































































































































































































































<irq.h> 
Strwet, LE Chis 

const char *name; 

unsigned int (*startup) (unsigned int irq); 

void (*shutdown) (unsigned int irq); 

void (*enable) (unsigned int irq); 

void (*disable) (unsigned int irq); 

void (*ack) (unsigned int irq); 

void (*mask) (unsigned int irqg); 

void (*mask_ ack) (unsigned int irq); 

void (*unmask) (unsigned int irq); 

void (*eoi) (unsigned int irq); 

void (*end) (unsigned int irq); 

void (*set_ affinity) (unsigned int irqg, cpumask t dest); 

工 得 臣 (*set_ type) (unsigned int irq, unsigned int flow type); 
该 结构 需要 考虑 内 核 中 出 现 的 各 个 IRQ 实 现 的 所 有 特性 。 因 而 ， 一 个 该 结构 的 特定 实例 ， 通 常 只 












































定义 所 有 可 能 方法 的 一 个 子 集 。 
name 包 含 一 个 短 的 字符 串 ， 用 于 标识 便 件 控制 器 。 在 IA-32 系 统 上 可 能 的 值 是 “XTPIC ”和 
“IO-APIC”， 在 AMD64 系 统 上 大 多 数 情 况 下 也 会 使 用 后 者 。 在 其 他 系统 上 有 各 种 各 样 的 值 ， 因 为 有 
许多 不 同 的 控制 器 类 型 ， 其 中 很 多 类 型 都 得 到 了 广泛 应 用 。 
各 个 函数 指针 的 语义 如 下 。 
口 startup 指 向 一 个 函数 ， 用 于 第 一 次 初始 化 一 个 IRQ。 大 多 数 情况 下 ， 初 始 化 工作 仅 限 于 局 
该 IRQ。 因 而 ，startup 函 数 实 际 上 就 是 将 工作 转 给 enable。 
口 enable 激 活 一 个 IRQ。 换 句 话说 ， 它 执行 IRQ 由 禁用 状态 到 启用 状态 的 转换 。 为 此 ， 必 须 向 IO 

内 存 或 IO 端口 中 硬件 相关 的 位 置 写 入 特定 于 人 硬件 的 数值 。 
口 disaple 与 enable 的 相对 应 ， 用 于 禁用 IRQ。 而 shutdown 完 全 关闭 一 个 中 断 源 。 如 果 不 支持 
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Q@ 如 果 读 者 对 检测 方式 感 兴趣 ， 可 参见 kernel/irq/spurious.c 中 的 note_interrupt 函 数 。 
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该 特性 ， 那 么 这 个 函数 实际 上 是 disable 的 别名 。 
口 ack 与 中 断 控 制 器 的 硬件 密切 相关 。 在 某 些 模 型 中 ，IRQ 请 求 的 到 达 〔 以 及 在 处 理 器 的 对 应 中 
断 ) 必须 显 式 确认 ， 后 续 的 请 求 才 能 进行 处 理 。 如 果 芯 片 组 没有 这 样 的 要 求 ， 该 指针 可 以 指 
问 一 个 空 函数 ， 或 NULL 指 针 。ack_ang_mask 确 认 一 个 中 断 ， 并 在 接 下 来 屏蔽 该 中 断 。 
口 调用 enqa 标 记 中 断 处 理 在 电流 层次 的 结束 。 如 果 一 个 中 断 在 中 断 处 理 期 间 被 禁用 ， 那 么 该 函数 
负责 重新 启用 此 类 中 断 。 
口 现代 的 中 断 控 制 器 不 需要 内 核 进行 太 多 的 电流 控制 ， 控 制 器 几乎 可 以 管理 所 有 事务 。 在 处 理 
中 断 时 需要 一 个 到 硬件 的 回调 ， 由 eoi 提 供 ，eoi 表 示 end of interrupt， 即 中 断 结束 。 
口 在 多 处 理 器 系统 中 , 可 使 用 set_affinity 指 定 CPU 来 处 理 特定 的 IRQ。 这 使 得 可 以 将 IRQ 分 配 
给 某 些 CPU (通常 ，SMP 系 统 上 的 IRQ 是 平均 发 布 到 所 有 处 理 器 的 )。 该 方法 在 单 处 理 器 系统 
上 没 用 ， 可 以 设置 为 NULL 指 针 。 
口 set_type 设 置 IRQ 的 电流 类 型 。 该 方法 主要 使 用 在 ARM、PowerPC 和 SuperH 机 器 上 ， 其 他 系 
统 不 需要 该 方法 ， 可 以 将 set_type 设 置 为 NULL。 
辅助 函数 set_irg type(irq，type) 是 一 个 便捷 函数 ， 用 于 设置 irq 的 IRQ 类 型 。 类 型 
IRO_TYPE_RISING 和 IRO_TYPE_FALLING 分 别 指定 了 边沿 触发 中 断 使 用 上 升 沿 和 下 降 沿 ， 而 
IRQ_TYPE_EDGE_BOTH 则 指定 两 种 边沿 触发 均 适用 。 电 平 触发 中 断 分 为 IRO_TYPE_LEVEL_HIGH 
和 IRQ_TYPE_LEVEL_LOW， 读 者 应 该 会 猿 到 ， 前 者 是 高 电 平 触发 ， 后 者 是 低 电 平 触发 。 最 后 ， 
IRQ_TYPE_NONE 设 置 了 一 种 未 指定 的 类 型 。 
中 断 控 制 器 芯片 实现 的 一 个 特定 例子 ， 就 是 AMD64 系 统 上 的 IO-APIC。 由 下 列 定义 给 出 : 


arch/x86/kernel/io_apic_64.c 
static struct irqg chip ioapic chip _ read mostly = { 

























































































































































































































































































































































































































































































.name = "IO-APIC", 
.Startup = startup_ioapic_irqg, 
.mask = mask_IO_APIC_ irgqg, 
.unmask = unmask_IO_APIC_ irgqg, 
.ack = ack_ apic edge, 
.e001i = ack_apic_ level, 
#ifdef CONFIG_ SMP 
.set_affinity = set_ ioapic affinity_ irqg, 
#endif 
} 


请 注意 ， 内 核 为 jrq_chip 定 义 了 别名 hw_interrupt_type， 这 是 为 兼容 IRQ 子 系统 的 前 一 版 本 。 
例如 ， 该 名 称 仍 然 用 在 Alpha 系 统 上 ， 定 义 i8259A 标 准 中 断 控 制 器 的 芯片 级 操作 ， 如 下 : ” 


arch/alpha/kernel/i8529.c 
struct hw_interrupt_type i8259a irg type = { 








.typename = "XT-PIC", 

.Startup = i8259a_startup_irq, 
.Shutdown = i8259a_ disable iraq, 
.enable = i8259a_enable_irq, 
.disable = i8259a_ disable_irq, 

.ack = i8259a mask_ and ack_irgqg, 
.end = i8259a_engd_ irq, 


} 
如 上 述 代码 所 示 ， 运 行 该 设备 ， 只 需要 定义 所 有 可 能 处 理 程序 函数 的 一 个 子 集 。 





















































GD 使 用 typename 而 不 是 name， 这 种 做 法 现在 也 已 经 废弃 ， 只 是 为 兼容 性 而 支持 。 
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i8259A 世 片 仍然 用 在 许多 IA-32 系 统 中 。 但 对 此 芯片 组 的 文 持 ， 已 经 转换 为 更 为 现代 的 ira_chip 
表示 。 所 用 的 中 断 控制 器 类 型 《和 系统 中 分 配 的 所 有 IRQ) 可 以 在 /proc/interrupts 中 看 到 。 下 列 例 
子 来 自 于 四 核 AMD64 系 统 : 


wolfgang@meitner> cat /proc/interrupts 






































CPUO CPU1I CPU2 CPU3 

0 : 48 下 0 0 IO-APIC-edge timer 

1: 于 0 业 0 IO-APIC-edge i8042 

4: 3 0 0 3 IO-APIC-edge 

Bs 0 0 0 1 IO-APIC-edge 关 攻 名 

9: 0 0 0 0 IO-APIC-fasteoi acpi 

16: 48 48 96720 50082 IO-APIC-fasteoi libata, uhci_ hcd:usbl 

183 1 0 2 0 IO-APIC-fasteoi uhci hcd:usb3,uhci_ hcd:usb6, 
ehci_hcd:usb7 

19: 0 0 0 0 IO-APIC-fasteoi uhci_hcd:usb5 

213 0 0 0 0 IO-APIC-fasteoi uhci_ hcd:usb2 

223 407287 370858 1164 1166 IO-APIC-fasteoi libata, libata, HAD Intel 

23: 0 0 0 0 IO-APIC-fasteoi uhci hcd:usb4, 
ehci_hcd:usb8 

NMI : 0 0 0 0 Non-maskable interrupts 

LOC: 2307075 2266433 2220704 2208597 Local timer interrupts 

RES: 22037 18253 33530 35156 Rescheduling interrupts 

CAL: 363 373 394 184 function call interrupts 

TEB? 3355 3729 L919 1630 TLB shootdowns 

TRM: 0 0 0 0 Thermal event interrupts 

THR: 0 0 0 0 Threshold APIC interrupts 

SPU: 0 0 0 0 Spurious interrupts 

ERR: 0 























请 注意 ， 心 片 名 称 之 后 是 电流 处 理 程序 的 名 称 ， 导 致 出 现 的 名 称 诸如 “IO-APIC-edge” 除了 列 
所 有 注册 的 IRQ 之 外 ， 该 文件 尾部 还 提供 了 一 些 统计 信息 。 

2. 处 理 程序 函数 的 表示 

irqaction 结 构 定义 如 下 ， 每 个 处 理 程序 函数 都 对 应 该 结构 的 一 个 实例 : 


<interrupt.h> 

struct irqaction { 
irq handler t handler; 
unsigned long flags; 
const char *name; 
void *dev_id; 
struct irgqaction *next; 
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该 结构 中 最 重要 的 成 员 是 处 理 程序 函数 本 身 ， 即 handler 成 员 ， 这 是 一 个 函数 指针 ， 位 于 结构 的 
起 始 处 。 在 设备 请 求 一 个 系统 中 断 ， 而 中 断 控 制 器 通过 引发 中 断 将 该 请 求 转发 到 处 理 器 的 时 候 ， 内 核 
将 调用 该 处 理 程序 函数 。 在 考虑 如 何 注册 处 理 程 序 函数 时 , 我 们 再 仔细 考察 其 参数 的 语义 。 但 请 注意 ， 
处 理 程序 的 类 型 为 ira_handler t+t， 与 电流 处 理 程序 的 类 型 1rq_flow_handler t+ 显然 是 不 同 的 。 

name 和 dev_id 唯 一 地 标识 一 个 中 断 处 理 程序 。name 是 一 个 短 字 符 串 ， 用 于 标识 设备 (例如 ， 
“e100”“ncr53c8xx”， 等 等 )， 而 dev_id 是 一 个 指针 ， 指 向 在 所 有 内 核 数据 结构 中 唯一 标识 了 该 设 
备 的 数据 结构 实例 ， 例 如 网 卡 的 net_qdevice 实 例 。 如 果 几 个 设备 共享 一 个 IRQ， 那 么 IRQ 编 号 自身 不 
能 标识 该 设备 ， 此 时 ， 在 删除 处 理 程序 函数 时 ， 将 需要 上 述 信息 。 

flags 是 一 个 标志 变量 ， 通 过 位 图 描述 了 IRQ 〈 和 相关 的 中 断 ) 的 一 些 特性 ， 位 图 中 的 各 个 标志 
位 照例 可 通过 预定 义 的 常数 访问 。<interrupt.h> 中 定义 了 下 列 常数 。 
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口 对 共享 的 IRQ 设 置 TRoF_SHARED， 表 示 有 多 于 一 个 设备 使 用 该 IRQ 电 路 。 
口 如 果 IRQ 对 内 核 箭 池 (entropy pool) 有 贡献 ， 将 设置 ITROF_SAMPLE_RANDOM。? 
口 ITROF_DISABLED 表 示 IRQ 的 处 理 程序 必须 在 禁用 中 断 的 情况 下 执行 。 
口 IROF_TIMER 表 示 时 钟 中 断 。 
next 用 于 实现 共享 的 人 RQ 人 处理 程序 。 几 个 irqaction 实 例 聚 集 到 一 个 链表 中 。 链 表 的 所 有 元 素 都 
必须 处 理 同 一 RQ 编号 (处理 不 同 编 号 的 实例 , 位 于 irq_qdesc 数 组 中 不 同 的 位 置 )。 在 14.1.7 节 讨论 过 ， 
在 发 生 一 个 共享 中 断 时 ， 内 核 扫 描 该 链表 找 出 中 断 实 际 上 的 来 源 设 备 。 特 别 是 在 单 蕊 片 ( 只 有 一 个 中 
断 ) 上 集成 了 许多 不 同 的 设备 (网 络 、USB、FireWire、 声 卡 等 ) 的 笔记 本 电脑 中 ， 此 类 处 理 程序 链 
表 可 能 包含 大 约 5 个 元 素 。 但 我 们 预期 的 情况 是 ， 每 个 IRQ 下 都 注册 一 个 设备 。 
图 14-4 给 出 了 所 描述 各 数据 结构 的 一 个 概览 ， 说 明 其 彼此 交互 的 方式 。 因 为 通常 在 一 个 系统 上 只 
有 一 种 类 型 的 中 断 控制 器 会 占据 支配 地 位 (当然 ， 并 没有 什么 约束 条 件 阻 止 多 个 控制 器 并 存 ")， 所 有 
irq_desc 的 handler 成 员 都 指 问 irgq_chip 的 同一 实例 。 
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图 14-4 IRQ 管理 涉及 的 各 数据 结构 














14.1.5 中断 电流 处 理 


本 节 将 考察 电流 处 理 是 如 何 实现 的 。 在 内 核 版 本 2.6 重 写 中 断 逻 辑 之 前 ， 此 领域 中 的 现状 令 人 感 
到 相当 痛苦 ， 在 电流 处 理 中 会 涉及 大 量 体 系 结构 相关 的 代码 。 牌 好， 情况 现在 有 了 很 大 的 改善 ， 有 
个 通用 框架 儿 乎 可 用 于 所 有 硬件 ， 仪 有 少量 例外 。 
1. 设置 控制 器 硬件 
和 先 ， 需 要 提 到 内 核 提 供 的 一 些 标准 函数 ， 用 于 注册 irq_chip 和 设置 电流 处 理 程序 : 
<irq.h> 
int set_ira_chip(unsignedq int irqg, struct irqg chip *chip); 
void set_irqg handler (unsigned int irqg, irqg flow handler t handle); 
void set_irg chained handler (unsigned int irg, irqg flow handler t handle) 


void set_irg chip angd handler (unsigned int irg, struct irg chip *chip, 
irqgq_flow handler _t handle); 





















































































































































































































































GD 该 信息 用 来 生成 相对 安全 的 随机 数 ， 用 于 /dev/random 和 /dev/urandom。 
@ 原文 中 的 handler 是 指 中 断 控 制 器 的 软件 抽象 。 一 一 译 者 注 
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void set_irqgq chip_ and handler name (unsigned int irqgq, struct irqg chip *chip, 
irgq_flow handler _t handle, const char 
*name); 


口 set_ira_chip 将 一 个 IRQ 芯 片 以 ira_chip 实 例 的 形式 关联 到 某 个 特定 的 中 断 。 除 了 从 
irq_desc 选 取 适 当 的 成 员 并 设置 chip 指 针 之 外 ， 如 果 没 有 提供 特定 于 芯片 的 实现 ， 该 函数 还 
将 设置 默认 的 处 理 程序 。 如 果 chip 指 针 为 NOLL， 将 使 用 通用 的 “无 控制 器 ”ira_chip 实 例 
no_irg chip, 该 实现 只 提供 了 空 操作 。 

口 set_irq handler 和 set_irq chained_handler 为 某 个 给 定 的 民 Q 编 号 设置 电流 处 理 程序 。 

第 二 种 变 体 表 示 ， 处 理 程序 必须 处 理 共 享 的 中 断 。 这 会 置 位 jrq_gdesc[irq] ->status 中 的 标 

志 位 IRQ_NOREQUEST 和 ITRQ_NOPROBE: 设置 第 一 个 标志 ， 是 因为 共享 中 断 是 不 能 独占 使 用 的 ， 
设置 第 二 个 标志 ， 是 因为 在 有 多 个 设备 的 了 RQ 电 路 上 ， 使 用 中 断 探 测 显 然 是 个 坏 主 意 。 

两 个 函数 在 内 部 都 使 用 了 __set_irg_hangdler， 该 函数 执行 一 些 合理 性 检查 ， 然 后 设置 iraq_ 
desc[irg]->handle_irqg。 

口 set_chip_anq_hanaqler 是 一 个 快捷 方式 ， 它 相当 于 连续 调用 上 述 的 各 函数 。_name 变 体 的 工 

作 方 式 相 同 ， 但 可 以 为 电流 处 理 程 序 指定 一 个 名 称 ， 保 存在 irgq_desc[irqg] ->name 中 。 

2. 电流 处 理 

在 讨论 电流 处 理 程序 的 实现 方式 之 前 ， 需 要 介绍 
定 了 IRQ 电 流 处 理 程序 函数 的 原型 : 

<irq.h> 


typedef void fastcall (*irc_ flow handler t) (unsigned int irqg, 
struct irqg desc *desc); 


电流 处 理 程序 的 参数 包括 IRQ 编 号 和 一 个 指 问 负 责 该 中 断 的 jrq_handler 实 例 的 指针 。 该 信息 接 
下 来 可 用 于 实现 正确 的 电流 处 理 。 
可 想 前 文 ， 可 知 不 同 的 硬件 需要 不 同 的 电流 处 理 方式 , 例如， 边沿 触发 和 电 平 触发 就 需要 不 同 的 
处 理 。 内 核对 各 种 类 型 提供 了 几 个 默认 的 电流 处 理 程序 。 它 们 有 一 个 共同 点 : 每 个 电流 处 理 程序 在 其 
省 束 后 ， 都 要 负责 调用 高 层 ISR。handle_IRQO_event 人 负责 激活 高 层 的 处 理 程序 ， 这 将 在 14.1.7 节 
讨论 。 现 在 ， 主 要 讲述 如 何 进行 电流 处 理 。 
en000000 
现在 的 人 硬件 大 部 分 采用 的 是 边沿 触发 中 断 ， 因 此 首先 讲述 这 一 类 
handle_edge_irgq 中 。 其 代码 流程 图 如 图 14-5 所 示 。 
在 处 理 边沿 触发 的 民 Q 时 无 须 屏 项 ， 这 与 电 平 触发 IRQ 是 相反 的 。 这 对 SMP 系 统 有 一 个 重要 的 含 
义 : 当 在 一 个 CPU 上 处 理 一 个 IRQ 时 ， 男 一 个 同样 编号 的 IRQ 可 以 出 现在 男 一 个 CPU 上 ， 称 为 第 二 个 
CPU。 这 意味 着 ， 当 电流 处 理 程 序 在 由 第 一 个 IRQ 触 发 的 CPU 上 运行 时 ， 还 可 能 被 再 次 调用 。 但 为 什 
么 应 该 有 两 个 CPU 同 时 运行 同一 个 IRQ 处 理 程序 呢 ? 内 核 想 要 避免 这 种 情况 : 处 理 程序 只 应 在 一 个 
CPU 上 运行 。handle_edge_irg 的 开始 部 分 必须 处 理 这 种 情况 。 如 果 设 置 了 IRQ_INPROGRESS 标 志 ， 
则 该 IRQ 在 男 一 个 CPU 上 已 经 处 于 处 理 过 程 中 。 通 过 设置 IRO_PENDING 标 志 ， 内 核能 够 记录 还 有 男 一 
个 IRQ 需 要 在 稍 后 处 理 。 在 屏蔽 该 IRQ 并 通过 mask_ack_irq 疝 控制 器 发 送 一 个 确认 后 ， 处 理 过 程 可 以 
放弃 。 因 而 第 二 个 CPU 可 以 恢复 正常 的 工作 ， 而 第 一 个 CPU 将 在 稍 后 处 理 该 IRQ。 
请 注意 , 如 果 IRQ 被 禁用 , 或 没有 可 用 的 ISR 处 理 程 序 , 都 会 放弃 处 理 。( 有 缺陷 的 硬件 可 能 在 IRQ 
禁用 的 情况 下 仍然 生成 IRQ， 内 核 需 要 考虑 到 这 种 情况 。) 
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竣 











理 程 序 所 用 的 类 型 。irq_flow_handler _t 指 
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。 默 认 处 理 程序 实现 在 
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handle_ edge_irqg 


























没有 处 理 程序 ，IRQ 在 处 理 中 或 IRQ 禁 设置 ITRO_PENDING 和 TIRQO_MASKED 


mask_ack_ira] 
取消 处 理 














而 且 








sa 


仅 直 IRQ_INPROGRESS 


和 欠 代 下 去 
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只 要 IRO_PENDING 仍 然 置 位 ， 


IRQ 没 有 禁用 


图 14-5” handle_edge_irqg 的 代码 流程 


现在 ， 开 始 IRQ 处 理 本 身 所 涉及 的 工作 。 在 用 芯片 相关 的 函数 chip->ack 向 中 断 控 制 器 发 送 一 个 
确认 之 后 ， 内 核 设 置 IRO_INPROGRESS 标 志 。 这 表示 IRQ 正 在 处 理 过 程 中 ,可 用 于 避免 同一 处 理 程序 在 
多 个 CPU 上 执行 。 


我 们 假定 只 有 一 个 IRQ 需 要 处 理 。 在 这 种 情况 下 ， 可 以 通过 调用 hanqle_ITRQO_event 激 活 高 层 ISR 
处 理 程 序 ， 然 后 可 以 清除 IRQ_TNPROGRESS 标 志 。 但 实际 上 的 情况 更 为 复杂 ， 如 源 代码 所 示 : 
kernel/irq/chip.c 

void fastcall 

handle edge irq(unsigned int irg, struct irg desc *desc) 


{ 
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desc->status |= IRQO_INPROGRESS 


do { 


struct irqaction *action = desc->action; 
irqreturn t action ret; 


/* 
* 如果 在 处 理 irq 时 有 男 一 个 ijrq 到 达 ， 
* 那么 当时 可 能 屏 若 了 该 1ra。 
* 解除 对 irqg 的 屏蔽 ， 如 果 它 在 此 期 间 没 有 被 禁用 的 话 。 























if (unlikely( (desc->status & 
(IRQ_PENDING | IRO_MASKED | IRQ_DISABLED)) == 
(IRQ_PENDING | IRQ MASKED))) { 
desc->chip->unmask (irqg); 
desc->status &= ~IRQ MASKED; 























} 


desc->status &= ~IRQO_ PENDING; 
action ret = handle IRQ event (irqgq, action); 
} while ((desc->status & (IRQ_ PENDING | IRQ_DISABLED)) == IRQ_ PENDING); 


IRQ 的 处 理 是 在 一 个 循环 中 进行 。 假 定 我 们 刚好 处 于 调用 hanqle_IRQ_event 之 后 的 位 置 上 。 在 


第 一 个 IRQ 的 ISR 处 理 程序 运行 时 ， 可 能 同时 有 第 二 个 IRQ 请 求 发 送 过 来 ， 前 文 已 经 说 明 。 这 通过 
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IRQ_PENDING 表 示 。 如 果 设 置 了 该 标志 〈 同 时 该 IRQ 没 有 禁用 )， 那 么 有 另 一 个 IRQ 正 在 等 待 处 理 ， 循 
环 将 从 头 再 次 开始 。 
但 在 这 种 情况 下 ，IRQ 已 经 被 屏蔽 。 因 而 必须 用 chip->unmask 解 除了 RQ 的 屏蔽 ， 并 清除 
IRQ_MASKED 标 志 。 这 确保 在 handle_IRQO_event 执 行 期 间 只 能 发 生 一 个 中 断 。 
在 清除 IRQ_PENDING 标 志 之 后 ， 在 技术 上 仍然 有 一 个 待 决 的 耻 Q， 但 它 将 被 立即 处 理 ， 因 为 
handle_IRQ_event 还 可 以 处 理 第 二 个 IRQ。 
en000000 
与 边沿 触发 中 断 相 比 ， 电 平 触发 中 断 稍微 容易 处 理 一 些 。 这 也 反映 在 电流 处 理 程序 nangdle_ 
level_irg 的 代码 流程 图 中 ， 如 图 14-6 所 示 。 


handle level irg 


设置 了 IRQ_INPROGRESS? 放弃 处 理 


放弃 处 理 

















































































































































































































没有 注册 ISR 或 IRQ 被 禁用 ? 























ML eE 


充 直 IRO_INPROGRESS 











handle IRQ event 








清除 IRO_INPROGRESS | 


IRQ 没 有 禁用 ? 一 > chip->unmask| 
图 14-6 handle_level_irqg 的 代码 流程 图 

请 注意 ， 电 平 触发 中 断 在 处 理 时 必须 屏蔽 ， 因 此 需要 完成 的 第 一 件 事 就 是 调用 mask_ack_irq。 

该 辅助 函数 屏蔽 并 确认 IRQ， 这 是 通过 调用 chip->mask_ack， 如 果 该 方法 不 可 用 ， 则 连续 调用 

















































































































chip->mask 和 chip->ack。 在 多 处 理 器 系统 上 ， 可 能 发 生 竞 态 条 件 ， 尽 管 IRQ 已 经 在 另 一 个 CPU 上 处 
理 ， 但 仍然 在 当前 CPU 上 调用 了 handqle_level_ira。 这 可 以 通过 检查 IRQO_INPROGRESS 标 志 来 判断 ， 





















































这 种 情况 下 ，IRQ 已 经 在 另 一 个 CPU 上 处 理 ， 因 而 在 当前 CPU 上 可 以 立即 放弃 处 理 。 
如 果 没 有 对 该 IRQ 注 册 处 理 程序 ， 也 可 以 立即 放弃 处 理 ， 因 为 无 事 可 做 。 另 一 个 导致 放弃 处 理 的 
原因 是 设置 了 IRQO_DISABLED。 尽 管 被 禁用 ， 有 问题 的 硬件 仍然 可 能 发 出 IRQ， 但 可 以 被 忽略 。 
接 下 来 开始 对 IRQ 的 处 理 。 设 置 IRo_ITNPROGRESS， 表 示 该 IRQ 正 在 处 理 中 ， 实 际 工作 委托 给 
handle_IRQ event。 这 触发 了 高 层 ISR， 在 下 文 讨论 。 在 ISR 结 束 之 后 ， 清 除 IRQ_INPROGRESS。 
最 后 ， 需 要 解除 对 IRQ 的 屏蔽 。 但 内 核 需要 考虑 到 ISR 可 能 禁用 中 断 的 情况 ， 在 这 种 情况 下 ，ISR 
仍然 保持 屏蔽 状态 。 和 否则 ， 使 用 特定 于 芯片 的 函数 chip->unmask 解 除 屏 项 。 
en000000 
除了 边沿 触发 和 电 平 触发 RQ， 还 可 能 有 一 些 不 那么 常见 的 电流 类 型 。 内 核 也 对 它们 提供 了 默认 
处 理 程序 。 
口 现代 IRQ 硬 件 只 需要 极 少 的 电流 处 理工 作 。 只 需 在 IRQ 处 理 结束 之 后 调用 一 个 芯片 相关 的 函数 
chip->eoi。 此 类 型 的 默认 处 理 程 序 是 nandle_fasteoi irq。 它 基本 上 等 同 于 handle_ 
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level_irq， 除 了 只 需 在 最 后 与 控制 器 芯片 交互 。 
口 非常 简单 ， 根 本 不 需要 电流 控制 的 中 断 由 handle_simple _ irq 管理。 如 果 调 用 者 想 要 自行 处 理 电 
流 ， 也 可 以 使 用 该 函数 。 
口 各 CPU IRQ, 即 IRQ 只 能 发 送 到 多 处 理 器 系统 的 一 个 特定 的 CPU, 由 handle_percpu_irq 处 理 。 
该 函数 在 接收 之 后 确认 IRQ， 在 处 理 之 后 调用 eoi 例 程 。 其 实现 非常 简单 ， 因 为 不 需要 锁 ， 根 
据 定义 代码 只 能 在 一 个 CPU 上 运行 。 

































































































































































14.1.6 ”初始 化 和 分 配 IRQ 














本 市 将 主要 讲述 如 何 注 册 和 初始 化 IRQ。 
1. 注册 IRQ 
设备 驱动 程序 动态 注册 ISR 的 工作 ， 可 以 使 所 述 的 数据 结构 非常 简单 地 进行 。 在 内 核 版 本 2.6 
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重 写 中 断 子 系统 之 前 ， 该 函数 是 由 平台 相关 代码 实现 的 。 很 自然 ， 甚 原型 在 所 有 体系 结构 上 都 是 相 





























同 的 ， 因 为 对 编写 平台 无 关 的 驱动 程序 来 说 ， 这 是 一 个 绝对 的 先决 条 件 。 现 在 ， 该 函数 由 通用 代码 


处 悍 
/dev/random。rangd_initialize_irqg 将 该 IRQ 添 加 到 对 应 的 数据 结构 。 


头 为 ira_gesc [NUM] ->action。 在 处 理 共享 中 断 时 ， 内 核 就 通过 这 种 方式 来 确保 中 断 发 生 时 调用 处 理 
程序 的 顺序 与 其 注册 顺序 相同 。 














kernel/irq/manage.c 
int request_irq(unsigned int irqg, 
irgqreturn t handler, 
unsigned long irqflags, const char *devname, void *dev_id) 


图 14-7 给 出 了 request_irg 的 代码 流 程 图。 
建 irqaction 实 例 
设置 了 IRQF_SAMPLE_RANDOM? 
将 iraaction 置 于 队列 末尾 | 


非 共 享 IRQ? handler->startup 


在 proc 文 件 系 统 中 注册 










































































图 14-7 ”request_irg 的 代码 流程 图 


内 核 首 先生 成 一 个 新 的 jrqaction 实 例 ， 然 后 用 函数 参数 填充 其 内 容 。 当 然 ， 其 中 特别 重要 的 是 
























































程序 函数 handler。 所 有 进一步 的 工作 都 委托 给 setup_irq 函 数 ， 它 将 执行 下 列 步 骤 。 























(1) 如 果 设 置 了 IRQOF_SAMPLE_RANDOM， 则 该 中 断 将 对 内 核 箭 池 有 所 贡献 ， 炉 池 用 于 随机 数 发 生 器 












































(2) 由 request_irq 生 成 的 jrgqaction 实 例 被 添加 到 所 属 IRQ 编 号 对 应 的 例 程 链 表 尾部 ， 该 链表 表 





































































































(3) 如 果 安 装 的 处 理 程序 是 该 IRQ 编 号 对 应 链表 中 的 第 一 个 ， 则 调用 handler->startup 初 始 化 函 
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数 。” 如果 该 IRQ 此 前 已 经 安装 了 处 理 程序 ， 则 没有 必要 再 调用 该 函数 。 

(4) register_irq proc 在 proc 文 件 系 统 中 建立 目录 /proc/irq/NUM。 放 register handler_ 

proc 生 成 proc/irq/NUM/name。 接 下 来 ， 系 统 中 就 可 以 看 到 对 应 的 IRQ 通 道 在 使 用 中 。 

2. 释放 IRQ 

释放 中 断 的 方案 ,与 前 述 过 程 刚 好 相反 。 首 先 ， 通 过 人 硬件 相 关 的 函数 chip->shutdown" 通知 中 断 

控制 器 该 IRQ 已 经 删除 ， 接 下 来 将 相关 数据 项 从 内 核 的 一 般 数据 结构 中 删除 。 辅 助 函 数 Eree_ira 承 担 
这 些 任务 。 在 重 写 IRQ 子 系统 之 前 它 是 一 个 体系 结构 相关 的 函数 ， 但 现在 并 非 如 此 ， 可 以 在 kernel/ 
irq/manage.c 中 找到 该 函数 。 
在 IRQ 处 理 程序 需要 删除 一 个 共享 的 中 断 时 , IRQ 编 号 本 身 不 足以 标识 该 IRQ。 在 这 种 情况 下 , 为 
提供 唯一 标识 ， 还 必须 使 用 前 面 讲述 的 dev_id。 内 核 扫 描 所 有 注册 的 处 理 程序 的 链表 ， 直 人 至 找到 一 个 
匹配 的 处 理 程 序 (dev_iq 匹 配 )。 这 时 才能 移 除 该 项 。 
3. 注册 中 断 
前 面 讲述 的 机 制 只 适用 于 由 系统 外 设 的 中 断 请 求 所 引发 的 中 断 。 但 内 核 还 必须 考虑 由 处 理 器 本 身 
或 者 用 户 进 程 中 的 软件 机 制 所 引发 的 中 断 。 与 人 RQ 相 比 ， 内 核 无 需 提 供 接口 ， 供 此 类 中 断 动态 注册 处 
理 程序 。 这 是 因为 ， 所 使 用 的 编号 在 初始 化 时 就 是 已 知 的 ， 此 后 不 会 改变 。 中 断 和 异常 的 注册 在 内 核 
初始 化 时 进行 ， 其 分 配 在 运行 时 并 不 改变 。 
平台 相关 的 内 核 源 代码 基本 上 没有 共同 点 ， 这 并 不 出 人 意料 ， 技 术 上 的 差别 有 时 候 还 是 很 大 的 。 
尽管 一 些 变 体 背 后 的 概念 可 能 是 相似 的 ， 但 不 同 平台 间 的 具体 实现 差别 很 大 。 这 是 因为 具体 的 实现 必 
然 要 在 C 代 码 和 汇编 代码 之 间 进 行 精细 的 划分 ， 才 能 公平 对 竺 具体 系统 的 相关 特性 。 

各 个 平台 之 间 最 大 的 相似 性 就 是 文件 名 。arch/arch/kernel/traps.c 包 含 了 用 于 中 断 处 理 程序 
主 册 的 系统 相关 的 实现 。 

所 有 实现 的 结果 都 是 这 样 : 在 中 断 发 生 时 自动 调用 对 应 的 处 理 程序 函数 。 因 为 系统 中 断 不 支持 中 
断 共 享 ， 上 只 需要 建立 中 断 号 和 函数 指针 之 间 的 关联 。 

通常 ， 内 核 以 下 述 两 种 方式 之 一 来 响应 中 断 。 

口 向 当前 用 户 进程 发 送 一 个 信号 ， 通 知 有 错误 发 生 。 举 例 来 说 ， 在 IA-32 和 AMD64 系 统 上 ， 除 0 
操作 通过 中 断 0 通知 。 自 动 调用 的 汇编 语言 例 程 aiviae_error， 会 向 用 户 进程 发 送 SIGPFE 
信号。 

口 内 核 自动 修复 错误 ， 这 对 用 户 进程 不 可 见 。 例 如 ， 在 IA-32 系 统 上 ， 中 断 14 用 于 表示 缺 页 噶 常 ， 
内 核 可 以 采用 第 18 章 描述 的 方法 自动 修复 该 错误 。 


14.1.7 ”处 理 IRQ 


在 注册 了 IRQ 处 理 程序 后 ， 每 次 发 生 中 断 时 将 执行 处 理 程序 例 程 。 仍 然 会 出 现 如 何 协 调 不 同 平台 
差异 的 问题 。 由 于 事情 的 特定 性 质 所 致 ， 使 得 差别 不 仅 涉及 平台 相关 实现 中 的 各 个 C 函 数 ， 还 深入 到 
于 底层 处 理 、 人 工 优化 的 汇编 语言 代码 。 
幸运 的 是 ， 我 们 可 以 确定 各 个 平台 之 间 的 儿 个 结构 上 的 相似 性 。 例如， 前 文 讨论 过 ， 各 个 平台 上 
的 中 断 操 作 都 由 3 部 分 组 成 。 进 入 路 径 从 用 户 态 切换 到 核心 态 ， 接 下 来 执行 实际 的 处 理 程序 例 程 ， 最 
后 从 核心 态 切换 回 用 户 态 。 尽 管 涉 及 大 量 的 汇编 语言 代码 ， 至 少 有 一 些 C 代 码 片 段 在 所 有 平台 上 都 是 
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Q@ 如 果 没 有 提供 显 式 的 startup 函 数 ， 则 只 调用 chip->enable 来 启用 该 IRQ。 
@ 如 果 没 有 提供 显 式 的 shutdown 函 数 ， 则 只 调用 chip->disable 禁 用 该 中 断 。 
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相似 的 。 下 文 将 讨论 这 些 相 似 处 。 


1. 切换 到 核心 态 
到 核心 态 的 切换 ， 





文 所 述 。 其 实现 可 以 在 arch/arch/kernel/entry.s 中 找到 ，? 其 中 通常 定义 了 各 个 入 口 点 ， 在 中 断 
发 生 时 处 理 器 可 以 将 控制 流转 到 这 些 入 口 点 。 
只 有 那些 最 为 必要 的 操作 直接 在 汇编 语言 代码 中 执行 。 内 核 试 图 尽快 地 返回 到 常规 的 C 代 码 ， 


























是 基于 每 个 中 断 之 后 由 处 理 器 自动 执行 的 汇编 语言 代码 的 。 该 代码 的 任务 如 上 



























































站 











为 C 代 码 更 容易 处 理 。 为 此 ， 必 须 创建 一 个 环境 ， 与 C 编 译 器 的 预期 兼容 。 
在 C 语 言 中 调用 函数 时 ， 需 要 将 所 需 的 数据 (返回 地 址 和 参数 〉 按 一 定 的 顺序 放 到 栈 上 。 在 用 户 


态 和 核心 态 之 间 切 换 时 












































， 还 需要 将 最 重要 的 寄存 器 保存 到 栈 上 ， 以 便 以 后 恢复 。 这 两 个 操作 





平台 相 











关 的 汇编 语言 代码 执行 。 在 大 多 数 平台 上 ， 控 制 流 接 下 来 传递 到 C 函 数 qo_IRQ,， “其 实现 也 是 平台 相 








关 的 ， 但 情况 仍然 得 到 


arch/arch/kernel/irq 




















了 很 大 的 简化 。 根据 平台 不 同 ， 该 函数 的 参数 或 者 是 处 理 器 寄存 器 集合 : 


C 














fastcall unsigned int do_IRQ(struct pt_regs regs) 











或 者 是 中 断 号 和 指向 处 


arch/arch/kernel/irq 




















里 器 寄存 器 集合 的 指针 : 





C 


unsigned int do_IRQ(int irg, struct pt_regs *regs) 


pt_regs 用 于 保存 内 核 使 用 的 寄存 器 集合 。 各 个 寄存 器 的 值 被 依次 压 栈 (通过 汇编 语言 代码 )， 





在 C 函 数 调用 之 前 ， 一 直 保 存在 栈 上 。 
pt_regs 的 定义 可 以 确保 栈 上 的 各 个 寄存 器 项 与 该 结构 的 各 个 成 员 相 对 应 。 这 些 值 


















































并 不 是 仅仅 保 




















存 用 于 后 续 的 使 用 ，C 代 码 也 可 以 读 取 这 些 值 。 图 14-8 说 明了 这 一 点 。 























Struct 

















内 核 栈 
图 14-8 ”进入 核心 态 之 后 栈 的 布局 











此 外 ， 寄 存 器 集合 也 可 以 被 复制 到 地 址 空间 中 栈 以 外 的 其 他 位 置 。 在 这 种 情况 下 ，qdo_IRQ 的 一 
个 参数 是 指向 pt_regs 的 指针 ， 但 这 并 没有 改变 以 下 事实 : 寄存 器 的 内 存 已 经 被 保存 ， 可 以 由 C 代 码 


读 取 。 



































struct pt_regs 的 定义 是 平台 相关 的 ， 因 为 不 同 的 处 理 器 提供 了 不 同 的 寄存 器 集合 。pt_res 中 
包含 了 内 核 使 用 的 寄存 器 。 其 中 不 包括 的 寄存 器 ， 可 能 只 能 由 用 户 态 应 用 程序 使 用 。 在 IA-32 系 统 上 ， 








pt_regs 通 常 定义 如 下 : 































































































GD 统一 的 x86 体 系 结构 下 ，entry_32 用 于 IA-32， 而 entry_64 用 于 AMD64 系 统 。 
@) 除了 Sparc、Sparc64 和 Alpha。 
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include/asm-x86/ptrace.h 

struct pt_regs { 
long ebx; 
long ecx; 
long edx; 
long esi; 
long edi; 
long ebp; 
long eax; 
int xXxds;} 
int xes; 
long orig eax; 
long eip; 
int 区 Cg 
long eflags; 
long esp; 
int xss; 


中 
以 PA-Risc 处 理 器 为 例 ， 其 寄存 器 集合 是 完全 不 同 的 : 


include/asm-parisc/ptrace.h 
struct pt_regs { 
unsigned long gr[32]; /* PSW 在 gr[0] 中 */ 
Wu64 fr[l32]: 
unsigned long sr[ 8]; 
unsigned long iasq[2]; 
unsigned long iaogq[2]; 
unsigned long cr27; 
unsigned long Pad0 /* 可 用 于 其 他 用 途 */ 
unsigned long orig r28; 
unsigned long ksp; 
unsigned long kpc; 







































































unsigned long sar; PG le Hh 光 人 
unsigned long iir; /* CR *y 
unsigned long isr; /* CR20 */ 
unsigned long ior; /* :CR21. 关 / 
unsigned long ipsw; /CR22 4/ 


于 
64 位 体系 结构 的 一 般 趋势 是 提供 越 来 越 多 的 寄存 器 ， 因 而 pt_regs 的 定义 变 得 越 来 越 大 。 例 如 ， 
IA-64 的 pt_regs 中 有 大 约 50 项 ， 因 此 我 们 不 能 在 本 书 中 给 出 其 定义 。 
在 IA-32 系 统 上 ， 被 引发 中 断 的 编号 保存 在 orig_eax 的 高 8 位 中 。 其 他 体系 结构 使 用 其 他 的 位 置 。 
如 上 所 述 ， 一 些 平 台 甚至 将 中 断 号 放置 在 栈 上 ， 作 为 一 个 直接 参数 。 

2. IRQ 栈 
只 有 在 内 核 使 用 内 核 栈 来 处 理 IRQ 的 情况 下 ， 上 面 描述 的 情形 才 是 正确 的 。 但 不 一 定 总 是 如 此 。 
IA-32 体 系 结构 提供 了 配置 选项 CONFIG 4KSTACKS。” 如 果 启 用 该 配置 ， 内 核 栈 的 长 度 由 8 KiB 缩 减 
到 4 KiB。 由 于 IA-32 计 算 机 上 页 面 大 小 是 4KiB， 实 现 内 核 栈 所 需 的 页 数目 由 2 个 减少 到 1 个 。 由 于 单个 
内 存 页 比 两 个 连续 的 内 存 页 更 容易 分 配 〈 前 文 讨论 过 )， 在 系统 中 有 大 量 活动 进程 〈 或 线程 ) 时 ， 这 
使 得 虚拟 内 存 子 系统 的 工作 会 稍微 容易 些 。 遗 憾 的 是 ， 对 常规 的 内 核 工作 以 及 RQ 处 理 例 程 所 需 的 空 
间 来 说 ，4 KiB 并 不 总 是 够 用 ， 因 而 引入 了 另外 两 个 栈 : 




















































































































































































































































































































G@ PowerPC 和 SuperH 体 系 结构 提供 了 配置 选项 coONFIG_IRQSTACKS, 来 启用 针对 IRQ 处 理 的 独立 栈 。 由 于 使 用 的 机 制 与 
这 里 是 类 似 的 ， 就 不 单独 讨论 了 。 
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用 于 人 硬件 IRQ 处 理 的 栈 。 
用 于 软件 IRQ 处 理 的 栈 。 
常规 的 内 核 本 对 每 个 进程 都 会 分 配 ， 而 这 两 个 额外 的 栈 是 针对 各 CPU 分 别 分 配 的 。 在 硬件 中 断 发 








生 时 《或 处 理 软 中 断 时 )， 内 核 需要 切换 到 适当 的 栈 。 
下 列 数 组 提供 了 指向 额外 的 栈 的 指针 : 














arch/x86/kernel/irq_32.c 
static union irq ctx 
static union irqg ctx 

















*hardirg ctx[NR CPUS] read mostly; 
*softirqgq ctx[NR_CPUS] read mostly; 











请 注意 ， 属 性 _reaq_mostly 不 是 指 栈 本 身 ， 而 是 指 这 里 的 指针 ， 也 就 是 栈 在 内 存 中 的 地 址 。 只 























有 在 最 初 分 配 这 些 栈 时 才 会 操作 这 些 指针 ， 而 后 在 系统 运行 期 间 都 只 是 读 取 。 























arch/x86/kernel/irq_32.c 
UnTOn Todt 





自作 栈 的 数据 结构 并 不 复杂 : 


struct thread_ info tinfo; 


U32 





stack [THREAD_SIZE/sizeof (u32)]; 








tinfo 用 于 存储 中 断 发 生 之 前 所 运行 线程 的 有 关 信息 (更 多 细节 请 参见 第 2 章 )。stack 提 供 了 栈 
































空间 。 如 果 启 用 了 4 KiB 栈 ， 则 THREAD_sIZE 定 义 为 4 096， 这 确保 了 所 要 求 的 栈 长 度 。 请 注意 ， 由 于 
了 一 个 union 来 合并 tinfo 和 stack[], 该 数据 结构 刚好 能 够 放 在 一 个 页 帧 中 。 这 也 意味 着 , tinfo 





使 用 


中 包含 的 线程 信 ， 


式 。 此 外 ,我 人 

















3. 调用 电流 处 理 程序 例 和 
电流 处 理 程序 例 程 的 调 月 


























只 ， 在 栈 上 总 是 可 用 的 。 












































口 
到 

















方式 ， 因 体系 结构 而 不 同 ， 接 下 来 将 讨论 AMD64 和 IA-32 平 台 的 调用 方 











e AMD64 DOUUD 





















































] 还 将 考察 IRQ 子 系统 重 写 之 前 所 使 用 的 旧 处 理 程序 机 制 ， 该 机 制 现 在 仍然 用 于 某 些 地 方 。 














这 里 首先 讲述 AMD64 系 统 上 do_IRQ 的 实现 。 与 IA-32 相 比 ， 这 个 函数 变 体 要 稍微 简单 些 ， 而 许多 























其 他 现代 的 体系 结构 也 采用 了 








该 函数 的 原型 如 下 : 
arch/x86/kernel/irq_64.c 
asmlinkage unsigned i 











类 似 的 方法 。 图 14-9 给 出 了 其 代码 流程 图 。 






generic handle irg 











图 14-9 AMD64 系 统 上 do_IRQ 的 代码 流程 图 








nt do_IRQ(struct pt_regs *regs) 











底层 汇编 程序 代码 负责 将 寄存 器 集合 的 当前 状态 传递 到 该 函数 ，do_IRo 的 第 一 项 任务 是 使 用 
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set_irq_regs 将 一 个 指向 寄存 器 集合 的 指针 保存 在 一 个 全 局 的 各 CPU 变量 中 〈 中 断 发 生 之 前 ， 变 量 
中 保存 的 旧 指 针 会 保留 下 来 ， 供 后 续 使 用 )。 需 要 访问 寄存 器 集合 的 中 断 处 理 程序 ， 可 以 从 该 变量 中 
访问 。 

接 下 来 irq_enter 负 责 更 新 一 些 统计 量 。 对 于 具备 动态 时 钟 周 期 特性 的 系统 ， 如 果 系 统 已 经 有 很 
长 一 段 时 间 没 有 发 生 时 钟 中 断 ， 则 更 新 全 局 计时 变量 jiffies (关于 动态 时 钟 周期 的 更 多 信息 ， 将 在 
15.5 节 阐述 )。 接 下 来 , 调用 对 所 述 IRQ 注 册 的 ISR 的 任务 委托 给 体系 结构 无 关 的 函数 generic_handle_ 
irq， 它 调用 irq_desc[irq]->handle_irq 来 激活 电流 控制 处 理 程序 。 
接 下 来 rq_exit 人 负责 记录 一 些 统计 量 ， 男 外 还 要 调用 (假定 内 核 此 时 已 经 不 再 处 于 中 断 状态 ， 
即 此 前 处 理 的 不 是 租 套 中 断 ) qo_softirg 来 处 理 任 何 待 决 的 软件 IRQ。 该 机 制 在 14.2 节 更 详细 地 讨论 。 
最 后 ， 再 次 调用 set_ira_regs， 将 指向 struct pt_regs 的 指针 恢复 到 上 一 次 调用 之 前 的 值 。 这 确保 
拒 套 的 处 理 程序 能 够 正确 工作 。 

® IA-320000000 

IA-32 在 ao_ITRo 中 需要 的 工作 稍 多 一 些 ， 如 图 14-10 中 的 代码 流程 图 所 示 。 我 们 首先 假定 内 核 栈 只 
使 用 一 个 页 帧 ， 即 每 个 进程 的 内 核 栈 为 4 KiB。 如 果 设 置 了 coNFIG_4KSTACKS， 内 核 栈 的 配置 就 是 这 
样 。 回 想 前 文 可 知 ， 在 这 种 情况 下 需要 一 个 独立 的 栈 处 理 IRQ。 
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需要 切换 栈 ? 


Gin E 
二 * 
日 
XE 












desc->handle_irqg 











desc->handle _ irqg 


图 14-10 ”IA-32 系 统 上 qdo_IRO 的 代码 流程 图 


与 AMD64 的 情况 类 似 ， 同 样 会 调用 set_irqgq_regs 和 irq_enter 函 数 ， 来 达到 同样 的 目的 。 内 核 
必须 切换 到 IRQ 栈 。 当 前 栈 可 以 通过 调用 辅助 函数 current_thread_info 获 得 ， 该 函数 返回 一 个 指向 
当前 使 用 的 threaqg_info 实 例 的 指针 。 回 想 上 文 可 知 ， 该 实例 与 当前 栈 在 同一 个 union 中 。 而 指向 适 
当 的 IRQ 栈 的 指针 可 以 从 上 文 讨论 的 hardira_ctx 获 得 。 

有 如 下 两 种 可 能 的 情况 。 
(1) 进程 已 经 在 使 用 IRQ 栈 ， 因 为 是 在 处 理 骸 套 的 IRQ。 在 这 种 情况 下 ， 内 核 不 需要 做 什么 ， 所 有 
的 设置 都 已 经 完成 。 可 以 调用 irq_gdesc[irq] ->handle_ira 来 激活 保存 在 IRQ 数 据 库 中 的 ISR 。 

(2) 当前 栈 不 是 IRQ 栈 (curctx != irqctx)， 需 要 在 二 者 之 间 切 换 。 在 这 种 情况 下 ， 内 核 执 行 
所 需 的 底层 汇编 语言 操作 来 切换 栈 ， 然 后 调用 irq_gesc[irq] ->handle_irq， 最 后 再 将 栈 切 换 回去 。 

请 注意 , 在 这 两 种 情况 下 , ISR 都 是 直接 调用 的 , 而 不 像 AMD64 系 统 上 通过 generic_handle_irq 
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迁 回 。 
剩余 工作 的 执行 与 AMD64 系 统 相 同 。iraqa_exit 处 理 一 些 记录 并 激活 软 中 断 ， 而 set_irq_regs 
将 寄存 器 集合 指针 恢复 到 IRQ 发 生 之 前 的 状态 
在 本 长 度 为 8 KiB 时 ， 即 使 用 两 个 页 帧 ， IRQ 的 处 理会 被 简化 ， 因为 无 须 考 虑 栈 切 换 ， 直 接 调 
iraq_dqesc[irdq]->handqle_irdq 即 可 。 
eU00000 
在 讨论 AMD64 如 何 调用 电流 控制 处 理 程序 时 ， 我 们 提 到 代码 结束 于 generic_handqle_irq， 该 函 
数 从 IRQ 数 据 库 irqa_adesc 中 选择 并 激活 适当 的 handle_ira 函 数 。 但 实际 上 generic_handle_irq 要 更 


复杂 一 些 : 
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<irq.h> 
static inline void generic handle irgq(unsigned int irqg) 
{ 


struct irqg desc *desc = irq desc + irg; 


#ifdef CONFIG GENERIC HARDIRQS NO_ DO_IRQ 
desc->handle_ irgq(irq, desc); 











#else 
if (likely (desc->handle_irq)) 
desc->handle_irg(irg, desc); 
else 
_ do_IRQ(irq); 
#endif 
} 





























在 重 写 耻 Q 子 系统 之 前 ， 内 核 混合 使 1 了 各 种 体系 结构 相关 方法 来 处 理 IRQ。 最 重要 的 是 ， 这 种 
方法 不 可 能 分 离 电流 处 理 和 ISR 处 理 : 这 两 项 任务 都 在 同一 个 体系 结构 相关 的 例 程 中 执行 ， 通 常 称 为 
__ do _ IRO。 

现代 的 代码 应 该 启用 配置 选项 GENRIC_HARDIRQS_NO ”DO_IRO, 使 用 前 文 讨论 的 方法 来 实现 电流 
处 理 。 在 这 种 情况 下 ，generic_handle_irq 实 际 上 归结 为 只 调用 irqg_desc[irq]->handle_irqg。 

如 果 不 设置 该 选项 ， 会 怎么 样 呢 ?” 内 核 提供 了 一 个 _ qo_IRO 的 默认 实现 ， 包 含 了 所 有 中 断 类 型 
的 电流 处 理 ， 并 调用 了 所 需 的 ISR。"” 基本 上 ， 该 函数 的 用 法 和 电流 处 理 的 实现 有 如 下 3 种 可 能 性 。 

(1) 对 一 些 IRQ 使 用 通用 电流 处 理 程序 ， 其 他 IRQ 的 处 理 程序 不 定义 。 对 这 些 IRQ， 采 用 __go_IRO 
来 完成 电流 处 理 和 高 层 处 理 两 项 任务 。 这 样 的 话 ， 就 需要 从 do_IRQ 调 用 generic_handle_IRQ。 

(2) 从 ao_IRo 直 接 调用 _ aoe_IRo@。 这 完全 忽略 了 对 电流 处 理 的 分 离 。 一 些 非 主 流体 系 结构 如 
M32R、H8300、SuperH 和 Cris 仍 然 使 用 这 种 方法 。 

(3) 以 完全 体系 结构 相关 的 方法 处 理 IRQ， 不 习 

至 少 可 以 这 样 说 。 
1 于 所 有 体系 结构 的 长 期 目标 都 是 转换 到 通用 的 IRQ 框 架 ， 这 里 就 不 详细 讨论 _ do_TRo 了 。 
4. 调用 高 层 ISR 
回想 上 文 可 知 , 不 同 的 电流 处 理 程序 例 程 都 有 0 IRQ_event 来 激活 与 特定 
IRQ 相 关 的 高 层 ISR。 现 在 需要 更 仔细 地 考察 这 个 函数 。 该 函数 需要 IRQ 编 号 和 操作 链 作为 参数 : 


kernel/irq/handle.c 
irqreturn t handle IRQ event (unsigned int irqg, struct irgqaction *action); 






























































































































































































































































































































































nah 








现存 的 任何 框架 。 显 然 ， 这 个 想法 不 怎么 明智 ， 












































































































































G@ 在 引入 通用 IRQ 框 架 之 前 ， 实 现 是 基于 IA-32 系 统 上 使 用 的 版 本 的 。 
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handle_IRQO event 可 和 执行 下 述 操作 。 
口 如 果 第 一 个 处 理 程序 函数 中 没有 设置 IRQF_DISABLED， 则 用 local_irqg enable_in_hardirqg 
启用 (当前 CPU 的 〉 中 断 。 换 句 话 说 ， 该 处 理 程序 可 以 被 其 他 IRQ 中 断 。 但 根据 电流 类 型 ， 也 
可 能 一 直 屏 珊 刚 处 理 的 IRQ。 
口 逐一 调用 所 注册 的 了 RQ 处 理 程序 的 action 函 数 。 
口 如 果 对 该 耻 Q 设 置 了 IROF_SaAMPLE_RANDOM， 则 调用 adqqa_interrupt_randomness， 将 事件 的 
时 间作 为 箭 池 的 一 个 源 《〈 如 果 中 断 的 发 生 是 随机 的 ， 那 么 它们 是 理想 的 源 )。 
口 1ocal_irq_dqisable 禁 用 中 断 。 因 为 中 断 的 启用 和 禁用 是 不 骨 套 的 ， 与 中 断 在 处 理 开 始 时 是 
否 启 用 是 不 相关 的 。handle_IRQ_event 在 调用 时 禁用 中 断 ， 在 退出 时 仍然 预期 禁用 中 断 。 

在 共享 IRQ 时 ， 内 核 无 法 找 出 引发 中 断 请 求 的 设备 。 该 工作 完全 留 给 处 理 程序 例 程 ， 其 中 将 使 用 
设备 相关 的 寄存 器 或 其 他 硬件 特征 来 查找 中 断 来 源 。 末 委 及 自 的 例 程 也 需要 识别 出 该 中 断 并 非 来 自 于 
相关 设备 ， 应 该 尽快 将 控制 返回 。 但 处 理 程 序 例 程 也 无 法 向 高 层 代 码 报告 该 中 断 是 否 是 针对 它 的 。 内 
核 总 是 依次 执行 所 有 处 理 程序 例 程 ， 而 不 考虑 实际 上 哪个 处 理 程序 与 该 中 断 相 关 。 

但 内 核 总 可 以 检查 是 否 有 负责 该 IRQ 的 处 理 程序 , irqreturn_t 定 义 为 处 理 程序 函数 的 返回 类 型 ， 
它 只 是 一 个 简单 的 整 型 变量 。 可 以 接收 IRO_NONE 或 TRO_HANDLED 两 个 值 ,， 这 取决 于 处 理 程序 是 否 处 理 
了 该 IRQ 。 

在 执行 所 有 处 理 程 序 例 程 期 间 ， 内 核 将 返回 结果 用 届 辑 “或 ”操作 合并 起 来 。 内 核 最 后 可 以 据 出 
判断 IRQ 是 否 被 处 理 。 

kernel/irq/handle.c 

irqreturn t handle IRO event (unsigned int irq 


{ 




























































































































































































































































































































































































































































































































































































,， struct irqaction *action) 


do { 
ret = action->handler (irg, action->dev_ id); 
if (ret == IRQ HANDLED) 
status |= action->flags; 
retval |= ret; 
action = action->next; 
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} while (action); 


return retval; 


} 
5. 实现 处 理 程序 例 程 
在 实现 处 理 程序 例 程 时 ， 必 须要 注意 一 些 要 点 。 这 些 会 极 大 地 影响 系统 的 性 能 和 稳定 性 。 
© 00 
在 实现 ISR 时 ， 主 要 的 问题 是 它们 在 所 谓 的 0 DODD DO (interrupt context) 中 执行 。 内 核 代码 
有 时 在 常规 上 下 文 运行 ， 有 时 在 中 断 上 下 文 运 行 。 为 区 分 这 两 种 不 同情 况 并 据 此 设计 代码 ， 内 核 提供 
了 in_interrupt 函 数 ， 用 于 指明 当前 是 否 在 处 理 中 断 。 
中 断 上 下 文 与 普通 上 下 文 的 不 同 之 处 主要 有 如 下 3 点 。 
(1) 中 断 是 异步 执行 的 。 换 名 话说 ， 它 们 可 以 在 任何 时 间 发 生 。 因 而 从 用 户 空间 来 看 ， 处 理 程 请 
例 程 并 不 是 在 一 个 明确 定义 的 环境 中 执行 。 这 种 环境 下 ， 禁 止 访问 用 户 空间 ， 特 别 是 与 用 户 空间 地 址 
之 间 来 回复 制 内 存 数据 的 行为 。 
网 如 ， 对 网 络 驱 动 程序 来 说 ， 不 能 
定 等 待 数据 的 应 用 程序 此 时 是 否 在 运行 
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将 接收 的 数据 直接 转发 到 等 待 的 应 用 程序 。 毕 竞 ， 内 核 无 法 确 
(事实 上 ， 这 种 可 能 性 很 低 )。 
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(2) 中 断 上 下 文中 不 能 调用 调度 器 。 因 而 不 能 








(3) 处 理 程序 例 程 不 能 进入 睡眠 状态 。 只 



































在 外 部 事 


愿 地 放弃 控制 权 。 
有 件 导致 状态 改变 并 唤醒 进程 时 ， 才 能 












































器 ， 不 能 选择 进程 来 执行 。 















































当然 ， 只 确保 处 理 程序 例 程 的 直接 代码 不 进入 睡 























数 《〈 以 及 被 这 些 函 数 /过 程 调用 的 函数 /过 程 ， 依 此 类 
站 路 径 存 在 大 量 分 支 时 。 


简单 ， 必 须 非 常 谨慎 ， 特 别 是 在 控 
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en0U0000 





























定义 ， 这 里 先 给 出 其 定义 : 


<interrupt.h> 


回想 前 文 ，ISR 函 数 的 原型 是 由 ira_handler_t 指 定 的 。 由 于 前 文 没 有 给 


typedef irgqreturn t (*irg handler t) (int, v 























irq 指 定 了 IRQ 编 号 ，dev_id 是 注册 人 处理 程序 时 传递 的 设备 DD。irqreturn_t 是 男 








实际 上 只 是 整数 。 














请 注意 ，ISR 的 原型 在 内 核 版 本 2.6.19 开 发 期 间 发 生 了 改变 ! 此 前 ， 处 至 














个 指向 保存 的 寄存 器 集合 的 指针 : 


<interrupt.h> 

















眠 状态 。 但 中 断 上 下 文中 不 允许 中 断 ， 进 程 睡眠 后 ， 内 核 只 能 永远 等 待 下 去 ”。 因 为 也 不 能 调 














坚 除 睡 





























眠 状态 ， 这 是 不 够 的 。 其 中 调用 的 所 有 
E) 都 不 能 进入 睡眠 状态 。 对 此 进行 的 检查 3 





sid Ys 



































和 调度 
过 程 和 函 


不 


出 这 个 typedef 的 实际 


一 个 typedef， 











E 程 序 例 程 的 参数 还 包括 


口 








irqreturn t (*handler) (int irqg, void *dev_id, struct Pt_regs *regs); 


中 断 处 理 程序 显然 是 所 谓 的 “ 热 ” 代 码 路 径 ， 耗 费 的 处 理 时 间 是 非常 关键 的 。 






































序 都 不 需要 寄存 器 状态 ， 但 仍然 需要 花费 时 间 和 栈 空 


该 指针 是 个 好 主意 。” 


















































间 来 向 每 个 ISR 传 递 一 个 指针 。 


























尽管 大 多 数 处 理 各 























因而 从 原型 项 


| 除 


需要 访问 寄存 器 集合 的 处 理 程序 也 仍然 可 以 访问 。 内 核定 义 了 一 个 全 局 的 各 CPU 数组 来 保存 寄存 


器 集合 , 而 include/asm-generic/ira regs.h 中 的 get_irq_regs 可 用 于 获取 一 个 指向 pt_regs 实 例 
合 的 状态 。 普通 的 设备 驱动 程序 不 使 用 该 信 


























一 


日 有 时 候 对 调试 内 核 问题 有 用 。 





的 指针 。 该 实例 包含 了 切换 到 核心 态 时 活动 的 寄存 器 集 






































再 次 强调 ， 中 断 处 理 程序 只 能 使 用 两 种 返回 1 

















果 ISR 不 负责 该 IRQ 则 返回 IRO_NONE。 




































































专门 的 设备 寄存 器 。 如 果 是 该 设备 引起 中 断 ， 贝 


须 将 设备 寄存 器 恢复 默认 值 〈 通 常 是 0)， 接 下 来 








处 理 程序 例 程 的 任务 是 什么 ? 为 处 理 共 享 中 断 ， 例 


果 相 关 的 外 部 设备 设计 得 比较 现代 ， 那 么 硬件 会 提供 一 


直 : 如 果 正 确 地 处 理 了 IRQ 则 返回 





























个 简单 的 方法 来 执行 该 检查 ， 














IRQ_HANDLED， 





程 首先 必须 检查 IRQ 是 否 是 针对 该 例 程 的 。 


vi lt 
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VE 


如 


如 











通常 是 通过 


个 





上 寄存 器 值 设 置 为 1。 在 这 种 情况 下 ， 




















台 正 



































0， 它 可 以 确信 所 管理 的 设备 不 是 中 断 源 ， 因 而 可 























以 将 控制 返回 到 高 层 代码 。 











如 果 设 备 没 有 此 类 状态 寄存 器 ， 还 在 使 用 手 























查 相关 设备 是 否 有 数据 可 用 。 倘 若 如 此 ， 则 处 到 





























轮 询 的 方案 。 每 次 发 生 一 个 中 断 
E 数 据 。 








否则 ， 例 程 结束 。 




















处 理 程序 例 程 必 




















党 的 中 断 处 理 。 如 果 例 程 发 现 设备 寄存 器 值 为 


























bp 检 


当然 ， 可 能 有 一 个 处 理 程序 例 程 同时 负责 多 个 设备 的 情况 ， 例 如 同一 类 型 的 两 块 网 卡 。 如 果 收 到 






































一 个 IRQ， 则 对 两 块 卡 执行 同样 的 代码 ， 因 为 





个 处 到 









































设备 使 用 不 同 的 IRQ 编 号 ， 那 么 处 理 程序 例 程 可 


























E 程 序 函 数 指向 内 核 代码 中 同一 位 置 。 如 果 两 个 


以 区 分 二 者 。 如 果 二 者 共享 同一 个 IRQ， 仍 然 可 以 根 











GD 这 里 没有 进程 ， 是 内 核 和 当前 处 理 器 永远 等 待 。 

















@ 由 于 该 补丁 引入 的 改变 必须 修改 每 一 个 ISR， 它 可 能 是 





bb 


内 核 


译 者 注 
历史 上 唯一 一 个 一 次 性 修改 了 大 多 数 文 件 的 补丁 。 
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据 设备 相关 的 aev_id 字 段 来 唯一 地 标识 各 个 卡 。 
14.2 ” 软 中 断 


软 中 断 使 得 内 核 可 以 延期 执行 任务 。 因 为 它们 的 运作 方式 与 上 文 描述 的 中 断 类 似 ， 但 完全 是 用 软 
件 实现 的 ， 所 以 称 为 0 口 口 〈software interrupt) 或 softIRQ 是 完全 符合 逻辑 的 。 

内 核 借 助 于 软 中 断 来 获知 异常 情况 的 发 生 ， 而 该 情况 将 在 稍 后 由 专门 的 处 理 程序 例 程 解决 。 如 上 
所 述 ， 内 核 在 do_IRO 末 尾 处 理 所 有 待 决 软 中 断 ， 因 而 可 以 确保 软 中 断 能 够 定期 得 到 处 理 

从 一 个 更 抽象 的 角度 来 看 ， 可 以 将 软 中 断 描述 为 一 种 延迟 到 稍 后 时 刻 执行 的 内 核 活动 。 但 尽管 硬 
件 和 软件 中 断 之 间 有 明显 的 相似 性 ， 它 们 并 不 总 是 可 比较 的 。 

软 中 断 机 制 的 核心 部 分 是 一 个 表 ， 包 含 32 个 softirg_action 类 型 的 数据 项 。 该 数据 类 型 结构 非 
党 简单 ， 只 包含 两 个 成 员 : 

<interrupt.h> 

struct softirg action 
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void (*action) (struct softirqg action *); 
void *data; 
































上 
其 中 action 是 一 个 指向 处 理 程序 例 程 的 指针 ， 在 软 中 断 发 生 时 由 内 核 执 行 该 处 理 程序 例 程 ， 而 
data 是 一 个 指向 处 理 程序 函数 私有 数据 的 指针 。 

该 数据 结构 的 定义 是 体系 结构 无 关 的 , 而 软 中 断 机 制 的 整个 实现 也 是 如 此 。 除 了 处 理 的 激活 之 外 ， 
没有 利用 处 理 器 相关 的 功能 或 特性 ， 这 与 普通 的 中 断 是 完全 相反 的 。 

软 中 断 必须 先 注册 , 然后 内 核 才 能 执行 软 中 断 。open_softirqg 函 数 即 用 于 该 目的 。 它 在 softirg_ 
vec 表 中 指定 的 位 置 写 入 新 的 软 中 断 : 

kernel/softirq.c 

void open softirgq(int nr, void (*action) (struct softirq action*), void *data) 


C 
























































































































































softirqgq vec[Inr] .data = data; 
softirqgq vec[nr] .action = action; 


} 
在 每 次 调用 软 中 断 处 理 程序 action 时 ，qdata 用 作 参 数 。 

各 个 软 中 断 都 有 一 个 唯一 的 编号 ， 这 表明 软 中 断 是 相对 稀缺 的 资源 ， 使 用 其 必须 谨慎 ， 不 能 由 各 
种 设备 驱动 程序 和 内 核 组 件 随意 使 用 。 默 认 情况 下 ， 系 统 上 只 能 使 用 32 个 软 中 断 。 但 这 个 限制 不 会 有 
太 大 的 局 限 性 ， 因 为 软 中 断 充当 实现 其 他 延期 执行 机 制 的 基础 ， 而 且 也 很 适合 设备 驱动 程序 的 需要 。 
下 文 将 讨论 相应 的 技术 (tasklet、 工 作 队列 和 内 核定 时 器 〉。 
只 有 中 枢 的 内 核 代码 才 使 用 软 中 断 。 软 中 断 只 用 于 少数 场合 ， 这 些 都 是 相对 重要 的 情况 : 
<interrupt.h> 


enum 
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HI_SOFTIRQ=0, 
TIMER_SOFTIRQ, 
NET_TX_SOFTIRQ, 
NET_RX_ SOFTIRD, 
BLOCK_SOFTIRQ ， 
TASKLET_SOFTIRQ 
SCHED_SOFTIRQ, 

#ifdef CONFIG_ HIGH_ RES_TIMERS 






























































































































































三 











702 0D 140 00020 
HRTIMER_ SOFTIRO, 
#endif 
下 
过 
其 中 两 个 用 来 实现 tasklet (HI_SOFTIROQ、TASKLET_SOFTIRQ) ， 两 个 用 于 网 络 的 发 送 和 接收 操作 
CNET_TX_SOFTIRQO 和 NET_RX_SOFTIRQ， 这 是 软 中 断 机 制 的 来 源 和 其 最 重要 的 应 用 )， 一 个 用 于 块 
实现 异步 请 求 完成 (BLOCK_SsoFTIRQO)， 一 个 用 于 调度 器 〈sCcHED_soFTIRO)， 以 实现 SMP 系 统 上 周期 
性 的 负载 均衡 。 在 启用 高 分 辨 率 定 时 器 时 ， 还 需要 一 个 软 中 断 (HRTIMER_SOFTIRQO)。 
软 中 断 的 编号 形成 了 一 个 优先 顺序 , 这 并 不 影响 各 个 处 理 程 序 例 程 执行 的 频率 或 它们 相当 于 其 
系统 活动 的 优先 级 ， 但 定义 了 多 个 软 中 断 同时 活动 或 待 决 时 处 理 例 程 执行 的 次 序 。 




















raise_ softirqg 






















































































(int nr) 用 于 引发 一 个 软 中 断 〈 类 似 普通 
该 函数 设置 各 CPU 变量 irq_stat [smpb_processor_jiqd] . 
























































中 断 )。 软 中 断 的 编号 通过 参数 指定 。 
softirq pending 中 的 对 应 比特 位 。 








































































































该 函数 将 相应 的 软 中 断 标记 为 执行 ， 但 这 个 执行 是 延期 执行 。 通 过 使 用 特定 于 处 理 器 的 位 图 ， 内 核 确 
保 几 个 软 中 断 《〈 甚 至 是 相同 的 ) 可 以 同时 在 不 同 的 CPU 上 执行 。 

如 果 不 在 中 断 上 下 文 调用 raise_softira， 则 调用 wakeup_softirad 来 唤醒 软 中 断 守护 进程 ， 这 
是 开启 软 中 断 处 理 的 两 个 可 选 方法 之 一 。14.2.2 节 将 详细 讲述 该 守护 进程 。 
14.2.1 开启 软 中 断 处 理 

有 几 种 方法 可 开启 软 中 断 处 理 ， 但 这 些 都 归结 为 调用 ae_softira 函 数 。 为 此 ， 我 们 详细 介绍 该 
函数 。 图 14-11 给 出 的 代码 流程 图 ， 揭 示 了 其 中 基本 的 步骤 。 
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local_softirqgq pendungH 


local_ softirqg pending 
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重启 次 数 没有 超出 限制 ? 
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mn 





启 软 中 断 处 理 














激活 了 六 





的 软 
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14-11 








该 函数 首先 确认 当前 不 处 于 
则 立即 结束 。 
内 调用 。 


[uml 





























等 待 处 理 ， 则 调用 _ do_softirq。 
该 函数 将 原来 的 位 图 重 置 为 0。 








bl 











禁用 中 断 的 情况 下 执行 ， 以 防 其 他 进程 对 位 图 的 修改 造成 了 
里 程序 执行 期 间 的 

















行 。 这 使 得 在 软 中 断 处 














通过 local_softirqg pending,， 
































换 句 话说 ,清除 所 有 软 中 断 。 这 两 个 操作 都 是 在 (当前 处 理 























FP 非 时 间 关 键 部 分 ， 所 以 其 代码 本 身 一 定 不 


外 定 当 前 CPU 软 中 断 位 图 


Ph 断 ? 一 一 wakeup_softirad | 
do_softirg 的 代码 流程 


新 上 下 文中 《当然 ， 即 不 涉及 硬 从 
因为 软 中 断 用 于 执行 ISR- 





攻 | 



























中断 》 。 如 果 处 于 中 断 上 下 文 ， 




















中 所 有 置 位 的 比特 位 。 如 

















能 在 中 呆 处 至 

















果 有 软 中 断 



































器 上 ) 





F 扰 。 而 后 续 代 码 是 在 允许 中 断 的 情况 下 执 
任何 时 刻 ， 都 可 以 修改 原来 的 位 图 。 
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softirg_vec 中 的 action 函 数 在 一 个 while 循 环 中 针对 各 个 待 决 的 软 中 断 被 调用 。 
在 处 理 了 所 有 标记 出 的 软 中 断 之 后 ， 内 核 检 查 在 此 期 间 是 否 有 新 的 软 中 断 标记 到 位 图 中 。 要 求 在 


前 一 轮 循环 中 至 少 有 一 个 没有 处 理 的 软 中 断 ， 而 重启 的 次 数 没 有 超过 MAx_SoFTIRQ_RESTART (通常 设 
9 为 10) 。 如 果 是 这 样 ， 则 再 次 按 序 处 理 标记 的 软 中 断 。 这 操作 会 一 直 重 复 下 去 ， 直 至 在 执行 所 有 处 












































































































































理 程序 之 后 没有 新 的 未 处 理 软 中 断 为 止 。 
如 果 在 MAx_SoFTIRQ_RESTART 次 重启 处 理 过 程 之 后 , 仍然 有 未 处 理 的 软 中 断 , 那么 应 该 如 何 ? 内 


核 将 调用 wakeup_softiraqd 唤 醒 软 中 断 守 护 进 程 。 
14.2.2 ” 软 中 断 守护 进程 
软 中 断 守 护 进程 的 任务 是 , 与 其 余 内 核 代码 异步 执行 软 中 断 。 为 此 ， 系 统 中 的 每 个 处 理 器 都 分 配 
了 自身 的 守护 进程 ， 名 为 ksoftirqq。 
内 核 中 有 两 处 调用 wakeup_softiraq 唤 醒 了 该 守护 进程 。 
口 在 do_softirgq 中 ， 如 前 所 述 。 
口 在 raise_softirq irqoff 末 尾 。 该 函数 由 raise_softirag 在 内 部 调用 ， 如 果 内 核 当 前 停 用 了 
中 断 ， 也 可 以 直接 使 用 。 
唤醒 函数 本 身上 只 需要 几 行 代 码 。 首 先 ， 借 助 于 一 些 宏 ， 从 一 个 各 CPU 变量 读 取 指 向 当前 CPU 软 中 
断 守 护 进程 的 task_struct 的 指针 。 如 果 该 进程 当前 的 状态 不 是 TASK_RUNNTNG， 则 通过 wake_up_ 
process 将 其 放置 到 就 绪 进 程 的 列表 末尾 (参见 第 2 章 ) 。 尽 管 这 并 不 会 立即 开始 处 理 所 有 竺 决 软 中 断 ， 
但 只 要 调度 器 没有 更 好 的 选择 ， 就 会 选择 该 守护 进程 《优先 级 为 19) 来 执行 。 
在 系统 启动 时 用 initcal1 机 制 〈 见 附录 D) 调用 init 不 久 ， 即 创建 了 系统 中 的 软 中 断 守 护 进 程 。 
在 初始 化 之 后 ， 各 个 守护 进程 都 执行 以 下 无 限 循环 : ” 


kernel/softirq.c 
static int ksoftirgqd(void * _ bingd cpu) 























































































































































































































































































































while (!kthread_ should_ stop()) { 
if (!local_ softirg pending()) { 
schedule(); 


} 
_ set_ current_state (TASK RUNNING); 


while (local_ softirqg pending()) { 
do_softirqg(); 
cond_resched(); 


} 
set_current_state (TASK_ INTERRUPTIBLE); 











} 






















































































每 次 被 唤醒 时 ， 守 护 进 程 首先 检查 是 否 有 标记 出 的 待 决 软 中 断 ， 否 则 明确 地 调用 调度 器 ， 将 控制 
转交 到 其 他 进程 。 
如 果 有 标记 出 的 软 中 断 ， 那 么 守护 进程 接 下 来 将 处 理 软 中 断 。 进 程 在 一 个 while 循 环 中 重复 调用 




















| 








两 个 函数 dao_softircd 和 cond_rescheq,， 直 至 没有 标记 出 的 软 中 断 为 止 。conda_rescheq 确 保 在 对 当前 

















Q@ 如 果 软 中 断 守 护 进 程 显 式 停止 ， 则 kthreaa_should_stop () 返 回 true。 由 于 这 只 发 生 在 一 个 CPU 从 系统 移 除 的 情 
况 下 ， 我 不 会 讨论 这 种 情况 。 为 简明 起 见 ， 我 还 忽略 了 抢占 的 处 理 。 
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进程 设置 了 TIF_NEED_RESCHED 标 志 的 情况 下 调用 调度 器 (参见 第 2 章 ) 。 这 是 可 能 的 ， 因 为 所 有 这 些 





























函数 执行 时 都 








局 用 了 硬件 中 断 。 


14.3 tasklet 









































软 中 断 是 将 操作 推迟 到 未 来 时 刻 执 行 的 最 有 效 的 方法 。 但 该 延期 机 制 处 理 起 来 非常 复杂 。 因 为 多 


























个 处 理 器 可 以 























同时 且 独 立地 处 理 

















软 中 断 ， 同 一 个 软 中 断 的 处 理 程 序 例 程 可 以 在 几 个 CPU 上 同时 运行 。 

















设计 必须 是 完 
而 这 需要 大 量 
tasklet 和 





























et 


量 审慎 的 考虑 。 















































对 软 中 断 的 效率 来 说 ， 这 是 一 个 关键 ， 多 处 理 器 系统 上 的 网 络 实现 显然 受 惠 于 此 。 但 处 理 程序 例 程 的 
全 可 重 入 且 线 程 安全 的 。 另 外 , 临界 区 必须 用 上 自 旋 锁 保护 (或 其 他 IPC 机 制 , 参见 第 5 章 )， 
























































工作 队列 是 延期 执行 工作 的 机 制 ， 其 实现 基于 软 中 断 ， 但 它们 更 易于 使 用 ， 因 而 更 适合 























































































































































































































于 设备 驱动 程序 〈 以 及 其 他 一 般 性 的 内 核 代 码 )。 

在 深入 技术 细节 之 前 ， 请 注意 所 使 用 的 术语 : 由 于 历史 原因 ， 术 语 0 DOD (bottom half) 通常 指 
代 两 个 不 同 的 东西 ， 首 先 ， 它 是 指 ISR 代 码 的 下 半 部 ， 负 责 执 行 非 时 间 关 键 操作 。 遗 憾 的 是 ， 早 期 内 
核 版 本 中 使 用 的 操作 延期 执行 机 制 ， 也 称 为 下 半 部 ， 因 而 使 用 的 术语 经 常 是 含糊 不 清 的 。 在 此 期 间 ， 
下 半 部 不 再 作为 内 核 机 制 存在 。 它 们 在 内 核 版 本 2.5 开 发 期 间 被 废弃 ， 被 tasklet 代 蔡 ， 这 是 一 个 好 得 多 
的 蔡 代 品 。 

tasklet 是 “小 进程 ”， 执 行 一 些 迷 你 任务 ， 对 这 些 任务 使 用 全 功能 进程 可 能 比较 浪费 。 





14.3.1 创建 tasklet 
不 出 所 料 ， 各 个 tasklet 的 中 


<interrupt.h> 
struct tasklet_struct 


{ 


ye 


struct tasklet_ 








枢 数 据 结构 称 作 tasklet_struct， 定 义 如 下 : 


Struct *next:; 


unsigned long state; 


atomic_t count; 


void (*func) (unsigned long); 
unsigned long data; 


从 设备 驱动 程序 的 角度 来 看 ,最 重要 的 成 员 是 func。 它 指向 一 个 函数 的 地 址 , 该 函数 的 执行 将 被 





延期 。aata 用 作 该 函数 执行 时 


是 一 个 指针 ， 


DeXL 和 E 























的 参数 。 
于 建立 tasklet_struct 实 例 的 链表 。 这 容许 儿 个 任务 排队 执行 。 



































state 表 示 任 务 的 当前 状态 ， 类 似 于 真正 的 进程 。 但 只 有 两 个 选项 ， 分 别 由 state 中 的 一 个 比特 


位 表示 ， 这 也 是 三 者 可 以 独立 设置 /清除 的 原因 。 
口 在 tasklet 注 册 到 内 核 ， 




















口 TASKL 














第 二 个 状态 只 在 SMP 系 统 | 
原子 计数 器 count 用 于 禁 
时 ， 将 忽略 对 














等 待 调度 执行 时 ， 将 设置 TASKLET_STATE_SCHED。 
ET_STATE_RUN 表 示 tasklet 当 前 正在 执行 。 
















































































上 有 用 。 用 于 保护 tasklet 在 多 个 处 理 器 上 并 行 执行 。 



































已 经 调度 的 tasklet。 如 果 其 值 不 等 于 0, 在 接 下 来 执行 所 有 待 决 的 tasklet 

















应 的 tasklet。 


14.3.2 ”注册 tasklet 


tasklet_schedule 将 一 个 tasklet 注 册 到 系统 中 : 
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<interrupt.h> 
static inline void tasklet_schedule(struct tasklet_struct *t); 


如 果 设 置 了 TASKLET_STATE_SCHED 标 志 位 ， 则 结束 注册 过 程 ， 因 为 该 tasklet 此 前 已 经 注册 了 。 否 
则 ， 将 该 tasklet 置 于 一 个 链表 的 起 始 ， 其 表 头 是 特定 于 CPU 的 变量 tasklet_vec。 该 链表 包含 了 所 有 
主 朋 的 tasklet， 使 用 next 成 员 作 为 链表 元 素 。 
在 注册 了 一 个 tasklet 之 后 ，tasklet 链 表 即 标记 为 即将 进行 处 理 。 


14.3.3 ”执行 tasklet 


tasklet 的 生命 周期 中 最 重要 的 部 分 就 是 其 执行 。 因 为 tasklet 基 于 软 中 断 实 现 ， 它 们 总 是 在 处 理 软 

PF 断 时 执行 。 

tasklet 关 联 到 TASKLET_SOFTIRO 软 中 断 。 因 而 ， 调 用 raise_softirq (TASKLET_SOFTIRQ)， 即 可 

在 下 一 个 适当 的 时 机 执行 当前 处 理 器 的 tasklet。 内 核 使 用 tasklet_action 作 为 该 软 中 断 的 action 

该 函数 首先 确定 特定 于 CPU 的 链表 ， 其 中 保存 了 标记 为 将 要 执行 的 各 个 tasklet。 它 接 下 来 将 表 头 

重 定 向 到 函数 局 部 的 一 个 数据 项 ， 相 当 于 从 外 部 公开 的 链表 删除 了 所 有 表 项 。 接 下 来 ， 函 数 在 以 下 循 
环 中 逐一 处 理 各 个 tasklet: 


kernel/softirq.c 
static void tasklet action(struct softirqg action *a) 

































































四 





















































Tn 





























































































































while (list) { 
struct tasklet_struct *t = list; 
list = list->next; 


if (tasklet trylock(t)) { 
if (!atomic read(&t->count)) { 
if (!test and clear bit (TASKLET STATE_ SCHED, &t->state)) 
BUG (); 
t->func(t->data); 
tasklet unlock(t); 
continue; 





} 
tasklet unlock(t); 


} 

在 while 循 环 中 执行 tasklet， 类 似 于 处 理 软 中 断 使 用 的 机 制 。 

因为 一 个 tasklet 只 能 在 一 个 处 理 器 上 执行 一 次 ， 但 其 他 的 tasklet 可 以 并 行 运行 ， 所 以 需要 特定 于 
tasklet 的 锁 。state 状 态 用 作 锁 变量 。 在 执行 一 个 tasklet 的 处 理 程 序 函 数 之 前 ， 内 核 使 用 
tasklet_trylock 检 查 tasklet 的 状态 是 否 为 rzASKLET_STRATE_RUN。 换 向 话 说 ， 它 是 否 已 经 在 系 
统 的 男 一 个 处 理 器 上 运行 : 


<interrupt.h> 
static inline int tasklet trylock(struct tasklet_ struct *t) 


{ 





















































































































































return !test_and set_ bit (TASKLET_ STATE _ RUN, &(t)->state); 
} 


如 果 对 应 比特 位 尚未 设置 ， 则 设置 该 比特 位 。 
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如 果 count 成 员 不 等 于 0， 则 该 tasklet 已 经 停 
在 两 项 检查 都 成 功 通过 之 后 ， 
t->func (t->data)。 最 后 ， 使 月 























内 核 月 


Htasklet_un] 


























用 。 在 这 种 情况 下 ， 不 执行 相关 的 代码 。 
日 对 应 的 参数 执行 tasklet 的 处 理 程序 函数 ， 即 调用 





























Lock 清 除 tasklet 的 TASKLET_SCHED_RUN 标 志 位 。 

















如 果 在 tasklet 执 行 期 间 ， 有 新 的 tasklet 进 入 当前 处 理 器 的 tasklet 队 列 ， 则 会 尽快 引发 
TASKLET_SOFTIRQ 软 中 断 来 执行 新 的 tasklet。 
上 文中 没有 给 出 该 代码 。) 





除了 普通 的 tasklet 之 外 ， 内 核 还 使 






































外 ， 其 实现 与 普通 的 tasklet 完 全 相同 。 

















口 使 用 HI_SoFTIRQO 作 为 软 吕 
hi_action。 
口 注册 的 tasklet 在 CPU 相关 的 变量 tasklet_hi_vec 中 排队 。 这 是 使 用 tasklet_hi_schedqule 完 





























在 这 里 ， 


“ 较 高 优先 级 ”是 指 该 软 中 断 的 处 到 











〈 基 








P 断 ， 而 不 是 TASKII 


为 我 们 对 完成 该 工作 的 代码 不 是 特别 感 兴趣 , 所 以 在 


了 另 一 种 tasklet， 









































尤其 是 在 构成 了 软 中 断 活动 主体 的 网 络 处 理 程序 之 前 执行 。 





当前 , 大 部 分 声卡 驱动 程序 都 利用 了 
而 用 于 高 速 传输 的 网 卡 也 可 以 得 益 于 该 机 制 。 























14.4 ”等 待 队 列 和 完成 量 
(wait queue) 用 于 使 进程 等 待 某 一 特定 事 们 


UUUDO 





























待 某 一 操作 结 






































14.4.1 等待 队 列 
1. 数据 结构 


每 个 等 待 队 列 都 有 一 个 队列 头 ， 


<wait.h> 

















struct _ wait queue head { 


党 


task_1ist 是 一 个 双 链表 ， 用 于 实现 双 链 表 最 擅长 表示 的 结 
队列 中 的 成 员 是 以 下 数据 结构 的 实例 : 








<wait.h> 


因为 等 待 队列 也 可 


spinlock t lock; 


struct list head task_ list; 











struct _ wait queue 1{ 


ys 


unsigned int flags; 

void *private; 

wait queue_ func _t func; 
struct list head task_ list; 


束 。 这 两 种 机 制 使 用 得 都 比较 频繁 ， 主 要 


1 以 下 数据 结构 表 





这 一 选项 , 因为 操 


睡眠 ， 在 事件 发 生 时 由 内 核 自 动 唤醒 。0DD 《completion) 机 制 基 于 等 竺 队列， 内 核 利用 该 机 制 等 


























已 具有 “ 较 高 ”的 优先 级 。 除 以 下 修改 之 





ET_SOFTIROQ， 相 关 的 action 函 数 是 tasklet_ 














程序 HI SOFTIRQ 在 所 有 其 他 处 理 程 序 之 前 执行 ， 

















作 延 迟 时 间 太 长 可 能 损害 音频 输出 的 音质 。 
































发 生 ， 而 无 须 频 索 轮 询 。 进 程 在 等 待 期 间 



























































dl 








于 设备 驱动 程序 ， 如 第 6 章 所 示 。 





typedef struct _ wait_ queue head wait _ queue head t; 


以 在 中 断 时 修改 ， 在 操作 队列 之 前 必须 获得 一 个 自 旋 锁 1ock《〈 人 参见 第 5 章 ) 。 





























typedef struct _ wait queue wait queue t; 


构 ， 即 队列 。 
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口 flags 的 值 或 者 为 WO_FLAG_EXCLUSTVE， 或 者 为 0， 当 前 没有 定义 其 他 标志 。WwQ_FLAG_EXCLUSTVE 
表示 等 待 进程 想 要 被 独占 地 唤醒 〈 稍 后 将 详细 讲述 ) 。 
口 brivate 是 一 个 指针 ， 指 Pe oe de 该 变量 本 质 上 可 以 指向 任意 的 私有 
数据 ， 但 内 核 中 只 有 很 少 情况 下 才 这 么 用 ， 因 此 这 里 不 会 详细 讲述 这 种 情形 。 
口 调用 func， 唤 醒 等 竺 进程。 
D task_list 用 作 一 个 链表 元 素 ， 用 于 将 wait_aueue _t 实 例 放置 到 等 待 队列 中 。 
等 待 队列 的 使 用 分 为 如 下 两 部 分 。 
(D 为 使 当前 进程 在 一 个 等 待 队列 中 睡眠 ， 需 要 调用 wait_event 函 数 〈 或 某 个 等 价 函数 ， 在 下 文 
讨论 )。 进 程 进 入 睡眠 ， 将 控制 权 释放 给 调度 器 。 
内 核 通 常会 在 向 块 设备 发 出 传输 数据 的 请 求 后 ， 调 用 该 函数 。 因 为 传输 不 会 立即 发 生 ， 而 在 此 期 
间 又 没有 其 他 事情 可 做 ， 所 以 进程 可 以 睡眠 ， 将 CPU 时 间 让 给 系统 中 的 其 他 进程 。 
(2) 在 内 核 中 男 一 处 , 就 我 们 的 例子 而 言 , 是 来 自 块 设备 的 数据 到 达 后 , 必须 调用 wake_up 函 数 ( 或 
某 个 等 价 函 数 ， 将 在 下 文 讨论 〉 来 唤醒 等 待 队 列 中 的 睡眠 进程 。 


UUUwait_eventUOUOUOUOUOUOUOU0O000D0OD0DU wake up 
山口 


2. 使 进程 睡眠 
adqd_wait_queue 子 数 用 于 
委托 给 __adq_wait_queue: 


<wait.h> 
static inline void _ adqd wait queue (wait_ queue head t *head, wait queue 七 *new) 


上 




































































































































































































































































































































































将 一 个 进程 增加 到 等 待 队 列 ， 该 函数 在 获得 必要 的 自 旋 锁 后 ， 将 工作 


list_ add(&new->task_list, &head->task_ list); 
J 


在 将 新 进程 统计 到 等 待 队列 时 ， 除 了 使 用 标准 的 1ist_adq 链 表 函 数 ， 没 有 其 他 工作 需要 做 。 
内 核 还 提供 了 adq_wait_queue_exclusive 函 数 。 它 的 工作 方式 与 aqq_wait_queue 相 同 ， 但 半 
进程 插入 在 队列 尾部 ， 并 将 其 标志 设置 为 wo_EXcLUSIVE 〈 该 标志 的 语义 在 下 文 讨论 ) 

在 等 待 队 列 上 睡眠 的 另 一 种 方法 是 prepare_to_wait。 除 了 adq_wait_cueue 需 要 的 参数 
之 外 ， 


kernel/wait.c 
void fastcall 
prepare_ to wait (wait _ queue head t *q, wait queue 七 *wait, int state) 






































ER 





































































































unsigned long flags; 


wait->flags &= ~WQO_FLAG EXCLUSIVE; 

Spin _ lock irqsave(&q->lock, flags); 

if (list empty (&wait->task list)) 
_ adqd wait queue(qgq, wait); 


set_current_state(state); 
spin unlock irqrestore(&q->lock, flags); 


} 
像 在 上 文 讨论 的 那样 ， 调 用 _aqaqa_wait_oueue 之 后 ， 内 核 将 进程 当前 的 状态 设置 为 传递 到 


prepare_to_wait 的 状态 。 
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prepare_to_wait_exclusive 是 一 个 变 体 ， 它 会 设置 WO_FLAG_EXCLUSIVE 标 志 并 将 等 待 队 列 的 
成 员 添 加 到 队列 尾部 。 

下 面 两 个 标准 方法 可 用 于 初始 化 一 个 等 待 队 列 项 。 

(1) init_waitqueue_entry 初 始 化 一 个 动态 分 配 的 wait_queue_t 实 例 : 


<wait.h> 
static inline void init waitqueue entry(wait queue t *qg, 
struct task struct *p) 

















{ 
q->flags = 0; 
qdq->private = p; 
qdq->func = default_ wake function; 


} 

default_wake_function 只 是 一 个 进行 参数 转换 的 前 端 ， 试 图 用 第 2 章 描述 的 try_to_wake_up 
函数 来 唤醒 进程 。 

(2) DEFINE_WAIT 创 建 wait_queue_t 的 静态 实例 ， 它 可 以 自动 初始 化 : 


<wait.h> 
#define DEFINE WAIT(name) \ 







































































wait_ queue t name { \ 
.private = current, \ 
.func = autoremove wake_ function, \ 
.task_ list = LIST HEAD_ INIT( (name) .task_ list), \ 


} 

这 里 用 autoremove_wake_function 来 唤醒 进程 。 该 函数 不 仅 调用 aefault_wake_function， 还 
将 所 属 等 待 队 列 成 员 从 等 待 队列 删除 。 

adq_wait_queue 通 常 不 直接 使 用 。 更 常用 的 是 wait_event。 这 是 一 个 宏 ， 需 要 如 下 两 个 参数 。 

(1) 在 其 上 进行 等 待 的 等 待 队列 。 

(2) 一 个 条 件 ， 以 所 等 待 事件 有 关 的 一 个 C 表 达 式 形式 给 出 。 

这 个 宏 只 确认 条 件 尚 未 满足 。 如 果 条 件 已 经 满足 ， 可 以 立即 停止 处 理 ， 因 为 没什么 可 等 待 的 了 。 
主要 的 工作 委托 给 _wait_event: 
























































































































































} 
finish wait(&wq, & wait); 
} while (0) 


在 用 DEFINE_WAIT 建 立 等 待 队 列 成 员 之 后 ， 这 个 宏 产 生 了 一 个 无 限 循 环 。 使 用 prepare_to_wait 
使 进程 在 等 待 队列 上 睡眠 。 每 次 进程 被 唤醒 时 ， 内 核 都 会 检查 指定 的 条 件 是 否 满 足 ， 如 果 条 件 满 足 则 
退出 无 限 循环 。 和 否则 ， 将 控制 转交 给 调度 器 ， 进 程 再 次 睡眠 。 
很 重要 的 一 点 是 ，wait_event 和 wait_event 痢 实现 为 宏 , 这 可 以 用 标准 C 表 达 式 来 指定 条 件 
于 C 语 言 不 文 持 任何 像 高 阶 函 数 之 类 的 时 比特 性 ， 如 果 使 用 常规 的 函数 ， 这 种 行为 是 不 可 能 的 (3 


<wait.h> 
#define _ wait event (wgq, condition) \ 
do { \ 
DEFINE WAIT(_ wait); \ 
NR 
EO (7 \ 
prepare_ to wait(&wq, & wait, TASK _ UNINTERRUPTIBLE); N 
if (condition) \ 
break; \ 
schedule(); \ 
\ 
\ 
































































































































Mm 。 
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少 会 非常 笨拙 〉。 

在 条 件 满足 时 ，finish_wait 将 进程 状态 设置 回 TASK_RUNNING， 并 从 等 待 队 列 的 链表 移 除 对 应 
的 项 。® 
除了 wait_event 之 外 ， 内 核 还 定义 了 其 他 几 个 函数 ， 可 以 将 当前 进程 置 于 等 待 队 列 中 。 其 实现 


实际 上 等 同 于 sleep_on: 
































































































































<wait.h> 

#define wait event interruptible(wq, condition) 

#define wait event timeout(wq, condition, timeout) { ... } 

#define wait event interruptible timeout(wq, condition, timeout) 

口 wait_event_interruptible 使 用 的 进程 状态 为 TASK_INTERRUPTIBLE。 因 而 睡眠 进程 可 以 通 





过 接收 信号 而 唤醒 。 
口 wait_event_timeout 等 待 满足 指定 的 条 件 , 但 如 果 等 待 时 间 超 过 了 指定 的 超时 限制 ( 按 jiffies 
指定 ) 则 停止 。 这 防止 了 进程 永远 睡眠 。 
口 wait_event_interruptible_timeout 使 进程 睡眠 ， 但 可 以 通过 接收 信号 唤醒 。 它 也 注册 了 
一 个 超时 限制 。 从 内 核 采 用 的 命名 方式 来 看 ， 一 般 不 会 有 出 人 意料 之 处 ! 
此 外 , 内核 还 定义 了 若干 废弃 的 函数 (sleep_on、sleep_on timeout、interruptible sleep_on 
和 interruptible_sleep_on_timeout)， 这 些 不 应 该 在 新 的 代码 中 继续 使 用 。 保 留 这 些 函 数 ， 主 要 
是 出 于 兼容 性 的 目的 。 

















































































































































































































3. 唤醒 进程 

内 核定 义 了 一 系列 宏 ， 可 用 于 唤醒 等 等 队列 中 的 进程 。 它 们 基于 同一 个 函数 : 
<wait.h> 
#define wake_ up (x) _ wake up (x, TASK_ UNINTERRUPTIBLE | TASK_INTERRUPTIBLE, 1, NULL) 
#define wake up_nr(x, nr)__ wake up (x, TASK UNINTERRUPTIBLE | TASK_INTERRUPTIBLE, nr, NULL) 
#define wake up_all (x) _ wake up (x, TASK UNINTERRUPTIBLE | TASK_INTERRUPTIBLE, 0, NULL) 
#define wake up_interruptible (x) __ wake up (x, TASK INTERRUPTIBLE, 1, NULL) 
#define wake up_interruptible nr(x, nr) _ wake up(x, TASK_ INTERRUPTIBLE, nr, NULL) 
#define wake up_interruptible all (x) __ wake up (x, TASK_ INTERRUPTIBLE, 0, NULL) 

在 获得 了 用 于 保护 等 待 队 列 首部 的 锁 之 后 ，_wake_up 将 工作 委托 给 _wake_up_common。 




















kernel/sched.c 

static void _ _ wake up_ common (wait_ queue head t *q, unsigned int mode, 
int nr_ exclusive, int sync, void *key) 

{ 


wait_ queue 七 *curr, *next; 














G 用 于 选 定 等 竺 队列， 而 mode 指 定 进 程 的 状态 ， 用 于 控制 唤醒 进程 的 条 件 。 nr_exclusive 表 示 
将 要 唤醒 的 设置 了 wo_FLAG_EXCLUSIVE 标 志 的 进程 的 数目 。 
内 核 接 下 来 遍历 睡眠 进程 ， 并 调用 其 唤醒 函数 func: 


kernel/sched.c 
list_for each safe(curr, next, &q->task list, task list) { 
unsigned flags = curr->flags; 



























































if (curr->func(curr, mode, sync, key) && 
(flags & WO_FLAG EXCLUSIVE) && !--nr_ exclusive) 




















站 地 








但 由 于 finished_wait 可 能 从 许多 处 调用 ， 此 处 需 谨慎 ， 以 防 进程 已 经 被 唤醒 函数 从 队列 移 除 。 内 核 设法 谨 
操作 链表 的 元 素 ， 保 证 一 切 都 正确 运作 。 
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70 0010 0000 
break; 
} 

} 

这 里 会 反复 扫描 链表 ， 直 至 没有 更 多 进程 需要 唤醒 ， 或 已 经 唤醒 的 独占 进程 的 数目 达到 ] 
nr_exclusive。 该 限制 用 于 避免 所 谓 的 0 D (thundering herd) 问题 。 如 果 几 个 进程 在 等 待 独占 访问 
某 一 资源 ， 那 么 同时 唤醒 所 有 等 待 进程 是 没有 意义 的 ， 因 为 除了 其 中 一 个 之 外 ， 其 他 进程 都 会 再 次 睡 
眼 。 nr_exclusive 推 广 了 这 一 限制 。 

最 常 使 用 的 wake_up 函 数 将 nr_exclusive 设 置 为 1， 确 保 只 唤醒 一 个 独占 访问 的 进程 。 

回想 上 文 ， We_FLAG_EXCLUSIVE 进 程 被 添加 在 等 待 队 列 的 尾部 。 这 种 实现 确保 在 混合 访问 类 型 的 
队列 中 ， 首 先 唤 醒 所 有 的 普通 进程 ， 然 后 才 考 虑 到 对 独占 进程 的 限制 。 

如 果 进 程 在 等 待 数据 传输 的 结束 ， 那 么 唤醒 等 竺 队列 中 所 有 的 进程 是 有 用 的 。 这 是 因为 儿 个 进程 
的 数据 可 以 同时 读 取 ， 而 互 不 干扰 。 

14.4.2 ”完成 量 

完成 量 与 第 $ 章 讨论 的 信号 量 有 些 相似 ， 但 是 基于 等 待 队列 实现 的 。 我 们 感 兴 趣 的 是 完成 量 的 接 
口 。 场 景 中 有 两 个 参与 者 : 一 个 在 等 待 某 操作 完成 ， 而 另 一 个 在 操作 完成 时 发 出 声明 。 实 际 上 ， 这 已 
经 被 简化 过 了 : 可 以 有 任意 数目 的 进程 等 待 操作 完成 。 a 二 1 、，。 内 














核 使 





] 了 下 述 数 据 结构 : 


<completion.h> 


struct completion { 




















unsigned int done; 




















wait queue head t wait; 
3 
可 能 在 某 些 进程 开始 等 待 之 前 , 事件 就 已 经 完成 , done 
是 一 个 标准 的 等 待 队 列 ， 等 待 进程 在 队列 上 睡眠 。 











该 数据 结 








进程 可 以 






























































<completion.h> 
void wait_for completion(struct completion *); 
int wait_ for completion interruptible(struct completion *x); 
unsigned long wait_ for completion timeout(struct completion *x, 
unsigned long timeout); 
unsigned long wait_ for completion interruptible timeout( 


口 通常 进程 在 等 


struct completion *x, 
此 外 还 提供 了 如 下 几 个 改进 过 的 变 体 。 
待 事件 的 完成 时 处 于 不 可 中 断 状态 ， 但 如 














回 0。 


口 wait_for_completion timeout 等 待 一 
H 了 这 一 设置 ， 
则 函数 返 


位 )， 如 果 等 
超时 之 前 事件 已 经 完成 ， 





竺 时间 超 上 


书 wait_for_completion 添 加 到 等 


请 求 被 内 核 的 某 些 部 分 处 理 





待 队列 ， 进 程 



































init_completion 初 始 化 一 个 动态 分 配 的 completion 实 例 , 而 DE 
构 的 静态 实例 。 











来 处 
































E 其 中 等 待 〈 以 独占 曙 





。 这 隙 数 需 要 一 个 completion 实 例 作为 参数 : 











interruptible， 可 以 改变 这 一 设置 


























口 























则 取消 等 待 。 
剩余 的 时 间 ， 


个 完成 事 4 





unsigned long timeout); 
































E 肛 状态 ) 






































牛 发 生 ， 但 提供 了 超时 设置 
这 有 助 于 防止 无 限 等 待 
否则 返回 0。 


E 这 种 情形 。 这 将 在 下 文 讨论 。wait 
CLARE_COMPLETION 宏 用 来 建立 








» 直 合 














果 使 用 wait_for_completion 
。 如 果 进程 被 中 断 ， 该 函数 返回 -ERESTARTSYS， 


否则 返 


(以 jiffies 为 单 
一 事件 。 如 果 在 
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口 wait_for_completion interruptible timeout 是 前 两 种 变 体 的 组 合 。 

在 请 求 由 内 核 的 另 一 部 分 处 理 之 后 ， 必 须 调用 complete 或 complete_al1 来 唤醒 等 待 的 进程 。 因 
为 每 次 调用 只 能 从 完成 量 的 等 待 队 列 移 除 一 个 进程 ， 对 n 个 等 待 进程 来 说 ， 必 须 调用 该 函数 n 次 。 男 一 
方面 ，complete_al1 将 唤醒 所 有 等 待 该 完成 的 进程 。 complete_ang_exit 是 一 个 小 的 包装 器 ， 首 先 
调用 complete， 接 下 来 调用 ao_exit 结 束 内 核 线程 。 


<completion.h> 
void complete(struct completion *); 
void complete all(struct completion *); 





























































































































kernel/exit.c 
NORET_TYPE void complete and exit(struct completion *comp, long code); 


complete、complete_all 和 complete_and_exit 需 要 一 个 指向 struct completion 实 例 的 指针 
作为 参数 ， 标 识 所 述 的 完成 量 。 
struct completion 中 qone 的 语义 是 什么 呢 ? 每 次 调用 complete 时 ， 该 计数 器 都 加 1， 仅 当 aone 
等 于 0 时 ，wait_for 系 列 函 数 才 会 使 调用 进程 进入 睡眠 。 实 际 上 ， 这 意味 着 进程 无 须 等 待 已 经 完成 的 
事件 。complete_al1 的 工作 方式 类 似 ， 但 它 会 将 计数 器 设置 为 最 大 可 能 值 (UINT_MAX/2， 这 是 无 符 
号 整数 最 大 值 的 一 半 ， 因 为 计数 器 也 可 能 取 负 值 )， 这 样 ， 在 事件 完成 后 调用 wait_ 系 列 函 数 的 进程 将 
永远 不 会 睡眠 。 
14.4.3 ”工作 队列 
工作 队列 是 将 操作 延期 执行 的 另 一 种 手段 。 因 为 它们 是 通过 守护 进程 在 用 户 上 下 文 执行 ， 函数 可 
以 睡眠 任意 长 的 时 间 ， 这 与 内 核 是 无 关 的 。 在 内 核 版 本 2.5 开 发 期 间 ， 设 计 了 工作 队列 ， 用 以 蔡 换 此 前 
使 用 的 keventg 机 制 。 
每 个 工作 队列 都 有 一 个 数组 ， 数 组 项 的 数目 与 系统 中 处 理 器 的 数目 相同 。 每 个 数组 项 都 列 出 了 将 
延期 执行 的 任务 。 
对 每 个 工作 队列 来 说 ， 内 核 都 会 创建 一 个 新 的 内 核 守 护 进程 ， 延 期 任务 使 用 上 文 描述 的 等 待 队列 
机 制 ， 在 该 守护 进程 的 上 下 文中 执行 。 
新 的 工作 队列 通过 调用 create_workaueue 或 create_workqueue_singlethread 国 数 来 创建 。 前 
一 个 函数 在 所 有 CPU 上 都 创建 一 个 工作 线程 ， 而 后 者 只 在 系统 的 第 一 个 CPU 上 创建 一 个 线程 。 两 个 函 
数 在 内 部 都 使 用 了 __create workqueue key: © 


kernel/workqueue.c 
struct workqueue_struct * create workqueue(const char *name, 
int singlethread) 


name 参 数 表示 创建 的 守护 进程 在 进程 列表 中 显示 的 名 称 。 如 果 singlethread 设 置 为 0， 则 在 系统 
的 每 个 CPU 上 都 创建 一 个 线程 ， 否 则 只 在 第 一 个 CPU 上 创建 线程 。 

所 有 推送 到 工作 队列 上 的 任务 ， 都 必须 打包 为 work_struct 结 构 的 实例 ， 从 工作 队列 用 户 的 角度 
来 看 ， 该 结构 的 下 述 成 员 是 比较 重要 的 : 

<workqueue.h> 


struct work_struct; 
typedef void (*work_ func 七 ) (struct work_ struct *work); 





































































































































































































































































































































































































































































































G@) 另 一 种 变 体 是 create_freezable_workqueue， 用 于 创建 能 够 与 系统 休眠 进行 恨 好 协作 的 工作 队列 。 由 于 我 并 不 
讨论 与 电源 管理 相关 的 任何 机 制 ， 当 然 也 不 会 进一步 讨论 该 选项 。 另 外 要 注意 到 ，__create_workqueue 的 原型 是 
简化 的 ， 没 有 包含 锁 深 度 管理 和 电源 管理 有 关 的 参数 。 
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struct work_struct { 


atomic long tt data; 
struct list head entry; 


work_func_t 


} 























funec:; 
















































































entry 上 照例 用 作 链 表 元 素 ， 用 于 将 儿 个 work_struct 实 例 群集 到 一 个 链表 中 。func 是 一 个 指针 ， 
指向 将 延期 执行 的 函数 。 该 函数 有 一 个 参数 ， 是 一 个 指针 ,指向 用 于 提交 该 工作 的 work_struct 实 例 。 
这 使 得 工作 函数 可 以 获得 work_struct 的 aata 成 员 ， 该 成 员 可 以 指向 与 work_struct 相 关 的 任意 
数据 。 
为 什么 内 核 使 用 atomic_long_t 作 为 指向 任意 数据 的 指针 的 数据 类 型 ， 而 不 是 通常 的 void*? 实 
际 上 ， 此 前 的 内 核 版 本 定义 的 work_struct 如 下 : 
<workqueue.h> 
struct work_ struct { 
void (*func) (void *); 
void *data; 
De 
正如 所 料 ，gqata 是 用 指针 表示 的 。 但 内 核 使 用 了 一 点 小 技巧 ， 显 然 有 点 近乎 于 “及 脏 ”， 以 便 将 
更 多 信息 放 入 该 结构 ， 而 又 不 付出 更 多 代价 。 因 为 指针 在 所 有 支持 的 体系 结构 上 都 对 齐 到 4 字 节 边界 ， 
而 前 两 个 比特 位 保证 为 0。 因 而 可 以 “滥用 ”这 两 个 比特 位 ， 将 其 用 作 标 志 位 。 剩 余 的 比特 位 照旧 保 
存 指 针 的 信息 。 以 下 的 宏 用 于 屏蔽 标志 位 : 


延迟 ] 


确保 对 该 比特 位 的 修改 不 会 
向 一 个 现 


delayed。 第 一 个 函数 




















<workqueue.h> 
define WORK_STRUCT 
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LAG_ MASK 
define WORK_STRUCT_ WO_DATA_ MASK 


(3UL) 


























工作 项 











No 











为 简化 声明 和 填充 该 弓 








有 两 





kernel/workqueue.c 


int fastcall queue work(struct workqueue_ struct *wgq, 


它 将 work 添 加 到 工作 队列 wa，work 本 吴 所 指定 的 工作 ， 其 执行 时 间 待 定 《 在 调度 器 选择 该 





进程 时 执行 )。 
为 确保 排队 的 工作 项 将 在 提交 后 指定 的 一 段 时 间 内 执行 ， 需要 扩展 work_struct， 添 加 一 个 定时 








当前 只 定义 了 一 个 标志 : 


带 》 


甫 助 安 work_pendqing (work) 
并 发 问题 。 





站 


WORK 


(~WORK_STRUCT_FLAG_MASK) 








STRUCT_PENDING 用 来 查找 当前 





是 否 有 待 决 (该 标志 位 


























来 检查 该 标志 位 。 





请 注意 











者 构 的 











显然 的 解决 方案 如 下 : 


<workqueue.h> 
struct delayed work 


{ 


静态 
存 的 work_struct 实 例 提供 一 个 延 
种 方法 可 以 向 一 个 工作 队列 添加 work_struct 实 例 ， 
的 原型 如 下 : 


(性 了 了 


实例 所 需 的 工作 ， 内 核 提 供 



































struct work_struct work; 
struct timer_ list timer; 


二 
aqueue_dqelavyed_work 月 











月 于 回 了 





[ 作 队 列 提 交 delayeqd_work 实 例 。 


J INIT_ WORK (work， 
期 执行 函数 。 如 果 需 要 data 成 员 ， 则 需要 稍 后 设置 。 


























， 将 data 设 置 为 




















func) 


























它 确保 在 延期 工作 执行 之 前 ， 





宏 ， 


位》 的 可 


类 型 ， 





它 


分 别 是 queue_work 和 queue work_ 


struct work_struct *work) 


a 


守护 


| 





| 
[Tt 
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少 会 经 过 


kernel/workqueue.c 




















delay 指 定 的 一 段 时 间 (以 jiffies 为 单位 )。 


Int fastcall queue delayed work(struct workqueue struct *waq, 
struct delayed work *dwork, unsigned long delay) 


该 函数 首先 创建 一 个 内 核定 时 器 ， 它 将 在 delayed jiffies 之 内 超时 。 相 关 的 处 下 




















queue_work， 按 通常 的 方式 将 了] 








[ 作 添 加 到 工作 队列 。 

















程序 接 下 来 使 用 

















内 核 创 建 了 一 个 标准 的 工作 队列 ， 称 为 events。 内 核 的 各 个 部 分 中 ， 凡 是 没有 必要 创建 独立 的 














工作 队列 者 ， 均 可 使 
不 会 详细 讨论 其 实现 : 


kernel/workqueue.c 














该 队列 。 内 核 提 供 了 以 下 两 个 函数 ， 可 

















int Schedule_work (Struct work_ struct *work) 
int schedule delayed work(struct delay work *dwork, unsigned long delay) 


14.5 


小 结 


] 于 将 新 的 工作 添加 该 标 ?Y 














吗 


村 队列 ， 这 归 























内 核 可 以 用 同步 或 异步 方式 激活 。 上 月 
读者 看 到 了 第 二 种 激活 内 核 的 方式 ， 即 从 硬件 使 











1 一 章 讨 论 了 如 何 用 系统 调 



































流 处 理 。 


























(通常 在 中 断 上 下 文 之 外 执行 )。 














内 核 提供 了 一 些 方法 来 将 操作 延迟 到 未 来 的 
件 IRQ 的 软件 等 价 物 , tasklet 基 于 该 机 制 。 虽 然 它们 
然而 对 等 待 队列 及 其 衍生 机 制 而 言 ， 




















内 核 必须 为 IRQ 提 供 服务 例 程 ， 而 
使 这 些 处 理 程序 的 执行 尽 可 能 快速 ， 因 而 通常 将 

















As | 
氏 理 











服务 例 

















在 便 件 想 要 通知 内 核 一 些 情况 时 ， 可 以 使 用 中 断 ， 而 中 断 的 物 到 
可 能 性 之 后 ， 我 们 分 析 了 内 核 用 于 





用 中 断 触 发 来 异步 激活 内 核 。 


用 来 同步 地 激活 内 核 ， 而 本 章 中 ， 





实现 有 很 多 方法 。 在 讨论 了 各 种 
中 断 的 通用 数据 结构 ， 并 看 到 了 如 














可 对 不 同 的 IRQ 类 型 实现 电 




















程 即 ISR 的 实现 要 颇 为 谨 ' 
[ 作 划 分 为 两 部 分 ， 即 快速 的 上 半 部 和 低速 的 下 半 部 











真 。 最 重要 的 一 点 是 ， 必 须 





























mm 




















时 刻 执行 ， 本章 讨论 了 相应 的 可 能 方法 : 软 中 
能 够 使 内 核 将 工 


作 





断 是 便 














:迟到 稍 后 执行 , 但 不 允许 睡眠 。 








重 眠 是 允许 的 ， 本 章 也 考察 了 相关 的 问题 。 





第 15 章 
时 间 


ra 


已 


理 











到 ， 别 的 领域 ， 即 DDDD 
期 任务 给 出 了 一 些 提示 《〈 例 如， 处理 









































目前 为 止 ， 本 书 讨论 过 的 将 工作 延期 到 未 来 某 个 时 刻 处 理 
DO000000 。 已 经 讨论 过 各 利 
软 中 断 的 tasklet)， 但 这 些 者 





















































时 间 间 隔 之 后 ， 由 内 核 来 执行 延期 操 

























































































方面 最 简单 的 一 项 















































的 所 有 方法 ， 都 没有 涵盖 一 个 特 
不 同 的 变 体 ， 当 然 对 
不 能 指定 在 某 个 精确 的 时 
余 就 是 超时 的 实现 ， 即 内 核 代 表 


如 何 执行 延 
刻 或 确定 的 
和 户 





















































层 进 程 等 待 特定 的 一 段 时 间 ， 等 待 某 个 事件 发 生 ， 例 如 ， 在 一 个 重要 的 操作 进行 前 等 待 10 秒 ， 此 期 间 
是 取消 操作 的 最 后 时 机 ， 如 果 用 户 按 下 键 ， 则 表示 取消 操作 。 其 他 用 法 广泛 应 用 在 各 种 用 户 应 用 程序 
内 核 还 对 自身 的 各 种 任务 使 用 定时 器 ,例如 在 设备 驱动 程序 与 相关 的 硬件 通信 时 ,使 用 的 协议 通 
常 带 有 按时 间 先 后 定义 的 次 序 。TCP 实 现 中 ， 就 使 用 了 很 多 定时 器 来 指定 等 待 的 超时 时 间 。 
根据 所 需 执行 的 工作 ， 定 时 器 需要 提供 不 同 的 特征 ， 特 别 是 最 大 可 能 的 分 辩 率 方面 。 本 章 讨论 
Linux 内 核 提供 的 各 种 可 能 方案 。 
15.1 概述 
首先 ， 概 述 一 下 即将 详细 讲述 的 这 个 子 系 统 。 
15.1.1 定时 器 的 类 型 





在 内 核 版 本 2.6 开 发 期 间 ， 内 核 的 时 间 子 系统 有 了 惊人 的 发 























统 只 包括 现在 所 谓 的 低 分 辩 率 定时 器 。 本 质 上 ， 低 分 辩 率 
期 发 生 的。 可 以 预定 在 某 个 局 





隔 一 定时 间 定 











时 




















要 来 自 于 如 下 两 方面 。 
口 电力 有 限 的 设备 〈 如 笔记 本 电脑 、 
如 果 运 行 一 个 周期 性 的 时 钟 ， 


























嵌入 式 设备 等 在 无 事 可 做 时 ， 
那么 在 几乎 无 事 可 做 时 ， 





器 是 





绕 时 钟 周 


期 激活 指定 的 事件 。 扩 展 这 个 相对 











如 果 该 周期 信号 没有 用 户 ， 它 本 质 























要 不 时 地 从 较 低 














口 面向 多 媒体 的 应 
中 的 跳跃 。 这 人 迫使 我 人 




















的 计时 功能 





























为 找到 所 有 接触 时 间 管 理 
案 )， 要 花费 很 多 年 ， 提 出 很 多 内 核 
的 定时 器 。 

DOD0O000D0 《classical timer ): 

















FJ。 


在 内 核 的 最 初版 本 ， 


kernel/timer.c 中 。 提 供 的 典型 分 辨 率 为 4 毫秒 ， 但 实际 上 取决 于 计算 机 时 钟 中 断 运 行 的 频 








户 ) 都 同意 的 


， 例 如 ， 为 避免 视频 


展 。 在 最 初 的 发 布 版 中 ， 定 时 器 子 系 

















需要 使 用 尽 
也 仍然 必须 提供 时 钟 的 周期 信号 
上 就 不 需要 运行 。 然 而 ， 为 实现 该 时 钟 周 
功 耗 状态 进入 到 较 高 功 耗 状 态 。 
用 程序 需要 非常 精确 
门 提高 现 有 的 分 辩 率 。 
的 开发 者 〈 和 用 





期 展 
简单 的 框架 的 压力 ， 主 


P 的 跳 








当前 的 状态 是 很 不 





\ 同 寻常 的 ， 内 核 






































的 ， 该 周期 是 每 








可 能 少 的 电能 。 
但 


系统 需 








期 信号 ， 


贞 ， 或 音频 回 





放 








良好 的 解决 方案 (事实 上 有 很 多 此 类 方 
前 支持 两 类 差别 很 大 


就 已 经 提供 了 此 类 定时 器 。 其 实现 位 于 
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率 。 经 典 定时 器 也 称 作 口 口 口 口 low-resolution) 定 时 器 ,或 0 口 口 口 (timer wheel) 定时 器 。 
口 对 许多 应 用 程序 来 说 ， 特 别 是 面向 媒体 的 应 用 ， 儿 毫秒 的 定时 器 分 辩 率 不 够 用 。 实 际 上， 最 
新 的 硬件 提供 了 精确 得 多 的 计时 手段 ， 可 以 达到 纳 秒 级 的 分 辩 率 。 在 内 核 版 本 2.6 开 发 期 间 ， 
添加 了 一 个 额外 的 定时 器 子 系统 ， 可 以 利用 这 样 的 高 精度 定时 器 资源 。 新 的 子 系统 提供 的 定 
时 器 ， 通 常 称 为 D D0 D0 0 0 0 0 (high-resolution timer)。 
高 分 辩 率 定时 器 的 一 部 分 代码 总 是 被 编译 到 内 核 中 ， 但 只 有 设置 了 编译 选项 HIG_RES_ 
TIMERS， 才 能 提供 比 低 分 辨 率 定 时 器 更 高 的 精度 。 高 分 辩 率 定时 器 引入 的 框架 ， 由 低 分 辨 率 
定时 器 重用 《实际 上 ， 低 分 辨 率 定 时 器 是 基于 高 分 辨 率 定 时 器 的 机 制 而 实现 的 ) 。 
经 典 定时 器 是 由 固定 的 栅栏 所 框 定 的 ， 而 高 分 辨 率 时 钟 事 件 在 本 质 上 可 以 发 生 在 任意 时 刻 ， 参 见 
图 15-1。 除 非 启 用 了 动态 时 钟 特性 ， 否 则 很 可 能 时 钟 周 期 信号 发 出 ， 但 实际 上 并 没有 事件 到 期 。 与 此 
相反 ， 高 分 辨 率 时 钟 信号 只 在 某 些 事件 可 能 发 生 时 ， 才 会 发 出 。 
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时 间 图 有 事件 发 生 的 时 钟 周 期 信号 
一 








1 没有 事件 发 生 的 时 钟 周期 信号 








1。。 1 国 ... 上 .| 是 
Jiffie 1234 1235 1236 1237 1238 1239 
图 15-1 ， 低 分 辩 率 定时 器 和 高 分 辩 率 定时 器 的 比较 


为 什么 开发 者 不 选择 看 起 来 更 显然 的 路 径 去 改进 现存 的 定时 器 子 系统 , 而 开发 一 个 全 新 的 呢 ? 实 
际 上 ， 有 人 试图 采用 该 策略 ， 但 旧 的 定时 器 子 系统 成 熟 而 健壮 的 结构 ， 使 得 要 在 改进 的 同时 维持 其 效 
率 且 不 引入 新 的 问题 ， 并 不 是 特别 容易 。 对 此 问题 的 一 些 深入 思考 ， 可 以 在 Documentation/ 
hrtimers .txt 中 找到 。 

除了 分 辨 率 之 外 ， 内 核 在 术语 上 还 会 区 分 下 面 两 种 定时 器 。 

口 超时 : 表示 将 在 一 定时 间 之 后 发 生 的 事件 ， 但 可 以 且 通 常 都 会 在 发 生 之 前 取消 。 例 如 ， 考 虑 

网 络 子 系统 等 待 在 一 定时 间 内 即将 到 达 的 分 组 。 为 处 理 这 种 情况 ， 需 要 设置 一 个 定时 器 ， 在 
预定 的 时 间 期 限 结束 时 到 期 。 由 于 分 组 通常 都 会 按时 到 达 ， 定 时 器 在 实际 过 期 之 前 被 删除 的 
可 能 性 很 大 。 此 外 ， 分 辨 率 对 此 类 定时 器 来 说 ， 不 是 很 关键 。 在 内 核 允许 分 组 的 确认 在 10 秒 
内 发 送 的 时 候 ， 它 实际 上 并 不 在 意 超时 到 底 是 发 生 在 10 秒 ， 还 是 10.001 秒 。 

口 定时 器 : 用 于 实现 时 序 。 例 如 ， 声 卡 驱 动 器 可 能 想 要 按 很 短 的 周期 间隔 向 声卡 发 送 一 些 数 据 。 

此 类 定时 器 通常 都 会 到 期 ， 而 且 与 超时 类 定时 器 相 比 ， 需 要 高 得 多 的 分 辨 率 。 

图 15-2 给 出 了 时 间 子 系统 的 实现 所 采用 的 各 种 基础 组 件 的 一 个 概述 。 因 为 是 概述 ， 所 以 不 是 很 精 
确 ， 只 是 给 出 了 时 间 测 算 领 域 所 涉及 的 各 种 事项 的 一 个 概览 ， 并 对 各 种 组 件 之 间 的 交互 方式 做 了 一 些 
说 明 。 更 多 细节 将 在 下 文 讨论 。 

真正 的 便 件 在 最 底层 。 每 个 典型 的 系统 都 有 几 个 设备 ， 通 常 由 时 钟 芯片 实现 ， 提 供 了 定时 功能 ， 
可 以 用 作 时 钟 。 实 际 可 用 的 硬件 取决 于 其 体 的 体系 结构 。 例 如 ，IA-32 和 AMD64 系 统 有 一 个 PIT 
(programmable interrupt timer， 可 编程 中 断 计 时 器 ， 由 8253 蕊 片 实现 )， 这 是 一 个 经 典 的 时 钟 源 ， 分 辩 
率 和 稳定 性 一 般 。 在 上 文 讨 论 IRQ 处 理 时 提 到 了 CPU 局 部 的 APIC (advanced programmable interrupt 
controller， 高 级 可 编程 中 断 控 制 嚣 )， 它 的 分 辨 紊 和 稳定 性 要 好 得 多 。APIC 适 合 充 当 高 分 辨 率 时 间 源 ， 
而 PIT 只 适用 于 低 分 辨 紊 定时 器 。 





， 高 分 辩 率 事件 
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时 钟 源 




















时 间 和 时 钟 寻 
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体系 结构 相关 代码 

















; 
| 








Soe eee! 








硬件 时 
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eB 本 
然 需要 


钟 芯片 














硬件 
硬件 时 钟 芯 





片 提供 了 





图 15-2 ”构成 


per-CPU 


高 分 辩 率 


时 间 子 系统 的 各 个 组 件 








体系 结构 相关 代码 来 编程 控制 ， 但 [ 











周期 
是 周期 性 事 
则 时 刻 的 事 























生 的 事件 不 怎么 多 





牛 的 基础 。 
牛 。 与 周 





个 通用 接 








口 。 本 质 上 ， 

















但 时 











高 分 关 








和 # 率 定时 器 机 人 制 基于 时 钟 事件 ， 














而 低 








以 直接 基于 
的 任务 。 
(1) 处 理 


























进程 。 


氏 分 辨 率 时 钟 ， 








全 局 jiffies 计 数 器 。 
它 表示 了 一 种 特别 简单 的 时 间 
(2) 进行 各 进程 统计 。 这 也 包括 了 对 经 册 


15.1.2 ”配置 选项 


内 核 中 不 仅 肋 





| 三 | 
. 




















而 内 核 允许 配置 


内 核 可 以 实 














种 方式 实现 时 ， 到 














动态 时 钟 ”， 它 不 
假定 未 启用 该 特性 。 
现 4 种 计时 方案 
E 解 时 间 相关 代码 的 














根据 两 个 





EE 全 
开口， 





每 个 集合 两 个 成 员 ， 来 计算 4 种 可 能 








Q@ 对 jiffies 值 的 更 
jiffies 值 。 本 章 


@) 习惯 上 ， 也 将 


新 ， 并 不 容易 


会 讨论 jiffies 更 
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或 在 高 


在 低 分 辩 率 和 高 分 辨 率 框架 








分 六 率 时 





人 全 
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个 不 同 〈《 但 有 关 ) 的 定时 子 系统 ， 
期 时 钟 在 内 核 的 整个 生命 周期 内 都 是 活动 的 。 这 在 缺乏 电力 的 系统 上 可 能 是 浪费 ， 
记 本 电脑 或 便携 式 计 算 机 。 如 果 有 











个 周期 性 事件 














该 接口 
守 合 上 述 运 行 计数 器 的 模型 ， 因 
钟 事件 可 以 发 挥 更 强大 的 作 


期 性 事件 设备 相对 ， 它 们 称 作 刁 
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间 子 系统 之 上 


地 增长 (或 至 4 


的 低 分 辩 率 定时 


在 活 刀 





时 器 机 4 
为 建 。 
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人 利用 了 周期 性 
低 分 辨 率 定 时 


低 分 










辩 认 





的 概览 


口 (clock source abstraction) 为 所 有 


钟 芯 


发 生 





片 提 供 的 运行 计数 器 的 当前 值 。 

而 需要 另 一 个 抽象 , DDDD Cclockevent) 
 。 一些 定时 设备 可 以 提供 
和 触发 设备 (one-shot device)。 


企 任 意 的 非 规 
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器 的 处 理 ， 


)， 那 么 系统 决 不 会 长 
于 这 使 得 定时 器 的 处 理 








期 性 寻 
器 承担 了 如 下 两 个 


一 
眶 站 


总 马 








> 从 内 核 的 大 部 分 看 来 ， 它 是 在 周期 性 增 























而 且 动态 时 钟 特性 会 使 情况 更 为 复杂 。 














时 间 进 入 省 
复杂 化 ， 我 介 
































尽管 这 个 数目 听 起 来 不 大 ， 但 在 许多 任务 根据 选 定 的 配置 可 能 
[ 作 显 oh 图 15-3 综 述 了 可 能 的 





























选择 。 

















之 间 区 分 开 来 ， 


了 该 配置 选项 的 系统 称 为 0D 口 口 (tickless〉 系 统 。 


不 复杂 。 


但 重要 的 是 意识 到 ， 





局 / 


通常 ， 
主要 的 例子 如 笔 
f 电 模式 。 
] 从 现在 开始 





这 种 定时 器 可 以 关联 到 任意 


因 





以 4 


氏 分 辩 











天 | 











为 根据 内 核 的 配置 ， 二 者 都 有 可 


能 更 
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率 和 动态 /周期 时 钟 的 所 有 组 合 都 是 有 效 的， 内 核 都 需要 考虑 。 





高 分 辨 率 动态 时 钟 | 高 分 辨 率 周期 时 钟 














低 分 辨 率 动态 时 钟 | 低 分 辨 率 周 期 时 钟 























图 15-3 ”由 于 高 / 低 分 辨 率 和 动态 /周期 时 钟 引 发 的 计时 方面 的 可 能 配置 


15.2” 低 分 辨 率 定时 器 的 实现 


于 低 分 辩 率 定时 器 在 内 核 中 已 经 存在 多 年 ， 用 于 数 百 处 ,我 们 首先 阐述 其 实现 。 在 下 文中 ， 假 

定 内 核 使 用 周期 时 钟 。 如 果 使 用 了 动态 时 钟 ， 情 况 会 更 为 复杂 ， 将 在 15.5 节 讨论 该 情形 。 

15.2.1 ”定时 器 激活 与 进程 统计 
对 于 定时 器 的 时 间 基 线 , 内 核 会 使 用 处 理 器 的 时 钟 中 断 或 其 他 任何 适当 的 周期 性 时 钟 源 。 在 IA-32 

与 AMD64 系 统 上 ，PIT 或 HPET (High Precision Event Timer， 高 精度 事件 定时 器 ) 可 用 于 该 目的 。 几 

平 所 有 比较 现代 的 此 类 系统 都 具备 HPET， 如 果 HPET 可 用 ， 则 将 优先 采用 。” 中断 将 定期 发 生 ， 刚 好 

是 每 秒 HZ 次 。HzZ 由 一 个 体系 结构 相关 的 预 处 理 器 符号 定义 ， 在 <asm-arch/param.h> 头 文件 中 。 其 值 

可 以 在 编译 时 通过 配置 选项 coNFIG_Hz 来 设置 。 

HZ = 250 用 作 大 多 数 机 器 类 型 的 默认 值 ， 特 别 是 在 普遍 存在 的 IA-32 与 AMD64 体 系 结构 上 。 


OO 
| 
Ooo 人 googogoyowogogognon 
OU 


通常 ， 较 高 的 Hz 值 使 得 系统 具有 更 好 的 交互 性 和 响应 速度 ,特别 是 ， 每 个 时 钟 中 断 时 都 会 调用 调 
度 器 。 缺点 是 ， 因 为 定时 嚣 例 程 调用 得 更 频繁 ， 有 更 多 的 系统 工作 需要 完成 :在 HZ 增高 的 同时 ， 内 核 
的 一 般 性 开销 也 会 随 之 增高 。 这 样 ， 较 大 的 HzZ 值 比较 适合 于 桌面 系统 和 多 媒体 系统 ， 而 较 低 的 Hz 值 更 
适合 于 服务 器 和 批 处 理 机 器 ， 这 种 场合 下 交互 性 属于 次 要 因素 。 

内 核 2.6 系 列 的 早期 版 本 直接 挂钩 到 时 钟 中 断 , 来 开始 定时 器 的 激活 和 进程 的 统计 , 但 随 着 通用 
时 钟 框 架 的 引入 ， 在 一 定 程度 上 又 增加 了 复杂 性 。 图 15-4 提 供 了 IA-32 和 AMD64 机 器 上 情况 的 一 个 

其 他 体系 结构 的 细节 有 所 不 同 ， 但 原理 是 一 致 的 。( 特 定 的 体系 结构 上 进行 处 理 的 方式 ， 通 常 是 
在 time_init 中 设置 ,该 函数 在 系统 启动 时 调用 以 初始 化 基本 的 低 分 状 率 计时 设施 。) 周期 时 钟 设置 
为 每 秒 运 行 HZ 个 周期 。IA-32 将 timer_interrupt 注 册 为 中 断 处 理 程序 ， 而 AMD64 使 用 的 是 
timer_event_interrupt。 这 两 个 函数 都 通过 调用 所 谓 的 全 局 时 钟 (参见 15.3 节 〉 的 事件 处 理 程 
序 ， 来 通知 内 核 中 通用 的 、 体 系 结构 无 关 的 时 间 处 理 层 。 根 据 使 用 的 计时 模型 不 同 ， 会 采用 不 同 的 
处 理 程序 函数 。 无 论 如 何 ， 该 处 理 程 序 都 通过 调用 以 下 两 个 函数 ， 使 得 周期 性 低 分 辨 率 计 时 设施 
全 运作 。 
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G@) 但 可 以 通过 内 核 的 命令 行 选 项 hpet=disable 来 禁用 HPET。 
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IRQ 0 


1A-32 AMD64 








timer event interrupt 





timer interrupt 


do_timer interrupt_ hook 










全 局 时 钟 的 事 
件 处 理 程序 


update process_times 















图 15-4 ”IA-32 和 AMD64 机 器 上 周期 性 低 分 辨 率 时 钟 中 断 的 概述 


口 do_time 负 责 全 系统 范围 的 、 全 局 性 的 任务 ， 更 新 jiffies 值 ， 处 理 进程 统计 。 在 多 处理 器 系统 
上 ， 会 选择 一 个 特定 的 CPU 来 执行 这 两 个 任务 ， 而 不 涉及 其 他 CPU。 

口 update_process_times 需 要 由 SMP 系 统 上 的 每 个 CPU 执行 。 除 了 进程 统计 之 外 ， 它 还 激活 了 

所 有 注册 的 经 典 低 分 辨 率 定 时 器 并 使 之 到 期 ， 并 向 调度 器 提供 时 间 感 知 。 因 为 这 些 主题 都 值 

得 单独 进行 讨论 〈 而 且 与 本 节 其 余 的 内 容 关 系 不 大 )， 所 以 将 在 15.8 节 详细 讲述 。 这 里 我 们 只 

关注 定时 器 的 激活 和 过 期 ， 这 是 通过 调用 run_local_timers 触 发 的 。 该 函数 又 引发 了 软 中 断 
TIMER_SOFTIRQ， 而 其 处 理 程序 函数 负责 运行 低 分 辩 率 定时 器 。 

首先 考虑 do_time。 该 函数 执行 的 工作 如 图 15-5 所 示 。 
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图 15-5”qdo_time 的 代码 流程 图 






















全 局 变量 jiffies_64 (一 个 整 型 变量 , 在 所 有 体系 结构 上 都 是 64 位 ”) 加 1。 这 意味 着 jiffies_64 
确定 了 系统 启动 以 来 时 钟 中 断 的 准确 数目 。 在 停 用 动态 时 钟 时 ， 其 值 会 定期 增加 。 如 果 启 用 了 动态 时 




































































Q 这 在 32 位 处 理 器 上 是 通过 组 合 两 个 32 位 变量 而 做 到 的 。 
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钟 ， 那 么 自 上 次 更 新 以 来 ， 可 能 已 经 过 了 多 个 时 钟 周 期 。 

于 历史 原因 ， 内 核 源 代码 还 包含 了 男 一 个 时 间 基 准 。jiffies 是 一 个 unsigneqd long 类 型 的 变 

量 ， 在 32 位 处 理 器 上 只 有 4 字 节 长 ， 这 对 应 于 32 位 ， 而 不 是 64 位 。 这 会 导致 一 个 问题 。 在 系统 运行 时 

间 比 较 长 之 后 ， 该 计数 器 会 达到 最 大 值 ， 从 而 必须 重 置 为 0。 给 定 计时 器 频率 100 Hz， 该 计数 器 将 在 

不 到 500 天 后 达到 最 大 值 ， 而 对 更 高 的 HZ 值 来 说 ， 时 间 会 更 短 。” 在 使 用 64 位 数据 类 型 时 ， 这 个 问题 

决 不 会 发 生 ， 因 为 10“ 天 的 运行 时 间 毕 竞 是 假想 而 已 ， 即 使 对 Linux 这 样 非常 稳定 的 内 核 也 是 如 此 。 

内 核 使 用 一 种 技巧 ， 来 防止 在 两 个 不 同 的 时 间 基 准 之 间 转 换 时 引入 精度 损失 。jiffies 和 

jiffies_64 的 低 32 位 是 重合 的 ， 指 向 同一 块 内 存 或 同一 个 寄存 器 。 为 达到 这 一 目的 ， 这 两 个 变量 是 

分 别 声明 的 , 但 用 于 联 编 最 终 的 内 核 二 进 制 映像 的 链接 器 脚本 中 ， 指 定 了 jiffies 等 同 于 jiffies_64 

的 低位 4 个 字 节 ， 根 据 底层 体系 结构 的 字 节 序 不 同 ， 这 可 能 是 jiffies_64 的 前 4 个 或 后 4 个 字 节 。 在 

64 位 机 器 上 ， 这 两 个 变量 是 同义词 。 

D000jiffiesjDO00000000jiffiesD000000000000000 
D00000000000015.2.20000 

在 每 个 时 钟 中 断 都 必须 执行 的 其 余 操 作 ， 委 托 给 update_times 进 行 。 

口 update_wall time 更 新 wall time， 它 指定 了 系统 已 经 启动 并 运行 了 多 长 时 间 。 该 信息 也 是 由 
jiffies 机 制 提供 ，wall clock 从 当前 时 间 源 读 取 时 间 ， 并 据 此 更 新 wall clock。 与 jiffies 机 制 相反 ， 
wall clock 使 用 了 人 类 可 读 格 式 〈 纳 秒 ) 来 表示 当前 时 间 。 

口 calc_load 更 新 系统 负载 统计 ， 确 定 在 前 1 分 钟 、$ 分 钟 、15 分 钟 内 ， 平 均 有 多 少 个 就 绪 状 态 的 
进程 在 就 绪 队 列 上 等 待 。 举 例 来 说 ， 该 状态 可 以 使 用 w 命 令 输出 。 


15.2.2 ”处 理 jiffies 


jiffies 提 供 了 内 核 中 一 种 简单 形式 的 低 分 辨 率 时 间 管 理 方 式 。 尽 管 概 念 简单 ， 但 在 读 取 该 变量 的 
值 ， 或 比较 按 jiffies 指 定 的 时 间 时 ， 有 些 问 题 需要 注意 。 
于 jiffies_64 在 32 位 系统 上 是 一 个 复合 变量 ， 它 不 能 直接 读 取 ， 而 只 能 用 辅助 函数 get_ 
jiffies_64 访 问 。 这 确保 在 所 有 系统 上 都 能 返回 正确 的 值 。 
1. 比较 时 间 
为 比较 事件 的 时 序 关 系 ， 内 核 提供 了 几 个 辅助 函数 ， 使 用 这 些 函 数 奉 代 自 行 编写 的 比较 函数 ， 可 
防止 所 谓 的 off-by-one 错 误 (a、b、c 表 示 一 些 事件 的 jiffie 时 间 值 )。 
口 timer_after(a，Db) 返 回 true， 如 果 时 间 a 在 时 间 b 之 后 。time_before(a，b) 返 回 true， 如 果 
时 间 a 在 时 间 b 之 前 ， 读 者 应 该 已 经 猜 到 。 
口 time_after_eq(a，bp) 的 工作 方式 类 似 于 time_after， 但 在 两 个 时 间 相 等 时 也 返回 true。 
time_before_eq(a，b) 是 time_before 的 类 似 变 体 。 
口 time_in_ range(a，b，c) 检 查 时 间 a 是 否 包 含 在 [b，c] 时 间 间 隔 内 。 范 围 是 包含 边界 的 ， 因 
而 a 等 于 b 或 c 也 会 返回 true。 
使 用 这 些 函 数 ， 可 以 确保 正确 处 理 jiffies 计 数 器 的 回 绕 问题 。 通 常 ， 内 核 代码 不 应 该 直接 比较 时 
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GO) 当然 , 大 多 数 计算 机 都 不 会 不 间断 地 运行 如 此 长 时 间 ， 因 此 这 个 问题 初 看 起 来 多 少 有 点 边缘 化 。 但 有 些 应 用 程序 ， 
嵌入 式 系 统 中 的 服务 器 ， 运 行 时 间 可 以 轻易 达到 这 个 数量 级 。 在 这 种 情况 下 ， 必 须 取 保 时 间 基准 的 运行 是 可 靠 
。 在 内 核 版 本 2.5 开 发 期 间 ， 集 成 了 一 个 补丁 ,使 得 jiffies 值 可 以 在 系统 启动 5 分 钟 之 后 重 置 。 因 而 可 以 快速 地 
纲 潜 在 的 问题 ， 而 不 必 等 待 儿 年 ， 才 能 看 到 因 jiffies 重 置 导致 的 问题 。 













































































涉 否 并 








7220 0150 0000 








间 值 ， 而 应 该 使 用 这 些 函数 。 






































尽管 比较 由 入 ffies_64 给 出 的 64 位 时 间 问 题 较 少 ， 但 内 核 针对 64 位 时 间 提 供 了 上 述 函 数 。 除 了 

















time_in_range 以 外 ， 只 要 向 其 他 函数 名 增加 _64 后 级 ， 即 可 得 到 处 理 64 位 时 间 值 的 函数 变 体 。 

























































































2. 时 间 换 算 

就 时 间 间 隔 而 言 ，jiffies 在 大 多 数 程序 员 心 里 不 是 首选 单位 。 对 较 短 的 时 间 间 隔 ， 更 传统 的 方式 
是 按照 毫秒 或 微 秒 度 量 。 因 而 内 核 提 供 了 一 些 辅 助 函 数 ， 在 这 些 单位 和 jiffies 之 间 来 回转 换 : 

<jiffies.h> 


unsigned int jiffies to msecs(const unsigned long J 
unsigned int jiffies_ to usecs(const unsigned long 了 
unsigned long msecs_ to_ jiffies(const unsigned int m 
unsigned long usecs_ to_ jiffies(const unsigned int u 


六 
) 学 
3 
和 














这 些 函 数 的 语义 是 自明 的 。15.2.3 节 还 分 别 给 出 了 jiffies 和 struct timeval 以 及 struct timespec 











之 间 的 转换 函数 。 
15.2.3 ”数据 结构 

















本 三 将 详细 讲述 低 分 辨 率 定 时 器 的 实现 。 读 者 已 经 知道 ， 处 理 过 程 

















是 由 run_local_timers 发 起 

















的 ， 但 在 讨论 该 函数 之 前 ， 还 需要 介绍 一 些 数 据 结构 ， 作 为 讨论 的 基础 。 








定时 器 按 链 表 组 织 ， 以 下 数据 结构 表示 链表 上 的 一 个 定时 器 : 


<timer.h> 

struct timer list { 
struct list head entry; 
unsigned long expires; 


void (*function) (unsigned long); 
unsigned long data; 


struct tVec_t_base_s *base; 


}3 











| 














的 语义 如 下 。 
口 function 保 存 了 一 个 指向 回调 函数 的 指针 ， 该 函数 在 超时 时 调 月 
口 aata 是 传递 给 回调 函数 的 一 个 参数 。 

口 expires 确 定 定 时 器 到 期 的 时 间 ， 单 位 是 jiffies。 






















































































Nt 








例 。 














时 间 在 内 核 中 以 两 种 格式 给 出 ， 仿 移 量 或 绝对 值 。 二 者 都 利用 了 六 














照例 ， 使 用 了 一 个 双 链 表 将 注册 的 各 个 定时 器 彼此 连接 起 来 。entzry 是 链表 元 素 。 其 他 结构 成 员 





日。 


口 base 是 一 个 指针 ， 指 向 一 个 基 元 素 ， 其 中 的 定时 器 按 到 期 时 间 排 序 〈 稍 后 将 详细 讨论 )。 系 统 
中 的 每 个 处 理 器 对 应 于 一 个 基 元 素 ， 因 而 可 使 用 base 确 定 定时 器 在 哪个 CPU 上 运行 。 
DEFINE_TIMER(_name，_function，_expires，_data) 用 于 声明 一 个 静态 的 timer_1ist 实 








ffies。 在 安装 一 个 新 定时 器 











时 使 用 了 偏 移 量 ， 而 所 有 内 核 数 据 结构 都 使 用 的 是 绝对 值 ， 因 为 这 样 可 
行 比 较 。timer_1ist 的 expires 成 员 也 使 用 了 绝对 时 间 ， 而 非 偏 移 量 












































以 与 当前 jiffies 时 间 轻 易 进 























构 ， 还 可 以 将 其 转换 为 jiffies (当然 ， 还 可 以 反 向 转换 ): 


<time.h> 
struct timeval { 


因为 在 定义 时 间 间 隔 时 程序 员 习 惯 于 按 秒 而 不 是 HZ 单位 来 思考 ， 内 核 提 供 了 一 个 匹配 的 数据 结 
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time 七 tv_sec; /* 秒 */ 
suseconds_t tv_usec; /* 微 秒 */ 


}3 
其 成 员 的 语义 是 自明 的 。 完 整 的 时 间 间 隔 ， 通 过 将 指定 的 秒 和 微 秒 的 值 加 起 来 计算 可 得 。 
timeval_to_ jiffies 和 jiffies_to timeval 函 数 用 于 在 这 种 表示 和 jiffies 值 之 间 转 换 。 这 两 个 函 
数 声明 在 <jiffies .n> 中 ， 实 现在 time.c 中 。 

另 一 种 指定 时 间 的 可 能 方法 是 ， 使 用 纳 秒 而 不 是 微 秒 ; 

<time.h> 

struct timespec { 


time t tv_sec; /* 秒 */ 
long tv_nsec; /* 纳 秒 */ 
























































}3 
仍然 有 辅助 函数 可 以 在 jiffies 和 timespec 之 间 来 回转 换 : timespec_to_jiffies 和 jiffies_ 
to_timespec。 
15.2.4 动态 定时 器 
内 核 需要 数据 结构 来 管理 系统 中 注册 的 所 有 定时 器 (这 些 定时 器 可 能 分 配给 某 个 进程 或 内 核 本 
身 ) 。 该 结构 必须 容许 快速 而 高 效 地 检查 到 期 的 定时 器 ， 以 免 消 耗 太 多 CPU 时 间 。 毕 竟 ， 每 个 时 钟 中 
断 都 必须 进行 这 样 的 检查 。” 
1. 操作 方式 
在 仔细 地 考察 现存 数据 结构 和 算法 的 实现 之 前 , 我 们 根据 一 个 简化 的 例子 来 说 明定 时 器 管理 的 原 
理 ， 因 为 内 核 使 用 的 算法 比 初 看 起 来 要 更 复杂 。( 复 杂 性 带 来 了 更 高 的 性 能 ， 这 些 是 比较 简单 的 算法 
和 数据 结构 所 不 能 达到 的 。) 数据 结构 中 不 仅 必须 包含 管理 定时 器 所 需 的 全 部 信息 ，? 而且 它 必 须 能 够 
很 容易 地 进行 周期 性 的 扫描 ， 以 便 执行 到 期 的 定时 器 并 删除 。 图 15-6 说 明了 内 核 管理 定时 器 的 方式 。 
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图 15-6 ”用 于 管理 定时 器 的 数据 结构 


主要 的 困难 在 于 扫描 即将 到 斯 和 刚刚 到 期 的 定时 器 链表 。 因 为 只 是 将 所 有 timer_1list 实 例 简 单 
地 串联 在 一 起 是 不 够 的 ， 内 核 创 建 了 不 同 的 组 ， 根 据 定时 器 的 到 期 时 间 进 行 分 类 。 分 类 的 基础 是 一 个 
主 数 组 ， 有 5 个 数组 项 ， 都 是 数组 。 主 数组 的 5 个 位 置 根据 到 期 时 间 对 定时 器 进行 粗略 的 分 类 。 第 一 组 
是 到 期 时 间 在 0 到 255 (或 2*-1) 个 时 钟 周期 之 间 的 所 有 定时 器 。 第 二 组 包含 了 到 期 时 间 在 256 和 2**-1 
=2” -1 个 时 钟 周期 之 间 的 所 有 定时 器 。 第 三 组 中 定时 器 的 到 期 时 间 范 围 是 从 2* 到 2*”*”-1 个 时 钟 周期 ， 














































































































尽管 选择 的 数据 结构 与 预期 目的 很 适合 ， 但 它 对 高 分 辨 率 定 时 器 来 说 太 低 效 ， 后 者 需要 更 好 的 组 织 。 
前 ， 暂 时 忽略 与 进程 相关 的 间隔 定时 器 所 需 的 额外 数据 。 
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依次 类 

















的 时 间 间 隔 。 这 里 以 普通 系统 上 


所 不 同 。 
































表 15-1 定时 器 的 了 时间 间隔 


时 间 间 隔 


=。 主 表 中 的 各 项 ， 称 为 上 (group )， 有 时 又 称 为 中 〈bucket)。 表 15-1 列 出 了 各 个 定时 器 组 
的 大 小 作为 计算 的 基础 。 在 内 存 较 少 的 小 型 系统 上 ， 





时 间 间 隔 有 














每 个 引 


置 表示 0 到 255 个 日 

















但 
相关 的 。 
个 时 钟 周 











终 执行 以 及 机 


其 余 的 组 也 
项 包含 的 timer_lis 
组 来 说 ， 
对 第 四 
的 数据 结构 妇 


每 个 数 纪 





定时 器 是 如 
为 简单 起 见 ， 


通过 一 个 标准 的 双 链 表 连 接 起 来 〈 链 表 元 素 为 timer_] 



































对 钟 周期 之 间 一 个 可 能 的 到 期 时 间 。 包 











list 的 entry 
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1 数组 项 数目 较 少 ， 是 64 个 。 数 








数组 组 成 ，1 


雹 6 
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天 
新 补足 入 























第 一 组 中 的 


因而 索 
为 入 
名 一 组 。 
补充 到 第 一 组 
256 个 不 同 的 
用 于 后 续 各 组 。 
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一 品 











一 组 














LIE 


充 整 个 第 三 组 


何 执行 的 呢 ? 


在 第 一 组 的 索引 
。 这 种 做 法 ， 解 释 了 为 什么 各 组 选择 了 不 同 
到 其 
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第 三 组 的 一 个 数组 ] 
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组 项 包含 的 是 


0-255 
23=256-214—1 
214_220_] 
220_226_] 
226_232_] 


成 员 )。 











昌 口径 


2、 站 





个 诈 


的 expires 值 不 上 
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组 





每 个 数组 项 可 容许 的 时 间 间 隔 为 256 = 2* 个 时 钟 周期 ， 
来 说 是 2”， 对 第 五 组 来 说 是 2*。 在 我 们 考虑 定时 器 是 如 何 





而 对 
随 着 时 | 





























I 何 改 变 的 时 候 ， 上 述 这 些 时 间 间 隔 的 
内 核 主要 负责 关注 第 一 组 的 定时 器 ， 














林 
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意义 就 很 清 
因 








JJ。 





为 这 些 定 时 器 都 将 在 稍 


期 时 间 相 


2 ee 






































执行 所 有 定时 器 函数 ， 
执行 新 的 数组 


该 链表 ， 
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保存 了 稍 后 即将 执行 的 各 定时 器 的 timer_1ist 实 例 。 每 当 
并 将 索引 位 置 加 1。 刚 








立 置 上 的 定时 

















在 所 有 项 都 处 


























的 内 容 在 最 多 256 个 时 钟 周期 之 后 就 会 耗 








里 之 后 ， 索 引 人 1 





为 255。 因 














和 轩 








的 时 间 间 


， 而 第 二 组 中 一 个 数组 项 的 数据 就 中 
页 的 数据 同样 足以 填充 整 











时 间 














百 个 第 二 




















， 而 第 五 组 的 一 个 数组 项 也 足以 
后 续 各 组 的 数组 
时 钟 周 期 加 1， 而 是 每 256” 
我 们 根据 一 个 具 








填充 整个 第 四 组 。 
仍然 发 挥 


所 .OO 
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号 





立 置 并 非 随 机 选择 的 ， 其 中 的 索引 项 
个 时 钟 周期 加 1， 其 中 i 是 组 的 编 
































次 复 到 初始 位 置 0 之 后 ， 会 将 第 二 组 
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隔 。 因 为 





以 填充 第 一 组 的 整个 数组 。 





器 ， 


P 一 个 数 缚 





尽 ， 必 须 将 后 续 各 组 的 定时 器 依次 前 推 ， 
项 的 所 有 
一 组 的 各 数组 项 可 











并 将 其 从 数据 结 
为 这 里 的 加 法 是 模 256 


本身 由 一 个 数组 组 成 ， 定 时 器 在 其 中 再 次 排序 。 第 一 个 组 的 数组 有 256 个 数组 项 ， 每 个 位 
I 果 系 统 中 有 几 个 定时 器 的 到 


， 它 们 


可 
































后 到 期 。 





门 假定 每 组 都 有 一 个 计数 器 ， 存 储 了 茶 个 数组 位 置 的 编号 (实际 的 内 核实 现在 功能 
构 上 的 清晰 程度 要 差 得 多 ， 读 者 稍 后 会 看 到 ) 。 
索引 项 指向 的 数组 元 素 ， 
遇 到 一 个 时 钟 中 断 时 ， 内 核 都 扫 
对 器 则 从 数据 结构 移 除 。 下 一 次 发 生 时 钟 中 断 时 ， 将 
同样 将 索引 加 1， 依 次 类 推 。 
将 恢复 到 初始 位 置 〈 位 置 0)。 








执行 过 的 定 









































该 道理 同样 适 


组 ， 第 四 组 的 一 个 数组 项 也 足以 填 

















了 作用 。 作 





























体例 子 来 考察 这 种 行为 模式 : 从 第 


二 

















组 的 处 理 





索引 项 的 值 不 


开始 已 经 过 了 256 个 jiffies， 














是 每 个 











此 时 索 

















引 重 置 为 0。 同 时 ， 




















第 一 组 


第 二 组 的 第 一 个 数组 项 的 内 容 将 补充 到 








@i 应 





是 从 0 帮 





F 始 的 。 一 一 译 者 注 





P。 我 们 假定 帮 








E 第 一 组 索 3 





重 置 时 ， 





152 UUUOUOUOUUOUDDU 723 








jiffies 系 统计 时 器 的 值 为 10 000。 在 第 二 组 的 第 一 个 数组 项 中 ， 有 一 个 定时 器 链表 ， 各 定时 器 分 别 
在 时 钟 周 期 10001、10015、10015、10254 到 期 。 这 些 定时 器 分 别 会 定位 到 第 一 组 的 1、15 和 254， 在 位 
置 15 会 创建 一 个 链表 ， 包 括 两 个 指针 ， 因 为 这 两 个 定时 器 同 时 到 期 。 在 复制 完成 后 ， 将 第 二 组 的 索引 
位 置 加 1。 

循环 接 下 来 重新 开始 。 在 每 个 时 钟 周期 会 逐一 处 理 第 一 组 的 各 个 索引 位 置 上 的 定时 器 ， 直 至 到 达 
索引 位 置 235。 接 下 来 ， 用 第 二 组 的 第 二 个 数组 元 素 中 的 所 有 定时 器 ， 来 补充 第 一 组 。 在 第 二 组 的 索 
引 位 置 到 达 63 时 (从 第 二 组 开始 ， 每 组 只 包含 64 个 数组 项 )， 则 使 用 第 三 组 第 一 个 数组 项 的 内 容 来 补 
充 第 二 组 。 最 后 ， 在 第 三 组 的 索引 位 置 到 达 最 大 值 时 ， 从 第 四 组 取得 新 的 数据 ;同样 的 原则 ， 也 适用 
于 第 五 组 到 第 四 组 的 数据 传输 。 

为 确定 哪些 定时 器 已 经 到 期 ， 内 核 无 须 扫 描 一 个 巨大 的 定时 器 链表 ， 处 理 范围 仅 限 于 第 一 组 中 的 
一 个 数组 项 。 因 为 该 位 置 通常 是 空 的 或 仅 包 含 一 个 定时 器 ， 检 查 可 以 很 快 进行 。 偶 尔 从 后 续 的 各 组 回 
前 复制 数据 甚至 也 不 需要 多 少 CPU 时 间 , 因为 复制 可 以 通过 指针 操作 高 效 进行 (内核 无 须 复制 内 存 块 ， 
而 只 需 将 指针 设置 为 新 值 ， 如 同 标准 链表 函数 那样 )。 

2. 数据 结构 

上 述 各 组 的 内 容 是 通过 两 个 简单 的 数据 结构 生成 的 ， 其 不 同 之 处 很 少 : 

kernel/timer.c 
typedef struct tvec s { 


struct list head vec[TVN_SIZE]; 
} tvec_t; 
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typedef struct tvec root s { 
struct list head vec[TVR_ SIZE]; 
} tvec_root_t; 


tvec_root_t 对 应 第 一 组 ， 而 tvec_t 表 示 后 续 各 组 。 两 个 结构 的 不 同 只 在 于 数组 项 的 个 数 。 对 第 
一 组 ，TVR_SIZE 定 义 为 236。 所 有 其 他 组 使 用 的 数组 长 度 为 TVN_SIZE， 默 认 值 64。 缺 乏 内 存 的 系统 可 
设置 配置 选项 BAsE_SMALL。 在 这 种 情况 下 ， 第 一 组 有 64 个 数组 项 ， 而 其 他 各 组 的 数组 项 为 16 个 。 
系统 中 的 每 个 处 理 器 都 有 自身 的 数据 结构 ,来 管理 运行 于 其 上 的 定时 器 。 下 列 数据 结构 的 一 个 各 
CPU 实例 ， 用 作 根 数据 项 : 


kernel/timer.c 
struct tvec t base s { 


















































































































































unsigned long timer jiffies; 
tveec root. t tvi; 
tvec_t tv2; 
tvec_t tv3; 
tvec_t tv4; 
tvec t. tv 
} cacheline aligned_in_ smp; 


其 成 员 tv1 到 tv5 表 示 各 个 组 。 根据 上 文 的 描述 ， 其 功能 应 该 是 清楚 的 。 我 们 特别 关注 的 是 
timer_jiffies 成 员 。 它 记录 了 一 个 时 间 点 (单位 为 jiffies)，, 该 结构 中 此 前 到 期 的 定时 器 都 已 经 执行 。 
例如 ， 如 果 该 变量 的 值 为 10 500， 那 么 内 核 就 知道 ，jiffies 值 10 499 及 之 前 到 期 的 定时 器 都 已 经 执行 过 
了 。 通 常 ，timer_Jjiffies 等 于 jiffies 或 比 jiffies 小 1。 如 果 内 核 有 一 段 时 间 无 法 执行 定时 器 〈 系 
统 负 和 蓓 非 常 高 )， 二 者 的 差 值 可 能 会 稍 大 一 点 。 

3. 实现 定时 器 处 理 

对 所 有 定时 器 的 处 理 都 由 update_process_timesby 发 起 ， 它 会 调用 run_local_timers 水 数 。 
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该 函数 将 使 用 raise_softirq(TIMER_SOFTIRQ) 来 激活 定时 器 管理 软 中 断 ， 在 下 一 个 可 能 的 时 机 执 
行 。" run_timer_softirq 用 作 该 软 中 断 的 处 理 程序 函数 ， 它 会 选择 特定 于 CPU 的 structtvec 
t_base_s 实 例 ， 并 调用 _run_timers。 

_ run_ timers 实 现 了 上 面 描述 的 算法 。 但 我 们 在 上 面 给 出 的 数据 结构 中 ， 并 没有 发 现 算 法 描述 
中 提 到 的 索引 位 置 ! 内 核 并 不 需要 一 个 显 式 的 变量 来 记录 该 信息 ， 所 有 必要 的 信息 都 已 经 包含 在 base 
的 timer_ jiffies 成 员 中 2?。 为 此 定义 了 下 列 宏 ; 


kernel/timer.c 

define TVN_BITS (CONFIG BASE_ SMALL 

define TVR_BITS (CONFIG BASE_ SMALL 

define TVN_SIZE (1 << TVN_BITS) 
( 
( 
( 
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Q 心 
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define TVR_SIZE (1 << TVR_BITS) 
define TVN_MASK (TVN_SIZE -1) 
define TVR_MASK (TVR_SIZE -1) 





kernel/timer.c 

define INDEX(N) ((base->timer jiffies >> (TVR_BITS + (N) * TVN_BITS)) & TVN_MASK) 
在 小 型 系统 上 《通常 是 嵌入 式 系统 ) 可 以 定义 配置 选项 BASE_SMALL， 为 各 数组 分 配 较 少 的 数组 

项 ， 来 节省 一 些 空 间 。 定 时 器 实现 的 其 他 方面 不 受 该 选项 的 影响 。 


第 一 组 的 索引 位 置 可 通过 base->timer jiffies & TVR_MASK 计 算 。 





























马 



























































int index = base->timer jiffies & TVR MASK; 

通常 ， 可 使 用 下 列 宏 来 计算 组 N 的 索引 值 : 

define INDEX(N) (base->timer jiffies >> (TVR BITS + N * TVN_BITS)) & TVN_ MASK 
如 果 有 人 怀疑 上 述 位 操作 的 正确 性 ， 可 自行 写 一 段 Perl 脚 本 ， 即 可 很 快 验证 其 正确 性 。 
下 列 代码 实现 产生 的 效果 ， 与 上 文 的 描述 是 完全 相同 的 〈_ run_timers 由 前 述 的 zun_timer 
softirg 调 用 ): 


kernel/timer.c 
static inline void __ run timers(tvec base t *base) 


{ 








































































































while (time after eql(jiffies, base->timer jiffies)) { 
struct list head work_list; 
struct list_ head *head = &work_ list; 
int index = base->timer jiffies & TVR_ MASK; 

















如 果 内 核 在 过 去 错过 了 若干 定时 器 , 现在 将 处 理 上 一 个 时 间 点 (base->timer_ jiffies) 到 当前 
时 间 (jiffies) 之 间 到 期 的 所 有 定时 器 : 


kernel/timer.c 








if (!index && 
(!cascade (base, &base->tv2, INDEX(0))) && 
(!cascade (base, &base->tv3, INDEX(1))) && 
Icascade (base, &base->tv4, INDEX(2))) 
cascade (base, &base->tv5, INDEX(3)); 


























@ 因为 软 中 断 不 能 直接 处 理 ， 所 以 也 可 能 经 过 若干 jiffies， 此 期 间 内 核 没 有 处 理 任何 定时 器 。 因 而 ， 有 时 候 定 时 器 

可 能 激活 较 迟 ， 但 决 不 可 能 过 早 激活 。 
@) base 指 tvec_t_base_s 的 全 局 实例 ， 该 实例 是 一 个 per-CPU 变 量 。 一 一 译 者 计 
@ 注意 ， 第 二 组 的 N 值 为 0。 一 一 译 者 注 
































mt 











出 
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cascade 函 数 用 于 从 指定 组 取得 定时 器 补充 前 一 组 (尽管 其 实现 在 这 里 不 讨论 ， 但 只 要 知道 它 使 
用 了 上 文 描述 的 机 制 即 可 )。 


kernel/timer.c 























++base->timer_ jiffies; 
list _ replace init(base->tvl.vec + index, &work list); 








第 一 组 中 位 于 索引 位 置 ( 从 timer_jiffies 值 计算 而 来 ， 该 值 接 下 来 将 加 1)〉 的 所 有 定时 器 都 转 
移 到 一 个 临时 链表 中 ， 从 原来 的 数据 结构 移 除 。 
接 下 来 ， 只 需要 分 别 执行 各 个 定时 器 的 处 理 程序 例 程 : 


kernel/timer.c 

































































while (!list_empty(head)) { 
void (*fn) (unsigned long); 
unsigned long data; 


timer = list entry(head->next,struct timer list,entry); 
fn = timer->function; 
data = timer->data; 


detach timer (timer, 1); 
fn(data); 


} 

4. 激 活 定 时 器 

在 安装 新 定时 器 时 ， 必 须 区 分 这 是 来 自 内 核 自身 的 需求 ， 还 是 用 户 空 间 应 用 程序 的 需求 。 我 们 首 
先 讨论 内 核定 时 器 的 机 制 ， 因 为 用 户 定时 器 也 基于 该 机 制 建立 。 

adqg_timer 用 于 将 一 个 完全 设置 好 的 timer_1l1ist 实 例 插入 到 上 述 数 据 结构 


<timer.h> 
static inline void adqdq timer(struct timer list *timer); 


在 检查 儿 个 安全 性 条 件 之 后 (例如, 同一 定时 器 不 能 添加 两 次 ), 后 续 工 作 委 托 给 internal_ agdqd_ 
timer 函 数 ， 其 任务 是 将 新 定时 器 放 入 到 数据 结构 中 的 正确 位 置 上 。 
内 核 首 先 必须 计算 从 现在 开始 ， 还 有 多 少 个 时 钟 周 期 才能 触发 新 定时 器 的 超时 例 程 ， 因 为 新 驱动 
程序 的 数据 结构 中 指定 的 超时 时 间 是 一 个 绝对 时 间 值 。 为 弥补 可 能 错过 的 定时 嚣 处理 调 用 ， 将 使 用 
expires - base->timer jiffies 计 算 该 值 。 
定时 器 所 在 的 组 和 组 内 位 置 可 根据 该 值 确定 。 现 在 只 需要 将 新 定时 器 添加 到 链表 。 它 将 置 于 链表 
的 尾部 ， 而 run_timer_1list 是 从 头 开始 处 理 的 ， 因 而 实现 了 一 个 先进 先 出 的 机 制 。 


15.3 ”通用 时 间 子 系统 


低 分 辩 率 定时 器 在 很 大 范围 都 能 发 挥 作用 ， 对 很 多 可 能 的 情况 处 理 得 很 好 。 但 这 种 广泛 性 ， 使 得 
对 高 分 辨 率 定 时 器 的 支持 复杂 化 。 多 年 的 开发 经 验证 明 很 难 将 其 集成 到 现存 的 框架 中 。 因 而 内 核 支 持 
了 男 一 种 定时 机 制 。 
虽然 低 分 辨 率 定 时 器 使 用 jiffies 作 为 时 间 的 基本 单位 ， 但 高 分 辨 率 定 时 器 使 用 人 类 的 时 间 单 位 ， 
即 纳 秒 。 这 是 合理 的 ， 因 为 高 精度 定时 器 大 多 用 于 用 户 层 应 用 程序 ， 而 程序 员 很 自然 会 使 用 人 类 的 































































































UD 










































































































































































































































































































































































也 



































726 D150 00D0 




















位 来 考虑 时 间 问 题 。 而 最 重要 的 一 点 是 ，1 纳 秒 是 一 个 精确 定义 的 时 间 间 隔 ， 而 一 个 jiffy 或 时 钟 周期 的 
长 度 是 根据 内 核 配置 而 定 的 。 
与 经 典 定时 器 相 比 ,高 分 辨 率 定时 器 对 各 体系 结构 的 体系 结构 相关 代码 提出 了 更 多 要 求 。 通用 时 
间 框架 提供 了 高 分 辨 率 定时 器 的 基础 。 在 深入 高 分 辩 率 定时 器 的 细节 之 前 ， 我 们 来 考察 一 下 内 核实 现 
高 分 辩 率 计时 的 方式 。 
内 核 的 第 二 个 定时 器 子 系统 的 核心 实现 可 以 在 kernel/time/hrtimer.c 中 找到 。 作 为 高 分 辩 率 
定时 回 集 成 的 通用 计时 代码 ， 位 于 kernel/time 下 的 几 个 文件 中 。 我 们 首先 概述 所 使 用 的 机 制 ， 接 下 来 
介绍 高 分 辩 率 定时 器 引入 的 新 API， 然 后 详细 考察 其 实现 。 
15.3.1 ”概述 
图 15-7 提 供 了 通用 时 间 系 统 的 概览 ， 它 是 高 分 辨 率 定时 器 的 基础 。 


全 局 时 钟 7 jiffies 


















































































































































局 部 时 钟 局 部 时 钟 局 部 时 钟 局 部 时 钟 


A 


也 


CPU0 了 让 习 cPu2 上 上 CPU3 
TT 


图 15-7 通用 时 间 子 系统 概述 


首先 ， 我 们 讨论 子 系统 的 各 个 组 件 和 数据 结构 ， 具 体 的 细节 在 下 文中 一 一 阐述 。 这 里 涉及 3 种 机 
制 ， 形 成 了 内 核 中 任何 与 时 间 相 关 的 任务 的 基础 。 

(1) 时 钟 源 (由 struct clocksource 定 义 ): 时 间 管 理 的 支柱 。 本 质 上 每 个 时 钟 源 都 提供 了 一 个 
单调 增加 的 计数 器 ， 通 用 的 内 核 代 码 只 能 进行 具 读 访问 。 不 同时 钟 源 的 精度 取决 于 底层 硬件 的 能 

(2) 时 钟 事件 设备 〈 由 struct clock_event_device 定 义 ): 问 时 钟 增加 了 事件 功能 ， 在 未 来 的 
某 个 时 刻 发 生 。 请 注意 ， 由 于 历史 原因 ， 这 种 设备 通常 也 称 为 DD 吕 吕 DD (clock event source)。 

(3) 时 钟 设备 (由 struct tick_device 定 义 ): 扩展 了 时 钟 事件 源 的 功能 ， 提 供 一 个 时 钟 事件 的 
连续 流 ， 各 个 时 钟 事 件 定期 触发 。 但 可 以 使 用 动态 时 钟 机 制 ， 

内 核 区 分 如 下 两 种 时 钟 类 型 。 

(1) 全 局 时 钟 〈global clock)， 人 负责 提供 周期 时 钟 ， 主 要 用 于 更 新 jiffies 值 。 在 此 前 的 内 核 版 本 中 ， 
此 类 型 时 钟 在 IA-32 系 统 上 是 由 PIT 实 现 的 ， 在 其 他 体系 结构 上 由 类 似 蕊 片 实现 。 

(2) 每 个 CPU 一 个 局 部 时 钟 〈local clock)， 用 来 进行 进程 统计 、 性 能 剖析 和 实现 高 分 辩 紊 定时 器 。 

全 局 时 钟 的 角色 ， 由 一 个 明确 选择 的 局 部 时 钟 承担 。 请 注意 ， 高 分 辩 率 定时 器 只 能 工作 于 提供 了 
各 CPU 时 钟 源 的 系统 上 。 和 否则 ， 处 理 器 之 间 的 大 量 通信 将 大 大 降低 系统 性 能 ， 这 是 高 分 辩 率 定时 器 的 
作用 所 不 能 弥补 的 。 

在 两 种 广泛 使 用 的 平台 AMD64 和 IA-32 (MIPS 平 台 也 受到 影响 ) 上 发 生 的 令 人 遗憾 的 问题 ， 使 得 
整体 的 概念 复杂 化 。SMP 系 统 上 的 局 部 时 钟 基于 APIC 心 片 。 遗 憾 的 是 ， 这 种 时 钟 能 否 正 确 工 作 ， 取 决 
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年 一 定时 间 间 隔 内 停止 周期 时 钟 。 
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于 系统 所 处 的 电源 模式 。 对 于 低 功 耗 模式 (确切 地 说 ，ACPI 模 式 C3)， 将 停 用 局 部 APIC 定 时 器 ， 因 而 
无 法 作为 时 钟 源 使 用 。 在 这 种 电源 管理 模式 下 ， 系 统 全 局 时 钟 仍然 处 于 工作 状态 ， 将 用 于 周期 性 地 激 
活 信号 ， 使 之 看 起 来 仍然 来 自 于 原来 的 时 钟 源 。 这 种 规避 方案 称 为 广播 机 制 ， 更 多 信息 将 在 15.6 节 闸 
述 。 





















































OO CRO 
加 











15.3.2 ”配置 选项 


定时 器 实现 受到 几 个 配置 选项 的 影响 。 在 编译 时 间 ， 有 如 下 两 种 可 能 的 选择 。 
(1) 内 核 在 联 编 时 ， 可 以 选择 支持 或 不 支持 动态 时 钟 。 如 果 启 用 了 动态 时 钟 ， 将 设置 预 处 理 器 常 
数 CONFIG_NO_Hz。 
(2) 可 以 启用 或 禁用 高 分 辨 率 定 时 器 支持 。 如 果 要 提供 支持 ， 将 启用 预 处 理 器 符号 CONFIG_HITGH__ 
RES_TIMERS 。 
在 下 述 对 定时 器 实现 的 讨论 中 ， 这 两 个 选项 都 很 重要 。 由 于 二 者 彼此 独立 的 ， 这 导致 时 间 和 定时 
器 子 系统 有 4 种 不 同 配置 。 
另外 ， 每 个 体系 结构 都 需要 进行 一 些 配 置 选择 。 这 些 不 受用 户 影 响 。 
口 GENERIC_TIME 表 示 体 系 结构 支持 通用 时 间 框 架 。GENERIC_CLOCKEVENTS 表 示 体 系 结构 支持 通 
用 时 钟 事件 。 因 为 二 者 都 是 支持 动态 时 钟 和 高 分 辨 率 定时 器 的 必要 前 提 ， 所 以 我 们 只 考虑 提 
供 这 两 种 特性 的 体系 结构 。 "实际 上 大 多 数 广泛 使 用 的 体系 结构 都 已 经 更 新 为 支持 这 两 个 选 
项 ， 即 使 某 些 体系 结构 〈 如 SuperH) 只 对 特定 的 时 间 模 型 提供 支持 。 
口 CONFIG_TICK_ONESHOT 用 于 文 持 时 钟 事 件 设备 的 单 触发 模式 。 如 果 启 用 了 高 分 辨 率 定 时 器 或 
动态 时 钟 ， 会 自动 选中 该 选项 。 
口 如 果 体 系 结构 受 困 于 省 电 模 式 的 问题 而 需要 广播 ， 那 么 必须 定义 GENERIC_CLOCKEVENTS_ 
BROADCAST。 当 前 该 问题 只 影响 IA-32、AMD64 和 MIPS。 


15.3.3 时间 表 示 


通用 时 间 框 架 使 用 数据 类 型 ktime_t 来 表示 时 间 值 。 无 论 在 何 种 底层 体系 结构 下 ， 该 类 型 都 是 一 
个 64 位 量 。 这 使 得 该 结构 在 64 位 体系 结构 上 便于 处 理 ， 因 为 此 类 平台 上 时 间 相 关 的 处 理 ， 都 只 需要 简 
单 的 整数 操作 。 
为 减少 32 位 机 器 上 的 工作 量 , 该 结构 的 定义 确保 两 个 32 位 值 的 排序 能 够 被 立即 直接 解释 为 一 个 64 
位 值 ， 显 然 这 需要 根据 处 理 器 的 字 节 序 不 同 而 对 字段 进行 不 同 的 排序 : 


<ktime.h> 

typedef union { 
s64 tv64; 

#if BITS_ PER_ LONG != 64 && lIdefined (CONFIG KTIME SCALAR) 
Struct { 

# ifdef __ BIG_ ENDIAN 
S32 sec, nsec; 

# else 








































































































































































































































































































































































































































































































































































































Q@ 当前 正在 向 通用 时 钟 事件 框架 迁移 的 体系 结构 ， 可 以 设置 GENERIC_CLOCKEVENTS_MIGR。 这 将 联 编 相 关 的 代码 ， 
但 在 运行 时 不 使 用 。 
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S32 nsec, sec; 
# endif 
} tyv; 

#endif 

} ktime_t; 

如 果 某 个 32 位 体系 结构 提供 了 能 够 高 效 处 理 64 位 量 的 函数 ， 可 以 设置 配置 选项 KTTME_SCALAR， 
目前 只 有 IA-32 利 用 了 这 种 做 法 。 在 这 种 情况 下 ， 不 会 将 该 结构 划分 为 两 个 32 位 值 ， 而 是 直接 表示 为 
一 个 64 位 量 。 

内 核定 义 了 几 个 辅助 函数 来 处 理 ktime_t 对 象 。 其 中 包括 以 下 函数 。 

口 ktime_add 和 ktime_supb 分 别 用 于 加 减 ktime_t。 

口 ktime_adqd_ns 癌 一 个 ktime_t 变 量 加 上 给 定数 量 的 纳 秒 。ktime_adg_us 是 男 一 种 形式 ， 加 的 

单位 是 微 秒 。 内 核 还 提供 了 ktime_sub_ns 和 ktime_sub_us。 

口 ktime_set 根 据 指定 的 秒 和 纳 秒 ， 来 创建 一 个 ktime_t 变 量 。 

口 有 各 种 形 如 x_to_y 的 函数 ， 可 以 在 x 和 y 两 种 表示 之 间 进 行 转换 ， 其 中 x 和 y 的 类 型 可 以 是 

ktime_t、 timeval clock t 和 timespec。 

请 注意 ， 在 64 位 机 器 上 可 以 直接 将 ktime_t 解 释 为 纳 秒 数 ， 但 这 在 32 位 机 器 上 将 导致 问题 。 因 而 
提供 了 ktime_to_ns 函 数 , 来 正确 执行 该 转换 。 内 核 提 供 了 辅助 函数 ktime_equal, 判断 两 个 ktime_t 
是 否 相 等 。 

为 与 内 核 使 用 的 其 他 类 型 时 间 格 式 进行 转换 ， 有 一 些 转换 函数 可 用 : 

<ktime.h> 


ktime t timespec to ktime(const struct timespec ts) 
ktime 七 timeval_ to_ ktime(const struct timeval tyv) 
struct timespec ktime to timespec(const ktime t kt) 
struct timeval ktime to timeval (const ktime t kt) 
Ss64 ktime to ns(const ktime t kt) 

S64 ktime to us(const ktime t kt) 


> 


函数 名 指定 了 将 转换 的 量 的 类 型 ， 无 须 袭 述 。 
15.3.4 用 于 时 间 管 理 的 对 象 













































































可 想 本 章 的 概述 ， 其 中 提 到 内 核 中 有 3 个 对 象 管理 着 计时 功能 : 时 钟 源 、 时 钟 
备 。 在 下 文中 ，3 者 分 别 由 对 应 的 专门 数据 结构 表示 。 
1. 时 钟 源 
首先 ， 考 虑 如 何 从 机 器 中 提供 的 各 种 时 钟 源 获 得 时 间 值 。 内 核 为 此 定义 了 时 钟 源 的 提 

















<clocksource.h> 
struct clocksource { 
char *name; 
struct list head list; 
int rating; 
Cycle t (*read) (void); 
Cycle t mask; 
U32 mulkt; 
u32 shift; 
unsigned long flags; 


}; 


有 件 设备 和 时 钟 设 





和 象 : 

















name 为 时 钟 源 给 出 了 一 个 人 类 可 读 的 名 称 ， 而 1ist 是 一 个 标 疹 
源 连 接 到 一 个 标准 的 内 核 链表 上 。 




















的 链表 元 素 ， 用 于 将 所 有 的 时 钟 
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并 非 所 有 时 钟 的 质量 都 是 相同 的 ， 内 核 显 然 想 要 选择 其 中 最 好 的 一 个 。 因 而 ， 每 个 时 钟 源 都 必须 

(诚实 地 ) 在 rating 中 指定 其 质量 。 其 值 可 能 有 下 列 范围 。 

口 rating 在 1 至 99 之 间 ， 表 示 一 个 质量 非常 差 的 时 钟 源 ， 只 能 在 万 不 得 已 时 使 用 ,或 用 于 启动 期 

间 ， 即 只 能 在 没有 更 好 的 时 钟 源 可 用 的 情况 下 才能 使 用 。 

口 100 至 199 的 范围 表示 时 钟 源 可 用 于 实际 应 用 ， 但 在 有 更 好 的 时 钟 源 可 用 时 ， 一 般 不 会 使 

种 质量 的 时 钟 源 。 

口 rating 在 300 罕 399 区 间 ， 表 示 时 钟 源 相 当 快 速 且 准确 。 

口 完美 的 时 钟 源 ， 其 rating 值 在 400 至 499 之 间 。 

目前 最 好 的 时 钟 源 在 PowerPC 体 系 结构 上 ， 其 中 有 两 个 rating 为 400 的 时 钟 源 。IA-32 和 AMD64 

机 器 上 的 0 口 口 口 口 口 (time stamp counter， 简 称 TSC〉 是 这 些 体 系 结构 上 最 精确 的 设备 ， 其 rating 

为 300。 大 多 数 体 系 结构 上 最 佳 时 钟 源 的 rating 值 是 接近 的 。 开 发 者 没有 扩大 这 些 设备 的 性 能 ， 并 留 

出 了 许多 空间 可 供 硬 件 方面 改善 。 

ss 这 并 不 引信 意料。 请 注意 ， 并 非 所 有 时 钟 源 的 zead 

返回 值 都 使 用 了 统一 的 计时 单位 ， 因 而 需要 分 别 转 换 为 纳 秒 值 。 为 此 ， 需 要 分 别 使 用 mult 和 shift 成 
员 来 用/ 右 移 返 回 的 时 名 周期 数 ， 如 下 ， 


<clocksource.h> 
static inline s64 cyc2ns(struct clocksource *cs, cycle t cycles) 


{ 
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u64 ret = (u64)cycles; 
ret = (ret * cs->mult) >> cs->shift; 
return ret; 


} 

请 注意 ，cycle_t 定 义 为 一 个 64 位 无 符号 整数 ， 它 不 依赖 于 底层 平台 。 

如 果 时 钟 不 提供 64 位 时 间 值 ， 那 么 mask 指 定 了 一 个 位 掩 码 ， 用 于 选择 适当 的 比特 位 。 
CLOCKSOURCE_MASK (bits) 宏 用 于 针对 给 定 的 比特 位 数 构建 适当 的 掩 码 。 

最 后 ，struct clocksource 的 flags 字 段 指定 了 若干 标志 ， 读 者 可 能 已 经 猜 到 这 一 点 。 只 
个 标志 是 与 我 们 的 目的 相关 的 。cLOCK_SOURCE_CONTINUOUS 表 示 一 个 连续 时 钟 , 尽管 其 含义 与 数学 
的 “连续 ”不 怎么 相同 。 相 反 ， 如 果 该 标志 置 位 ， 则 表示 该 时 钟 是 自由 振荡 的 ， 不 能 跳跃 。 ss 
置 位 ， 则 可 以 丢失 一 些 周 期 ， 即 ， 如 果 上 一 个 周期 数 为 m， 那 么 即使 立即 读 取 下 一 个 周期 数 ， 也 未 必 
是 2+ 1。 如 果 时 钟 源 要 用 于 高 分 辩 京 定时 器 ， 该 标志 必须 置 位 。 
在 启动 期 间 ， 如 果 计 算 机 确实 没有 提供 更 好 的 选择 (在 启动 后 ， 决 不 会 如 此 )， 内 核 提 供 了 一 
基于 jiffies 的 时 钟 :，” 


kernel/timel/jiffies.c 




































































































































































#define NSEC_PER_ JIFFY ((u32) ((((u64)NSEC_ PER_ SEC)<<8)/ACTHZ)) 
struct clocksource clocksource jiffies = { 
.name = "jiffies" 


.rating = 1, /* 最 低 的 rating 值 */ 
.read = jiffies_ read, 
.mask = Oxffffffff, /*32 位 */ 




















@ 请 注意 ， 如 果 jiffy 时 钟 用 作 主 时 钟 源 ， 那么 内 核 将 负责 通过 一 些 适当 的 方式 来 更 新 jiffies 值 , 例如 直接 在 处 理 时 

钟 中 断 时 更 新 。 通 常 ， 体 系 结构 不 会 这 样 做 。 因 而 ， 在 无 时 钟 系统 上 使 用 该 时 钟 是 没有 意义 的 ， 因 为 此 类 系统 需 
要 通过 时 钟 源 模拟 jiffies 层 。 实 际 上 , 使 用 jiffies 时 钟 源 是 使 动态 时 钟 系统 骨 溃 的 一 种 好 方法 , 至 少 在 内 核 版 本 2.6.24 
上 是 这 样 的 。 
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.mult = NSEC_PER JIFEY << JIFFIES_SHIFT，/* 细节 见 上 文 */ 
.shift = JIFFIES_ SHIFT, 
jj 
初 看 起 来 ， 先 左 移 JIFFIES_SHIFT 然 后 再 右 移 同 样 的 位 数 ， 似 乎 没什么 意义 。 但 由 于 NTP 代 码 不 
接受 0 位 的 移 位 操作 ， 所 以 需要 这 种 奇怪 的 做 法 。" 另外 还 要 注意 到 ，jiffies 时 钟 的 rating 为 1， 这 显然 
是 整个 系统 中 最 差 的 时 钟 。 
jiffies 的 read 例 程 特别 简单 : 无 须 与 硬件 进行 交互 。 返 回 当前 jiffies 值 就 足够 了 
在 IA-32 和 AMD64 机 器 上 ， 时 间 惟 计数 器 通常 提供 了 最 佳 时 钟 。 


arch/x86/kernel/tsc_64.c 
static struct clocksource clocksource tsc = { 
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.name = "tsc", 

:tL -300 

read = read tsc, 

mask = CLOCKSOURCE MASK(64), 
shift = 22， 

flags = 


CLOCK_SOURCE_IS_CONTINUOUS | 
CLOCK_SOURCE_MUST_VERIEY， 





和 

reagd_tsc 使 用 一 些 
2. 使 用 时 钟 源 

如 何 使 用 时 钟 呢 ? 首先 ， 它 必须 注册 到 内 核 。clocksource_register 图 数 负责 该 工作 。 时 钟 源 

只 是 被 添加 到 全 局 的 clocksource_1ist (定义 在 kernel/time/clocksource.c) ， 其 中 根据 rating 

对 所 有 可 用 的 时 钟 源 进行 排序 。 可 调用 select_clocksource 来 选择 最 佳 时 钟 源 。 通 常 该 函数 将 选择 

rating 最 大 的 时 钟 ， 但 也 可 以 从 用 户 层 通 过 /sys/devices/system/clocksource/clocksource0/ 

current_clocksource 指 定 优先 选择 的 时 钟 源 ， 内 核 将 优先 使 用 。 为 此 提供 了 如 下 两 个 全 局 变量 。 
(1) current_clocksource 指 向 当前 最 佳 时 钟 源 。 
(2) next_clocksource 指 向 一 个 struct clocksource 实 例 ， 它 比 当前 使 用 的 时 钟 源 更 好 。 在 注 
册 一 个 新 的 最 佳 时 钟 源 时 ， 内 核 将 自动 切换 到 最 佳 时 钟 源 。 
为 读 取 时 钟 计 时 ， 内 核 提 供 了 下 列 函 数 。 

口 _get_realtime _clock_ts 以 一 个 指向 struct timespec 实 例 的 指针 为 参数 , 读 取 当前 时 钟 ， 

转换 结果 ， 并 保存 到 timespec 实 例 。 

口 getnstimeofday 是 _get_realtime_clock_ts 的 一 个 前 端 ， 如 果 系 统 没 有 提供 高 分 辨 率 时 
钟 ， 该 函数 也 能 工作 。 此 时 ，getnstimeofday 被 定义 在 kernel/time.c 中 (而 不 是 kernel/ 
time/timekeeping.c) ， 提 供 的 timespec 值 只 能 满足 低 分 辨 率 计时 需求 。 

3. 时 钟 事件 设备 

时 钟 事件 设备 由 下 列 数据 结构 定义 : 

<clockchips.h> 

struct clock event_device { 

const char *name; 
unsigned int features; 
unsigned long max delta ns; 


unsigned long min delta ns; 
unsigned long mult; 
































于 


-编程 序 代码 从 硬件 读 出 当前 计数 器 值 。 








































































































































































































CD NSEC_PER_JIEFFY 的 定义 包含 了 预 处 理 器 符号 AcTHzZ。 虽 然 Hz 表 示 编 译 时 选择 的 低 分 辨 率 计 时 频率 ， 但 系统 实际 
上 提供 的 计时 频率 会 因 硬 件 的 选择 而 有 轻微 差别 。AcTHz 存 储 了 时 钟 实际 上 运行 的 频率 。 
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nt Shiftsy 
int rating; 
Ln， 和 
cpumask 七 cpumask; 
int (*set next_ event) (unsigned long evt, 

struct clock_ event_device *); 
void (*set_ mode) (enum clock_ event mode mode, 

struct clock_ event_device *); 

void (*event handler) (struct clock event device *); 
void (*broadcast) (cpumask t mask); 
struct list_ head list; 
enum clock_event mode mode; 
ktime t next_ event; 


1 
回想 上 文 可 知 ， 时 钟 事件 设备 允许 注册 一 个 事件 ， 在 未 来 一 个 指定 的 时 间 点 上 发 生 。 但 与 完备 的 
定时 器 实现 相 比 ， 它 只 能 存储 一 个 事件 。 每 个 clock_event_device 的 关键 成 员 是 set_next_event 
和 event_handler， 其 中 前 者 设置 事件 将 要 发 生 的 时 间 ， 后 者 在 事件 实际 发 生 时 调用 。 
此 外 ，clock_event_device 的 成 员 有 以 下 用 途 。 
口 name 是 该 事件 设备 的 名 称 ， 是 一 个 可 读 的 字符 串 。 它 将 显示 在 /proc/timerlist 中 。 
口 max_delta_ns 和 min_delta_ns 指 定 了 当前 时 间 和 下 一 次 事件 的 触发 时 间 之 间 的 差 值 , 分 别 是 
最 大 和 最 小 值 。 时 钟 按 各 自 的 频率 运作 ， 而 通用 时 间 子 系统 则 需要 时 间 发 生 时 刻 的 纳 秒表 示 。 
辅助 函数 clockevent_qelta2ns 用 于 将 一 个 表示 转换 为 另 一 
例如 ， 假 定 当前 时 间 为 20，min_dqelta_ns 为 2， 而 max_dqelta_ns 为 40〈 当 然 ， 这 些 值 上 只 是 示 
例 ， 并 不 表示 实际 上 可 能 出 现 的 情况 )。 那 么 ， 下 一 个 事件 可 以 在 时 间 范 围 [22，60] 内 发 生 ， 
这 里 的 范围 包括 边界 在 内 。 
口 mult 和 shift 分 别 是 一 个 乘 数 和 位 移 数 ， 用 于 在 时 钟 周期 数 和 纳 秒 值 之 间 进 行 转换 。 
口 event_handler 指 向 的 函数 由 人 硬件 接口 代码 (通常 是 特定 于 体系 结构 的 ) 调用 ， 将 时 钟 事件 
传递 到 通用 时 间 子 系统 层 。 
口 irgq 指 定 了 该 事件 设备 使 用 的 IRQ 编 号 。 请 注意 ， 只 有 全 局 设备 才 需 要 该 编号 。 各 CPU 的 局 音 
时 钟 使 用 不 同 的 硬件 机 制 来 发 送信 号 ， 将 irgq 设 置 为 1 即 可 。 
口 cpoumask 指 定 了 该 事件 设备 所 服务 的 CPU。 为 此 使 用 了 一 个 简单 的 位 掩 码 。 局 部 设备 通常 只 负 
责 一 个 CPU。 
口 broadcast 是 广播 实现 所 需要 的 成 员 ， 它 可 以 规避 IA-32 和 AMD64 系 统 上 在 省 电 模式 下 不 工作 
的 局 部 APIC 设 备 。 更 多 细节 请 参考 15.6 节 。 
口 rating 的 作用 类 似 于 时 钟 设备 中 相应 的 机 制 , 时 钟 事件 设备 可 以 通过 标 称 其 精度 来 进行 比较 。 
口 所 有 struct clock_event_device 的 实例 都 保存 在 全 局 链表 clockevent_devices 上 ,， list 
成 员 用 作 和 链表 元 素 。 
辅助 函数 clockevents_register_device 用 于 注册 一 个 新 的 时 钟 事件 设备 。 该 函数 将 指定 的 
设备 置 于 上 述 全 局 链表 上 。 
口 ktime_t 存 储 了 下 一 个 事件 的 绝对 时 间 。 
每 个 事件 设备 的 儿 个 特性 都 可 以 根据 features 中 存储 的 一 i <clockchips .n> 中 提 
供 了 若干 常数 ， 定 义 了 可 能 的 特性 。 我 们 对 其 中 两 个 比较 感 兴趣 ; 
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G@ 回想 IA-32 和 AMD64 系 统 上 局 部 APIC 暴 露 的 问题 : 在 特定 的 省 电 模式 下 , 它们 将 停止 工作 。 该 问题 通过 设置 “特性 ” 
CLOCK_EVT_FEAT_C3STOP 来 向 内 核 报 告 ， 但 这 实际 上 应 该 称 为 “ 反 特 性 ”。 
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口 支持 周明 














性 事件 〈“ 即 ， 事 件 按 周 期 不 断 重复 ， 无 须 通 过 对 设备 重新 编程 来 显 式 激活 事件 ) 的 
































时 钟 事件 设备 由 CLOCK_EVT_FEAT_PERIODIC 标 识 。 









































口 CLOCK_EVT_FEAT_ONESHOT 表 示 时 钟 能 够 发 出 单 触 发 事件 ， 只 发 生 



































各 性 事件 相反 。 











次 。 基 本 上 ， 这 刚好 与 周 




















set_mode 指 向 一 个 函数 ， 用 来 切换 所 需要 的 运行 方式 ， 即 在 周期 模式 和 单 触 发 模式 之 间 切 换 。 
的 运行 方式 。 在 任意 特定 时 刻 ， 一 个 时 钟 只 能 处 于 一 种 模式 ( 即 周期 模式 或 单 触 发 模 
式 ) ， 但 它 可 以 提供 在 两 种 模式 之 间 切 换 的 能 力 ， 事 实 上 ， 大 多 数 时 钟 都 提供 了 这 两 种 模式 。 

不 需要 直接 调用 set_next_event， 因 为 内 核 为 此 提供 了 以 下 辅助 函数 : 
kernel/time/clockevents.c 
int clockevents program event (struct clock event device *dev, 





mode 指 定 了 当前 





通用 代码 并 


























| 























ktime 七 expires，ktime 七 now) 






































expires 给 出 了 设备 dev 的 过 期 时 间 (绝对 值 )， 而 now 表 示 当 前 时 间 。 通 常 ， 调 用 者 会 将 


ktime_get() 的 结果 传递 给 该 参数 。 























在 IA-32 和 AMD64 系 统 上 ， 全 局 时 钟 事件 设备 的 角色 最 初 由 PIT 承担 。 





侈 。 
时 钟 设备 和 

















定义 在 arch/x86 











时 钟 设备 和 一 个 时 创 


功能 汇集 到 clocksource_hpet， 而 hpet_clockeven 





























在 HPET 初 始 化 之 后 ， 将 接 



































时 钟 事 





ml 
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管 该 职责 ,为 在 x86 系 统 上 跟踪 用 于 人 处理 全 局 时 钟 事件 的 设备 , 采用 了 全 局 变量 global_clock_event， 
定义 在 arch/x86/kernel/i8253.c 中 。 它 指向 当前 使 用 的 全 局 时 钟 设备 





的 clock_event_device 实 























件 设备 在 数据 结构 层次 上 ， 形 式 上 是 没有 关联 的 。 但是， 一般 通 过 系统 中 一 个 
特定 的 硬件 设备 ， 提 供 这 两 个 接口 所 需 的 功能 需求 ， 因 此 ， 内 核 通常 会 对 每 个 时 钟 硬件 设备 注册 一 个 
事件 设备 。 例如， 考虑 IA-32 和 AMD64 系 统 上 的 HPET 设 备 。 该 设备 作为 时 钟 源 的 
t 则 是 clock_event_device 的 一 个 实例 。 二 者 都 








/kernel/hpet.c 中 。hpet_in 让 首先 注册 时 钟 源 然后 注册 时 钟 事件 设备 。 这 向 内 核 





























增加 了 两 个 时 间 管 理 对 象 ， 但 只 需要 一 个 硬件。 


























4. 时 钟 设备 
































时 钟 事件 设备 的 一 个 特别 重要 的 用 途 是 提供 周期 时 钟 ， 回 想 15.2 节 的 内 容 ， 周 期 时 钟 的 一 个 
































是 用 于 运作 经 典 的 定时 器 轮 。 时 钟 设备 是 时 钟 事件 设备 的 一 个 扩展 : 





<tick.h> 
Sales 有 ce 

st 
} 


k_device { 
ruct clock event_ device *evtdev; 


enum tick_ device mode mode; 


enum tick 





}; 


tick_device 内 是 struct clock_event_device 的 一 个 包装 器 ， 增 加 了 一 个 额外 的 字段 ， 用 于 
指定 设备 的 运行 模式 。 模式 可 以 是 周期 模式 或 单 触发 模式 。 在 考虑 无 时 钟 系统 时 , 这 种 区 别 会 很 重要 
这 将 在 15.5 节 进一步 讨论 。 现 在 ， 只 要 将 时 钟 设备 视 为 一 种 提供 时 钟 事件 





device mode { 


TICKDEV_MODE_PERIODIC, 
TICKDEV_MODE_ONESHOT ， 
































成 了 调度 器 、 经 











定时 器 轮 和 内 核 相 关 组 件 的 基础 。 











内 核 仍然 会 区 分 全 局 和 局 部 〈 各 CPU ) 时 钟 设备 。 局 部 设备 汇集 在 tick_cpu_dqevice 中 《定义 在 























kernel/time/tick-internal.h 中 ) 。 请 注意 ， 在 注册 一 个 新 的 时 钟 事 伯 


一 个 时 钟 设备 。 
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TD 























连续 流 的 机 制 即 可 。 这 些 形 




















设备 时 ， 内 核 会 自动 创建 
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此 外 ， 在 incluqe/time/tick-internal.h 中 还 定义 了 如 下 几 个 全 局 变量 。 
口 tick_cpu_aqevice 是 一 个 各 CPU 链表 ， 包 含 了 系统 中 每 个 CPU 对 应 的 struct tick_device 实 
例 。 

口 tick_next_perioq 指 定 了 下 一 个 全 局 时 钟 事件 发 生 的 时 间 《〈 单 位 为 纳 秒 ) 。 
口 tick_qo_timer_cpu 包 含 了 一 个 CPU 编号 ， 该 CPU 的 时 钟 设 备 将 承担 全 局 时 钟 设备 的 角色 。 
口 tick_period 存 储 了 时 钟 周期 的 长 度 ， 单 位 为 纳 秒 。 它 与 HzZ 相 对， 后 者 存储 了 时 钟 的 频率 。 

为 设置 一 个 时 钟 设备 ， 内 核 提 供 了 tick_setup_device 函 数 。 其 原型 如 下 ， 代 码 流程 图 在 图 15-8 
给 出 : ” 

kernel/time/tick-common.c 

static void tick setup_ device(struct tick device *tqd, 


struct clock_ event device *newdev, int cpu, 
cpumask_t cpumask); 













































































tick_ setup_ device 


初始 设置 ? 










承担 全 局 时 钟 的 职责 

tick_device uses_broadcast 
不 

设备 需要 广播 ? 


口 
周期 模式 ? 


引 期 模式 
其 ? 
Es 
全 



























tick_ setup periodic 





tick_ setup_oneshot 














图 1$-8 ”tick_setup_device 的 代码 流程 图 

















参数 ta 指定 了 将 要 设置 的 tick_gevice 实 例 。 它 将 绑 定 到 时 钟 事件 设备 newdev。cpu 表 示 该 设备 
关联 的 处 理 器 ，cpumask 是 一 个 位 掩 码 ， 用 于 限制 只 有 特定 的 CPU 才 能 使 用 该 时 钟 设备 。 

在 该 设备 第 一 次 设置 时 ( 即 , 如 果 该 时 钟 设备 没有 相关 的 时 钟 事 件 设备 ), 内 核 执行 如 下 两 个 操作 。 

(1) 如 果 没 有 选 定时 钟 设备 来 承担 全 局 时 钟 设备 的 角色 ， 那 么 将 选择 当前 设备 来 承担 此 职责 ， 而 
tick_do_timer_cpu 设 置 为 当前 设备 所 属 的 处 理 器 编号 。tick_period 是 时 钟 周 期 单位 为 纳 秒 ， 它 
是 根据 HzZ 值 计算 的 。 
(2) 该 时 钟 设备 设置 为 按 周 期 模式 工作 。 
在 为 时 钟 设备 指定 了 事件 设备 之 后 ， 如 果 当 前 启用 了 广播 模式 (回想 前 文 可 知 ， 如 果 系 统 处 于 省 
电 模式， 而 局 部 时 钟 停 止 工作 ， 则 会 使 用 广播 机 制 ， 更 多 细节 参看 15.6 节 )， 则 该 函数 结束 。 和 否则 ， 内 
核 需要 建立 一 个 周期 时 钟 。 这 到 底 是 如 何 完成 的 , 取决 于 时 钟 设备 是 运行 于 周期 模式 还 是 单 触发 模式 。 
这 两 种 模式 下 ， 剩 余 的 工作 分 别 委托 给 tick_setup_periodqic 或 tick_setup_oneshot。 


和 
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Q 如 果 注 册 了 一 个 新 的 时 钟 事 件 设备 ， 能 够 利用 该 设备 创建 一 个 比 当前 更 好 的 时 钟 设备 ， 那 么 会 自动 调用 该 函数 。 
昌 然 将 优先 选择 更 高 质量 的 设备 ， 但 在 新 的 、 更 精确 的 设备 不 支持 单 触发 模式 ， 而 旧 设 备 支 持 该 模式 的 情况 下 ， 
不 会 选择 新 设备 。 
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在 讨论 这 些 函 数 之 前 ， 我 1 
口 没有 动态 时 钟 的 低 分 辩 
口 启用 了 动态 时 钟 特 怕 
口 高 分 辨 率 系 统 总 是 使 用 








站 


率 系 统 ， 











的 低 分 辨 率 系统 ， 以 











总 是 使 





用 周期 时 钟 。 该 


























































































































E 来 考虑 ， 根 据 所 选择 的 配置 ， 内 核 所 需要 处 型 

















E 的 情形 。 





态 时 钟 特性 
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内 核 不 包含 任何 对 单 触 发 操作 的 支持 。 
触发 模式 使 用 时 钟 设备 。 
单 触发 模式 ， 无 论 是 否 启 用 了 动 












































所 有 系统 最 初 都 工作 于 低 分 辨 率 模式 ， 未 局 用 动态 时 钟 ， 只 有 在 必要 的 硬件 初始 化 之 后 ， 系 统 才 
能 切换 到 不 同 的 特性 组 合 。 因 而 这 里 主要 考虑 低 分 辩 率 、 周 期 时 钟 的 情况 。 更 高 级 的 选项 在 15.4.5 节 
和 15.5 节 讨论 。 在 广播 模式 下 ， 需 要 进行 一 些 修正 ，15.6 节 更 详细 地 阐述 了 相关 内 容 。 

在 考察 不 启用 动态 时 钟 的 低 分 辩 率 情形 之 前 ， 需 要 指出 ， 图 15-9 给 出 了 可 用 于 不 同 特性 组 合 下 的 
时 钟 处 理 程序 的 概述 。 请 注意 ， 对 没有 动态 时 钟 特性 的 系统 选择 哪个 广播 函数 ， 取 决 于 底层 时 钟 设备 
的 模式 。 细 节 如 下 给 出 。 

基于 HZ 动态 时 名 
tick_ handle_oneshot_ broadcast | 广播 ， 
tick handle_oneshot_ broadcast 
tick handle periodic broadcast 
tick_handle_periodic ( 低 分 辩 率 ) event_ handler tick_nohz_handler( 低 分 辨 率 ) 


hrtimer_interrupt (高 分 间 


图 


所 使 用 的 时 钟 事件 和 / 播 处 理 程序 函数 
下 面 讲述 tick_setup_periodic。 其 代码 流程 图 在 15-10 给 出 。 
时 钟 事件 设备 支持 周期 事件 ? | 将 时 钟 事件 设备 设置 为 周期 模式 


实际 上 ， 如 果 时 钟 事件 设备 文 持 周期 怕 
tick_set_periodic handler 将 tick_handle periodqic 安 装 为 处 到 


这) 

















15-9 ”高 / 低 





丙种 分 辨 率 、 是 / 否 


户 






































hrtimer_interrupt (高 分 辨 率 ) 


动态 时 钟 特性 的 4 种 特性 组 合 下 ， 

















否 











将 时 钟 寻 








件 设备 设置 为 单 














编程 设置 下 一 个 时 钾 


E 作 | 








图 1$-10 tick_setup_periodic 的 代码 流程 


事件， 那么 该 函数 





set_mode 确 保 时 钟 事件 设备 以 周期 模式 运行 。 


如 果 时 旬 
set_mode 将 寻 
个 事件 。 





巨 
a 








在 两 种 情况 下 ， 时 钟 设备 的 下 一 习 











(回顾 


在 讨论 该 处 理 











前 文 ， 这 里 





Fh 事件 设备 不 支持 周期 事件 , 那么 内 核 必 须 





所 
3 





将 专注 于 不 启用 动态 时 




















名 




















人 H 














F 发 生 时 ， 都 会 调 





了 处 到 





钟 的 低 分 辨 率 情形 ， 其 




















SE 





程 / 





这 函数 之 前 ， 


而 女人 


绍 厚 




















设置 将 使 有 


由 发 模式 














的 任务 相当 简单 。 在 这 种 情况 下 ， 
EE 程序 孙 数 ， 而 clockevents_ 


用 单 触发 事件 来 设法 应 付 过 去 。clockevents_ 


牛 设备 设置 为 该 模式 ， 此 外 ， 需 要 使 用 clockevents_program_event 来 编程 设置 下 一 








程序 函数 tick_handle_periodic。 











日 不同 的 处 理 











助 函 数 tick_periodic。 它 负责 处 理 














给 定 CPU 














程序 函数 ! ) 
的 周期 时 钟 
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信号 ，CPU 通 过 函数 的 参数 指定 : 


kernel/timel/tick_common.c 
static void tick periodic(int cpu); 


图 15-11 说 明了 该 函数 内 部 的 运作 方式 。 


图 15-11 ”tick_periodic 的 代码 流程 图 
如 果 当 前 时 钟 设备 负责 全 局 时 钟 ， 那 么 将 调用 do_timer。 回 想 前 文 ， 该 函数 在 15.2.1 节 讨论 过 。 
但 请 记 住 ，do_timer 负 责 更 新 全 局 jiffies 值 ， 该 值 在 内 核 的 许多 部 分 中 ， 用 作 粗 粒度 的 时 间 基 准 。 
每 个 时 钟 处 理 程 序 都 会 调用 update_process_times， 以 及 profile_tick。 第 一 个 水 数 在 15.2.1 
节 讨 论 过 。profile_tick 用 于 程序 性 能 剖析 ， 但 细节 不 在 这 里 讨论 。 
下 面 讲述 处 理 程 序 函 数 。 如 果 使 用 周期 事件 ， 那 么 处 理 也 会 更 容易 些 ; 


kernel/tick/tick-common.c 
void tick handle periodic(struct clock event device *dev) 
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{ 
int cpu = smp_processor id(); 
ktime 七 next; 
tick periodic(cpu); 
If (dev->mode != CLOCK_EVT MODE ONESHOT) 
return; 
内 核 只 需要 调用 tick_periodic。 如 果 时 钟 事件 设备 以 单 触发 模式 运行 ,那么 编程 设置 下 一 
个 时 钟 事 件 : 








kernel/tick/tick-common.c 


A 
* 编程 设置 设备 的 下 一 个 周期 ， 该 设备 没有 周期 模式 : 


4 
next = ktime add(dev->next_ event, tick period); 
for (3s) A 
IE (!clockevents_ program event (dev, next, ktime get())) 
return; 


tick_ periodic(cpu); 
next = ktime add (next, tick period); 


—- 














由 于 tick_gdevice->next_event 包 含 了 当前 时 钟 事件 的 时 间 ， 将 该 值 加 上 tick_period 指 定 的 
时 间 间 隔 长 度 , 即 可 计算 出 下 一 个 事件 发 生 的 时 间 。 编程 设 置 该 事件 , 通常 只 需要 调用 clockevents_ 
program_event。 如 果 该 调用 失败 ”， 是 因为 下 一 个 时 钟 事件 的 时 间 已 经 过 去 ， 那 么 内 核 将 手工 调用 


是 

























































































请 注意 ， 返 回 0 表示 成 功 ， 因 而 :clockevents_program_event (...) 是 在 检查 失败 的 情形 。 
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tick_periodic， 并 尝试 再 次 编程 设置 该 事件 ， 直 人 至 成 功 为止 。 
15.4 高 分 辩 率 定时 器 

在 讨论 了 通用 时 间 框 架 之 后 , 我 们 已 经 准备 好 进行 下 一 步 的 考察 , 深入 到 高 分 辨 率 定时 器 的 实现 
中 。 这 种 定时 器 与 低 分 辨 率 定 时 器 相 比 ， 有 如 下 两 个 根本 性 的 不 同 。 

(1) 高 分 辩 率 定时 器 按时 间 在 一 棵 红 黑 树 上 排序 。 

(2) 它们 独立 于 周期 时 钟 。 它 们 不 使 用 基于 jiffies 的 时 间 规 格 ， 而 是 采用 了 纳 秒 时 间 惟 。 

将 高 分 辩 率 定时 器 机 制 合并 到 内 核 中 是 一 个 有 趣 的 过 程 。 在 经 过 通常 的 开发 和 测试 阶段 之 后 ， 内 
核 版 本 2.6.16 包 含 了 该 特性 的 基本 框架 ， 提 供 了 下 述 特性 之 外 的 大 部 分 实现 : 对 高 分 状 率 定时 器 的 文 
持 ……: 但 在 该 版 本 中 ， 低 分 辨 率 定 时 器 的 经 典 实现 的 基础 部 分 已 经 替换 为 新 的 实现 。 该 实现 基于 高 分 
状 率 定时 器 框架 ， 尽 管 支 持 的 分 辩 率 并 不 比 以 前 好 。 随 后 的 内 核 版 本 提供 了 对 另 一 类 定时 器 的 文 持 ， 
这 些 定时 器 实际 上 提供 了 高 分 辨 率 功能 。 

这 种 合并 策略 不 仅 是 出 于 历史 方面 的 考虑 : 由 于 低 分 辨 率 定时 器 的 实现 基于 高 分 辩 率 机 制 ， 即 使 
不 启用 高 分 辩 率 定时 器 ， 内 核 中 也 会 联 编 〈 一 部 分 ) 对 高 分 辩 率 定时 器 的 支持 。 当 然 ， 这 种 情况 下 系 























统 只 能 够 提供 低 分 辨 率 定时 功 外 








高 分 辩 率 


器 





符号 CONFIG_HIGH_RES_TIMERS 探 表 


代码 才 会 编译 到 内 核 中 。 


GCC 


o 

















定时 器 框架 中 , 并 非 普遍 适用 


| ， 只 


~、 





实际 上 用 了 



































而 框架 的 通 





提供 高 分 辩 率 功能 支持 的 部 分 组 件 
有 在 编译 时 通过 该 选项 启用 高 分 辨 率 支 持 的 情况 下 ， 相 关 
部 分 总 是 会 编译 到 内 核 中 。 




















由 预 处 理 




































































国生 
中 加 O0000 
15.4.1 数据 结构 
高 分 辨 紊 定时 器 可 以 基于 两 种 时 钟 ( 称 为 吕 口 口 口 ，clockbase)。 单 调 时 钟 《CLOCK_MONOTONITC ) 
在 系统 启动 时 从 0 开始 。 另 一 种 时 钟 (cLOCK_REALTIME) 表示 系统 的 实际 时 间 。 后 一 种 时 钟 的 时 间 可 
能 发 生 跳跃 ， 例 如 在 系统 时 间 改 变 时 ， 但 单调 时 钟 始终 会 单调 地 运行 。 

































































































































































对 系统 中 的 每 个 CPU， 都 提供 了 一 个 包含 了 两 种 时 钟 基础 的 数据 结构 。 每 个 时 钟 基 础 都 有 一 个 红 
黑 树 ， 来 排序 所 有 待 决 的 高 分 辨 率 定时 器 。 图 15-12 给 出 了 相关 情况 的 图 形 化 概述 。 每 个 CPU 都 提供 两 
个 时 钟 基础 (单调 时 钟 和 实际 时 间 ) 。 所 有 定时 器 都 按 过 期 时 间 在 红 黑 树 上 排序 ， 如 果 定时 器 已 经 到 
期 但 其 处 理 程序 回调 函数 尚未 执行 ， 则 从 红 黑 树 迁 移 到 一 个 链表 中 。 

时 钟 基础 由 以 下 数据 结构 定义 : 

<hrtimer.h> 

struct hrtimer_ clock base { 

struct hrtimer cpu base *cpu base; 

ClOCkid. 二 index; 

struct rb_root active; 

struct rb node *first; 

ktime_t resolution; 

ktime 七 (*get_ time) (void); 

ktime 七 (*get_softirqg time) (void); 
ktime 七 softirqg time; 

#ifdef CONFIG HIGH_ RES_TIMERS 

Ktime 七 offset; 
汪 榴 入 (*reprogram) (struct hrtimer *t, 
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#endif 
这 


clock base[0] 
clock base[1] 


CPU1 





状态 信 


cb_pending 
clock base[0] 
clock base[1] 





CPU2 状态 信 ， 








cb_pendqing 


hrtimer_bases 
图 15-12 


各 个 字段 的 语义 如 下 。 
口 











用 于 


rb_root 是 一 个 红 黑 树 








index, 


上 4 





hrtimer_cpu_base 指 向 该 时 钟 基础 所 属 的 各 CPU 时 钟 基础 
区 分 CLOCK_MONOT 


的 根 结 点 ， 所 有 活动 


struct hrtimer_clock_ base *b, 
ktime 七 n); 


active 





2 Struct 
hrtimer 





first 





active 








黑 树 











first 


竺 决定 时 器 
回调 链表 











actve 





first 








active 














first 


struct hrtimer clock base 


用 于 实现 高 分 辨 率 定时 器 的 数据 结构 的 概述 








刀 


一 品 


构 。 





Em 


TONIC 和 CLOCK_ REALTIME 


的 定时 器 都 在 该 树 








P 排 序 。 

















First 指向 将 第 一 个 到 











期 的 


| 器 。 

















口 
口 
口 
口 对 高 分 辩 率 定时 器 的 处 到 
softirq _ time 存储 了 软 中 
有 果 未 局 用 高 分 辨 率 模式 ， 导 
get_time 读 取 细 粒度 的 时 
和 由)， 但 需要 进 和 
示 该 定时 器 


resolution 表 酉 



































了 一 些 简单 








沪 


o 








实际 时 间 之 间 的 优 
于 这 只 是 一 种 临 














时 效应 ， 














在 调整 实时 时 钟 时 ,会 造成 存储 在 CLOCK_REALTIMI 
offset 字 段 有 助 于 

















定时 

1 相关 的 软 中 断 HRTIMER_SOFTIRO 发 起 ， 将 在 下 一 节 描 述 。 
断 发 出 的 时 间 ， 而 get_softirq_time 函 数 可 用 于 获取 该 时 间 。 妇 
了 么 存储 的 时 间 将 是 粗 粒度 的 。 
闻 。 这 对 单调 时 钟 是 比较 简单 的 〈 可 直接 使 用 由 当 
的 算术 操作 ， 才 能 ; 转换 为 实际 的 系统 时 间 。 
的 分 辩 率 ， 单 位 为 


























前 时 钟 源 提供 的 


























第 该 什 


内 秒 。 





























E 时 钟 基础 上 的 定时 器 的 过 期 时 间 值 与 当前 
牙 正 这 种 情况 ， 它 表示 定时 器 需要 校正 的 偏 移 量 。 
很 少 发 生 ， 这 里 不 会 更 详细 地 讨论 这 种 复杂 情况 。 









































一 个 

















于 对 给 定 的 定时 器 事件 重新 编程 ， 即 修改 过 期 时 间 。 





口 reprogram 是 函数 ， 
对 每 个 CPU 来 说 ， 都 会 使 
<hrtimer.h> 


struct hrtimer_cpu base { 
struct hrtimer_cl 









































用 以 下 数据 结构 建立 两 个 时 钟 基础 : 








ock_base Clock base[HRTIMER MAX_ CLOCK_ BASES]; 








#ifdef CONFIG HIGH_ RES_TIMERS 
ktime 七 expires_next; 
开放 七 hres_active; 


struct list_head 
unsigned long 
#endif 
3 


cb_pending; 
nr_events; 
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HRTIMER_MAX_CLOCK_BASES 当 前 设置 
钟 和 实时 时 钟 。 请 注意 ， 
引用 。 该 结构 其 余 的 字段 用 法 如 下 。 









































Bs 

















为 2， 因 为 正如 前 文 的 讨论 ， 











口 expires_next 包 含 了 将 要 到 期 的 下 一 个 事件 的 绝对 时 间 。 








口 nres_active 用 作 一 个 布尔 变量 ， 


模式 。 

















表示 高 分 辨 率 模式 是 否 已 经 启用 ， 还 是 只 提供 了 低 分 关 








口 在 定时 器 到 期 时 ， 将 从 红 黑 树 迁移 到 一 个 链表 中 ， 表 头 为 co_penqing。" 请 注意 ， 该 链 对 





























base_cpu 的 一 个 实例 。 最 初 ， 相 应 实例 的 


kernel/hrtimer.c 




















{ 


.Clock_base = 
{ 
{ 


.index = 














的 定时 器 仍然 需要 进行 处 理 。 这 由 对 应 的 软 中 断 处 理 程序 完成 。 
口 nr_events 用 于 跟踪 记录 时 钟 中 断 的 总 数 。 
全 局 各 CPU 变量 hrtimer_cpu_base 中 ， 对 系统 中 的 每 个 处 理 器 ， 都 包含 了 struct hrtimer_ 



































内 容 如 下 : 


DEFINE_PER CPU(struct hrtimer cpu base, hrtimer bases) = 











CLOCK_REALTIME 


.Get time = &ktime get real, 


.resolut 


.index = 


ion = KTIME LOW_RES, 











CLOCK_MONOTONIC, 


.Get time = &ktime get, 


.resolut 


} 
































ion = KTIME LOW_RES, 

















前 每 个 CPU 只 对 应 于 单调 时 


时 钟 基础 的 数据 结构 是 直接 先入 到 了 hrtimer_cpu base 中 ， 而 非 通过 指针 






































于 系统 初始 化 为 低 分 辨 率 模式 ， 可 达到 的 分 辩 率 只 是 KTITME_LOW_RES。 该 预 处 理 器 常数 表示 在 
频率 为 HZ 的 周期 时 钟 下 ， 时 钟 信号 间隔 的 长 度 


单位 为 纳 秒 。 








ktime_get 和 ktime_get_real 都 通过 














使 用 getnstimeofday 来 获取 当前 时 间 ， 后 
我 们 仍然 漏 掉 了 一 个 非常 重要 的 组 伯 
据 结 构 : 


<hrtimer.h> 

struct hrtimer { 
struct rb_node 
ktime_t 
1 
struct hrtimer_ base 
unsigned long 

#ifdef CONFIG HIGH_ RES_TIMERS 
enum hrtimer_cb_mode 
struct list_head 

#endif 

于 





























Q 这 要 求 ， 允 许 在 软 中 断 的 上 下 文中 执行 定时 器 。 另 外 ， 定 时 器 也 可 能 如 























过 过 期 链表 进行 的 迁 回 处 理 。 





者 在 15.3 节 讨论 过 。 








FE 。 定 时 器 自身 是 如 何 定义 的 呢 ? 内 核 为 此 提供 了 下 列 数 


node; 

expires; 

(*function) (struct hrtimer *); 
*base; 

state; 


cb_mode; 
cb_entry; 








E 时 钟 硬件 的 IRQ 中 直接 到 期 ， 而 不 涉及 通 
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node 用 于 将 定时 器 维持 在 上 述 的 红 黑 树 中 。 而 base 指 向 定时 器 的 基础 。 对 定时 器 的 用 户 来 说 ， 
他 们 感 兴趣 的 字段 是 function 和 expires。 后 者 表示 到 期 时 间 , 而 function 则 是 在 定时 器 到 期 时 调用 
的 回调 函数 。cb_entry 是 链表 元 素 ， 可 用 于 将 定时 器 置 于 回调 链表 上 ， 其 表 头 为 hrtimer_cpu_ 
base->cb_pending。 每 个 定时 器 都 可 以 指定 一 些 情况 ， 在 这 些 情况 下 ， 该 定时 器 可 能 或 必须 运行 。 
有 下 列 选择 可 用 : 


<hrtimer.h> 
/* 
* hzrtimez 回 调 模式 : 















































































































































* HRTIMER_CB_SOFTIRQ : 回调 函数 必须 在 软 中 断 上 下 文 运行 

* HRTIMER_CB_IRQSAFE : 回调 函数 可 外 在 硬件 中 断 上 下 文 运行 

* HRTIMER CB_ IRQOSAFE NO_REST 0 可 调 函 数 可 能 在 硬件 中 断 上 下 文 运行 ， 不 会 重启 定时 器 
* HRTIMER CB_ IRQSAFE NO_SOFTI 可 调 函 数 必须 在 硬件 中 断 上 下 文 运行 

* 全 信和 的 特 到 入 式 

*/ 


enum hrtimer_cb mode { 

HRTIMER_ CB_SOFTIRO, 
HRTIMER_CB_IRQSAFE， 
HRTIMER_CB_IRQOSAFE_NO_RESTART ， 
HRTIMER_CB_IRQSAFE_NO_SOFTIRQ ， 

















了 
注释 很 好 地 解释 了 各 个 常量 的 语义 ， 无 需 袭 言 。 定 时 器 当前 的 状态 保存 在 state 中 。 有 下 列 可 能 值 。 
口 HRTIMER_STATE_INACTIVE 表 示 不 活动 的 定时 器 。 
口 在 时 钟 基础 上 排队 、 等 待 到 期 的 定时 器 ， 其 状态 为 HRTIMER_STATE_ENQUEUED。 
口 HRTIMER_STATE_CALLBACK 表 示 当 前 正在 执行 定时 器 的 回调 函数 。 
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口 在 定时 器 已 经 到 期 ， 正 在 回调 链表 上 等 待 执行 时 ， 为 HRTIMER_STATE_PENDING。 
可 调 函 数 本 身 值 得 进行 一 些 专门 的 考虑 。 有 两 个 可 能 的 返回 值 : 
<hrtimer.h> 


enum hrtimer_ restart { 
HRTIMER_NORESTART，/* 定时 器 无 须 重启 */ 
HRTIMER_RESTART，/* 定时 器 必须 重 由 */ 























到 

通常 , 回调 函数 结束 执行 时 会 返回 HRTIMER_NORESTART。 在 这 种 情况 下 , 该 定时 器 将 从 系统 消失 。 
但 定时 器 也 可 以 选择 重启 。 这 需要 在 回调 函数 中 执行 如 下 两 个 步骤 。 

(1) 回调 函数 的 结果 必须 是 HRTIMER_RESTART。 

(2) 定时 器 的 到 期 时 间 必 须 设置 为 未 来 的 某 个 时 间 点 。 回 调 函 数 可 以 执行 上 述 操作 ， 因 为 它 可 以 
通过 函数 参数 获得 一 个 指向 当前 运行 的 定时 器 hrtimer 实 例 的 指针 。 为 简化 操作 ， 内 核 提 供 了 一 个 辅 
助 函 数 ， 将 定时 器 的 到 期 时 间 癌 未 来 推移 : 


<hrtimer.h> 
unsigned long 
hrtimer_forward(struct hrtimer *timer, ktime t now, ktime 七 interval); 


该 函数 将 重 置 定时 器 , 使 之 在 now 之 后 到 期 (now 通常 设置 为 hrtimer_clock_base->get_time() 
的 返回 值 )。 确 切 的 到 期 时 间 ， 需 要 将 旧 的 到 期 时 间 加 上 interval， 通 常 都 是 在 now 之 后 。 该 函数 的 



























































































































































Xl 





























@ 在 很 少见 的 情况 下 ， 定 时 器 可 能 同时 处 于 HRTIMER_STATE_ENQUEUED 和 HRTIMER_STATE_CALLBACK 状 态 。 更 多 的 信 
息 ， 请 参见 <hrtimer .n> 中 的 注释 。 
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返回 值 指定 了 需要 在 旧 的 到 期 时 间 加 上 多 少 个 interval， 才 能 使 新 的 到 期 时 间 在 now 之 后 。 
我 们 通过 一 个 例子 来 说 明 其 行为 。 如 果 旧 的 过 期 时 间 是 5，now 是 12，interval 为 2， 那 么 新 的 到 
期 时 间 将 是 13。 返 回 值 为 4， 因 为 13 = 5 + 4x2。 
高 分 辩 率 定时 器 的 一 个 常见 应 用 , 就 是 使 一 个 进程 睡眠 一 段 比较 短 的 时 间 , 时 间 的 长 度 可 以 指定 。 
内 核 为 此 提供 了 另 一 个 数据 结构 : 


<hrtimer.h> 

struct hrtimer sleeper { 
struct hrtimer timer; 
struct task_struct *task; 







































































}; 
在 上 述 数据 结构 中 ， 一 个 hrtimer 实 例 和 一 个 指向 所 述 进 程 的 指针 绑 定 在 一 起 。 内 核 使 用 
hrtimer_wakeup 作 为 到 期 时 调用 的 回调 函数 ， 以 唤醒 睡眠 进程 。 在 定时 器 到 期 时 ， 可 使 用 
container_of 机 制 从 nrtimer 计 算出 hrtimer_sleeper 实 例 的 地 址 (请 注意 , 定时 器 是 幅 入 到 struct 
hrtimer_sleeper 中 的 ) ， 即 可 唤醒 相关 的 进程 。 


15.4.2 ”设置 定时 器 
设置 一 个 新 的 定时 器 需要 如 下 两 步 。 
(1) hrtimer_init 用 于 初始 化 一 个 hrtimer 实 例 。 


<hrtimer.h> 
void hrtimer_ init(struct hrtimer *timer, clockid t which clock, 
enum hrtimer mode mode); 


timer 表 示 受 影响 的 高 分 辩 率 定时 器 ，which_clock 是 定时 器 绑 定 的 目标 时 钟 ， 而 mode 指 定 了 是 































































































































































































使 用 相对 时 间 值 (相对 于 当前 时 间 〉 还 是 绝对 时 间 值 。mode 可 使 用 两 个 常数 : 
<hrtimer.h> 
enum hrtimer mode { 
HRTIMER_MODE_ABS, /* 时 间 值 是 绝对 的 */ 
HRTIMER_ MODE_ REL, /* 时 间 值 是 相对 于 当前 时 间 的 */ 
下 
(2) hrtimer_start 设 置 定时 器 的 到 期 时 间 ， 启动 定时 器 。 








这 两 个 函数 的 实现 都 是 纯粹 技术 性 的 ， 不 是 很 有 趣 ， 无 须 详细 讨论 其 代码 。 

为 取消 一 个 设置 好 的 定时 器 ， 内 核 提 供 了 hrtimer_cancel 和 hrtimer_try_to_cancel。 二 者 的 
差别 在 于 , hrtimer_try_to_cancel 提 供 了 额外 的 返回 值 ~1, 如 果 定 时 器 当前 正在 执行 因而 无 法 停止 ， 
则 返回 -1。 在 这 种 情况 下 ，hrtimer_cancel1 会 一 直 等 处 理 程序 执行 完毕 。 另 外 ， 如 果 定 时 器 处 于 未 
激活 状态 ， 两 个 函数 都 返回 9， 如 果 定 时 器 处 于 活动 状态 ( 即 状态 为 HRTIMER_STATE_ENQUEUED 或 
HRTIMER_STATE_PENDING) ， 二 者 都 返回 1。 

如 果 要 重启 一 个 取消 的 定时 器 ， 可 使 用 hrtimer_restart: 


<hrtimer.h> 

int hrtimer_cancel (struct hrtimer *timer) 

int hrtimer_ try_ to_cancel (struct hrtimer *timer) 
int hrtimer restart(struct hrtimer *timer) 


15.4.3 ”实现 


在 介绍 了 所 有 必需 的 数据 结构 和 组 件 之 后 ,我 们 填补 最 后 一 片 缺失 的 拼图 ， 讨 论 高 分 辨 率 定 时 器 
的 到 期 机 制 及 其 回调 函数 的 运行 方式 。 
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天 




































































































































































15.4 0UUODOO0OODODODO 741 














回想 前 文 ， 可 知 高 分 辩 率 定时 器 框架 有 一 部 分 总 是 会 编译 到 内 核 中 ， 即 使 禁用 了 对 高 分 辩 率 定时 
器 的 支持 。 在 这 种 情况 下 ， 高 分 辨 率 定 时 器 的 到 期 是 由 一 个 低 分 辩 率 时 钟 驱动 的 。 这 避免 了 代码 复制 ， 
因为 高 分 辨 率 定 时 器 的 用 户 ， 在 没有 高 分 辨 率 计 时 能 力 的 系统 上 ， 无 须 对 时 间 相 关 代码 提供 一 个 额 儿 
的 版 本 。 这 种 情况 下 ， 仍 然 会 采用 高 分 辨 率 框架 ， 但 只 以 低 分 辩 率 运作 。 

即使 高 分 辩 率 定时 器 支持 已 经 编译 到 内 核 中 ,但 在 启动 时 只 提供 了 低 分 辩 率 计时 功能 ， 这 与 上 述 
情况 是 相同 的 。 因 而 ， 在 考察 高 分 辩 率 定时 器 的 运行 时 ， 需 要 考虑 两 种 可 能 性 : 基于 具有 高 分 辩 率 计 
时 能 力 的 适当 时 钟 和 具有 低 分 辨 率 时 钟 。 

1. 高 分 辨 率 模式 下 的 高 分 状 率 定时 器 

我 们 首先 假定 一 个 高 分 辨 率 时 钟 已 经 设置 好 且 正 在 运行 中 , 而 向 高 分 辨 率 模式 的 迁移 已 经 完全 完 
成 。 这 种 一 般 的 情形 如 图 15-13 所 示 。 


hrtimer interrupt 


选中 到 其 
的 定时 器 











































































































































































迁移 到 到 期 链表 


高 分 辩 率 时 钟 中 断 



















重新 对 便 件 编程 ， 以 便 
个 事件 


有 件 到 期 时 引发 中 出 





























引发 HRTIMER_SOFTIRG 
软 中 断 


run hrtimer softirq 


处 理 待 决定 时 器 











HRTIMER_SOFTIRQ 软 中 断 
图 15-13 ”基于 高 分 辨 率 时 钟 的 高 分 辩 率 定时 器 的 到 期 操作 概述 


在 负责 高 分 辨 率 定时 器 的 时 钟 事件 设备 引发 一 个 中 断 时 , 将 调用 hrtimer_interrupt 作 为 事件 处 
理 程 序 。 该 函数 负责 选中 所 有 到 期 的 定时 器 ， 或 者 将 其 转移 到 过 期 链表 〈 如 果 它 们 可 以 在 软 中 断 上 下 
文 执行 )， 或 者 直接 调用 定时 器 的 处 理 程序 函数 。 在 对 时 钟 事件 设备 重新 编程 《使 得 在 下 一 个 待 决定 
时 器 到 期 时 可 以 引发 一 个 中 断 ) 之 后 ， 将 引发 软 中 断 HRTIMER_SOFTIRQ。 在 该 软 中 断 执 行 时 ， 
run_hrtimer_softirq 负 责 执行 到 期 链表 上 所 有 定时 器 的 处 理 程 序 函 数 。 
下 面 讨 论 负责 实 现 所 有 这 些 特性 的 代码 。 首 先 ， 考 虑 中 断 处 理 程序 hrtimer_interrupt。 最 初 ， 
需要 进行 一 些 必要 的 初始 化 工作 : 

kernel/hrtimer.c 

void hrtimer _ interrupt (struct clock event device *dev) 
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{ 
struct hrtimer cpu base *cpu base = &_ get cpu var(hrtimer bases); 
struct hrtimer_clock_ base *base; 
ktime 七 expires_ next, now; 

retry: 


now = ktime get(); 


expires_ next.tv64 = KTIME MAX; 
base = cpu_base->clock_base; 
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接 下 来 将 到 期 的 定时 器 ， 其 到 期 时 间 保 存在 expires_next 中 。 最 初 将 该 变 
是 表明 没有 下 一 个 定时 上 器。 函数 的 主要 工作 是 过 历 所 有 的 时 钟 基础 (单调 时 钟 和 实时 





时 钟 ) 。 


























kernel/hrtimer.c 


for (i = 0; i < HRTIMER MAX _ CLOCK_ BASES; i++) { 


ktime _t basenow; 


struct rb_ node *node; 


basenow = ktime_add (now, base->offset); 


本 质 上 ，basenow 表 示 当 前 时 间 。base->offset 仅 在 已 经 重 
此 这 不 会 影响 单调 时 钟 基础 。 从 base->first 开 始 ， 即 可 获得 红 黑 树 中 到 期 的 结 点 : 


kernel/hrtimer.c 






































站 











while ((node = base->first)) { 
struct hrtimer *timer; 
timer = rb_ entry(node, struct hrtimer, node); 
if (basenow.tv64 < timer->expires.tv64) { 
ktime_t expires; 
expires = ktime_ sub (timer->expires, 
base->offset); 
if (expires.tv64 < expires_ next.tv64) 


expires_ next = expires; 
break; 





量 设 置 为 KTIME ] 


新 调整 了 实时 时 钟 时 ， 才 是 非 零 人 





















































时 间 是 在 未 来 ， 那 么 可 以 停止 处 理 ， 离 开 while 循 环 。 但 时 
牛 设备 重新 编程 。 


如 果 下 一 个 定时 器 的 到 
期 时 间 ， 以 便 在 稍 后 对 时 钟 


山中 YY 
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HRTIMER_CB_SOFTIRQO)， 会 将 该 定时 器 移 亏 
器 。 在 用 ”remove_timer 移 除 该 定时 器 的 
定时 器 。 此 外 ， 该 函数 还 将 移 除 的 定时 器 状态 设置 为 HRTIMER_STAT 


kernel/hrtimer.c 



































E_PENDING: 

















if (timer->cb mode == HRTIMER CB_ SOFTIRQO) { 
__ remove_ hrtimer (timer, base, 


HRTIMER_STATE_PENDING, 0); 


list add tail(&timer->cb_ entry, 
&base->cpu_base->cb_ pending); 
raise = 1; 

continue; 


} 
如 果 不 允 许 在 软 中 断 上 下 文 执行 定时 器 的 处 理 程序 , 那么 将 直接 在 便 伯 
















































































回调 函数 。 请 注意 ， 这 一 次 _、 remove_timezr 将 定时 器 状态 设置 为 了 
调处 理 程 序 接 下 来 将 立即 执行 。 


kernel/hrtimer.c 
































__remove hrtimer (timer, base, 
HRTIMER_STATE_CALLBACK, 0); 




















if (timer->function(timer) != HRTIMER NORESTART) 
enqueue_ hrtimer (timer, base, 0); 


} 
timer->state &= “HRTIMER_STATE_ CALLBACK; 











期 ， 那 么 在 允许 在 软 中 断 上 下 文 执行 处 理 程 序 的 情况 下 ( 即 设置 了 
到 回调 链表 。continue 确 保 处 理 代码 将 转 问 下 一 个 定时 
同时 ， 也 通过 更 新 base->first 选 择 了 下 一 个 到 期 的 


RTIMER_STATE_CALLBACK， 因 为 回 


{ 


丰 要 记 住 该 到 




















吴 选 


件 中 断 上 下 文中 执行 定时 器 
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baset+t+; 


} 
回调 处 理 程序 通过 timer->function (timer) 执 行 。 如 果 处 理 程序 返回 HRTIMER_RESTART， 请 求 
EE 启 定 时 占 ， 那 么 通过 enqueue_hrtimer 来 完成 该 请 求 。 在 处 理 程序 已 经 执行 后 ， 可 以 清除 
RTIMER STATE_CALLBACK 标 志 。 
在 已 经 选择 了 所 有 时 钟 基础 的 待 决定 时 器 之 后 ， 内 核 需 要 对 时 钟 事件 设备 重新 编程 ， 以 便 在 下 一 
个 定时 器 到 期 时 引发 中 断 。 此 外 ， 如 果 有 定时 器 在 回调 链表 上 等 待 ， 则 必须 引发 HRTIMER_SOFTIRQ: 


kernel/hrtimer.c 
cpu_base->expires_ next = expires next; 
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/* 有 必要 重新 编程 ? */ 


if (expires next.tv64 != KTIME MAX) { 
if (tick program event (expires next, 0)) 
goto retry; 
} 


/* 需要 引发 软 中 断 ? */ 
if (raise) 
raise_softirg(HRTIMER_ SOFTIRQO); 





= 
请 注意 ， 如 果 下 一 个 定时 器 的 到 期 时 间 已 经 过 去 ， 那 么 重新 编程 会 失败 。 在 定时 器 的 处 理 花费 了 
太 长 时 间 的 情况 下 ， 会 发 生 这 种 情况 。 在 这 种 情况 下 ， 会 跳 转 到 函数 起 始 处 的 retry 标 号 ， 重 启 整 个 
处 理 序列 。 
最 后 还 需要 一 个 步 台 ,才能 完成 这 一 轮 的 高 分 辨 率 定 时 器 处 理 : 引发 软 中 断 执行 待 决定 时 器 的 回 
调 函 数 。 该 软 中 断 的 处 理 程序 是 run_hrtimer_softirq， 图 15-14 给 出 了 其 代码 流程 图 。” 


unehrtumer or 


timer->function 















































































































































遍历 所 有 待 
决定 时 器 








返回 
ER _ RESTARTY 


图 15-14 ”run_hrtimer_softirg 的 代码 流程 图 


本 质 上 ， 该 函数 将 遍历 所 有 待 决定 时 器 的 链表 。 对 每 个 定时 器 ， 都 将 执行 回调 处 理 程序 。 如 果 定 
时 器 请 求 重 启 ， 那 么 调用 enaueue_hrtimer 来 完成 所 需 的 工作 。 

2. 低 分 辨 率 模式 下 的 高 分 辨 率 定 时 器 

如 果 系 统 没 有 提供 高 分 辩 率 时 钟 ， 会 怎么 样 呢 ? 在 这 种 情况 下 ， 高 分 辩 率 定时 器 的 到 期 操作 由 
hrtimer_run_ queues 发 起 ， 该 函数 由 高 分 辩 率 定时 器 软 中 断 HRTIMER_SOFTIRQ 调 用 〈 由 于 软 中 断 处 
里 在 这 种 情况 下 是 基于 低 分 辨 率 定 时 器 ， 因 而 该 机 制 很 自然 不 能 提供 任何 高 分 辨 率 计 时 能 力 )。 其 代 
码 流程 图 如 图 15-15 所 示 。 请 注意 ， 这 是 一 个 简化 的 版 本 。 实 际 上 ， 该 函数 要 牵涉 更 多 的 因素 ， 因 为 从 
低 分 辨 率 到 高 分 辨 率 模式 的 切换 即 由 此 开始 的 。 但 这 些 问题 现在 不 会 影响 到 我 们 ， 所 需 的 相关 扩展 将 
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Q 这 里 忽略 了 一 种 边缘 情况 ， 即 在 定时 器 回调 已 经 执行 后 ， 该 定时 器 在 另 一 个 CPU 上 被 重启 。 如 果 该 定时 器 是 树 中 
第 一 个 到 期 的 ， 那 么 可 能 需要 对 时 钟 事件 设备 重新 编程 ， 以 设 定 新 的 到 期 时 间 。 
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在 15.4.5 节 讨论 。 


hrtimer_ get_softirq time 


run hrtimer queue 
遍历 所 有 时 钟 基础 


图 15-15 ”hrtimer_run_queues 的 代码 流程 


该 机 制 并 不 特别 复杂 : 在 hrtimer_get_softirq time 将 粗 粒度 的 时 间 值 保存 到 定时 器 基础 之 
后 ， 代 码 遍 历 所 有 时 钟 基 础 (单调 时 钟 和 实时 时 钟 》 并 用 run_hrtimer_queue 处 理 各 个 队列 中 的 项 。 

该 函数 首先 检查 是 否 有 定时 器 需要 处 理 ( 如 果 hrtimer_cpu_base 是 NULL 指 针 ， 那 么 不 存在 第 一 
个 定时 器 ， 即 没有 需要 处 理 的 定时 器 ) : 


kernel/hrtimer.c 
static inline void run hrtimer queue(struct hrtimer cpu base *cpu base, 
int index) 
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{ 
struct rb_node *node; 
struct hrtimer _ clock base *base = &cpu base->clock base[index]; 


if (!base->first) 
return; 


if (base->get_softirqgq time) 
base->softirg time = base->get_ softirg time(); 





























现在 ， 内 核 需 要 找到 所 有 已 经 到 期 且 必 须 被 激活 的 定时 器 : 


kernel/hrtimer.c 
while ((node = base->first)) { 
struct hrtimer *timer; 
enum hrtimer restart (*fn) (struct hrtimer *); 
int restart; 











timer = rb_entry (node, struct hrtimer, node); 
if (base->softirqg time.tv64 <= timer->expires.tv64) 
break; 


fn = timer->function; 
__remove hrtimer (timer, base, HRTIMER STATE CALLPBACK, 0); 


从 第 一 个 到 期 候选 定时 器 开始 (pase->first) ， 内 核 检 查 定 时 器 是 否 已 经 到 期 ， 如 果 到 期 ， 则 
调用 定时 器 的 处 理 程序 函数 。 回 想 前 文 ， 可 知 用 remove_timer 移 除 定时 器 时 ， 也 会 通过 更 新 
base->first 来 选中 下 一 个 到 期 候选 定时 器 。 此 外 ， 还 会 对 定时 器 设置 HRTTMPR_SmATE_CALLPRCK 标 
志 ， 因 为 其 回调 函数 即将 执行: 


kernel/hrtimer.c 
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restart = fnl(timer); 


timer->state &= “HRTIMER_STATE CALLBACK; 
if (restart != HRTIMER NORESTART) { 
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enqueue_hrtimer (timer, base, 0); 
} 

} 
在 处 理 程序 函数 结束 后 ， 可 以 重新 清除 HRTIMER_STATE_CALLBACK 标 志 。 如 果 定 时 器 要 求 
即 放 回 到 队列 中 ， 则 调用 enqueue_hrtimer 完 成 该 请 求 。 
15.4.4 周期 时 钟 仿真 

高 分 辩 率 模式 下 的 时 钟 事件 处 理 程序 是 nrtimer_interrupt。 这 意味 着 tick_handle periodic 
不 再 提供 周期 时 钟 信号 。 因 而 需要 基于 高 分 辩 率 定时 器 提供 一 个 等 效 的 功能 。 在 启用 /禁用 动态 时 钟 的 
情况 下 ， 实 现 〈 几 乎 ) 是 相同 的 。 动 态 时 钟 的 通用 框架 在 15.5 节 讨论 ， 这 里 只 粗略 讲 一 下 所 需 的 组 件 。 

本 质 上 ，tick_sched 是 一 个 专门 的 数据 结构 ， 用 于 管理 周期 时 钟 相关 的 所 有 信息 ， 由 全 局 变量 
tick_cpu_sched 为 每 个 CPU 分 别提 供 了 一 个 该 结构 的 实例 。 

在 内 核 切 换 到 高 分 辨 率 模 式 时 ， 将 调用 tick_setup_scheqd_timer 来 激活 时 钟 仿真 屋 。 这 将 为 每 
个 CPU 安装 一 个 高 分 辨 率 定 时 器 。 所 需 的 struct hrtimer 实 例 保 存在 各 CPU 变 量 tick_cpu_sched 中 : 


<tick.h> 
struct tick_ sched { 
struct hrtimer sched timer; 
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} 

该 定时 器 的 回调 函数 选择 了 tick_sched_timer。 为 避免 所 有 CPU 同时 运行 周期 时 钟 处 理 程序 的 
情况 ， 内 核 分 配 了 加 速 时 间 ， 如 图 15-16 所 示 。 回 想 前 文 ， 可 知 时 钟 周期 的 长 度 ( 单 位 为 纳 秒 ) 保存 在 
tick_period 中 。 时 钟 信号 将 在 周期 的 前 一 半 时 间 里 传播 。 假 定 第 一 个 时 钟 信号 起 始 于 时 间 0。 如 果 
系统 包含 N 个 CPU, 其 余 的 周期 时 钟 信号 分 别 起 始 于 时 间 A、2A、3A、… 偏 移 量 A 由 tick_period/ (2N) 
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cpyo 1 | 周期 时 钟 信号 
浓 秆 的 时 变 
2 ; | 发 生 的 时 刻 
CPU 3 | 
2 I 
CPUN 


0 tick period/2 tick period 时 间 轴 


图 15-16 ”高 分 辨 率 模式 下 周期 时 钟 处 理 程序 的 分 配 


用 于 周期 时 钟 仿真 的 定时 器 ， 其 注册 类 似 于 其 他 普通 的 高 分 辨 率 定 时 器 。 该 函数 与 tick_ 
periodic 有 些 类 似 ， 但 要 复杂 一 些 。 其 代码 流程 图 在 图 15-17 给 出 。 

如 果 当 前 执行 该 定时 器 的 CPU 负 责 提供 全 局 时 钟 (回想 前 文 可 知 ， 在 启动 时 ， 系 统 尚 处 于 低 分 辨 
率 模式 , 该 职责 已 经 分 配 到 具体 的 CPU), 那么 tick_do_update jiffies64 将 计算 自 上 一 次 更 新 以 来 
所 经 过 的 jiffies 数 目 ， 在 这 里 该 数目 总 是 1， 因 为 现在 不 考虑 动态 时 钟 。 此 前 讨论 的 函数 qo_timer 
用 于 处 理 全 局 定时 器 的 所 有 职责 。 回 想 前 文 可 知 ， 其 中 就 包括 了 对 全 局 变量 jiffies64 的 更 新 。 

在 update_process_times (参见 15.8 节 ) 和 profile_tick 中 执行 各 CPU 周 期 时 钟 任务 时 ， 需 要 
计算 下 一 个 事件 的 时 间 , 而 nrtimer_forward 将 据 此 对 定时 器 进行 设置 ,通过 返回 HRTIMER_RESTART， 
定时 器 将 自动 重新 进入 队列 ， 并 在 下 一 个 时 钟 到 期 时 激活 。 
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在 tick_period 之 后 设置 下 一 个 时 钟 
































返回 HRTIMER_RESTART 











对 














图 1$-17 tick_scheqd_timer 的 代码 流程 


15.4.5 ”切换 到 高 分 辨 率 定时 器 
最 初 ， 高 分 辩 率 定时 器 并 未 启用 ， 只 有 在 已 经 初始 化 了 适当 的 高 分 辨 率 时 钟 源 并 将 其 添加 到 通用 

























































































时 钟 框架 之 后 ， 才 能 启用 高 分 辩 紊 定时 器 。 但 在 最 初 ， 低 分 辨 率 时 钟 就 已 经 提供 了 。 下 文 将 讨论 内 核 
如 何 从 低 分 辨 率 模式 切换 到 高 分 辨 率 模式 。 

在 低 分 辩 率 定时 器 活动 时 ， 高 分 辩 率 队列 由 hrtimer_run_queue 处 理 。 在 队列 运行 前 , 该 函数 将 
仿 查 系统 中 是 否 存在 适用 于 高 分 辩 率 定时 器 的 时 钟 事件 设备 。 如 果 有 ， 则 切换 到 高 分 辩 率 模式 : 


























kernel/hrtimer.c 
void hrtimer_ run queues (void) 


{ 


if (tick check oneshot change(!'hrtimer_ is_ hres_enabled())) 
if (hrtimer_ switch to_hres()) 
return; 





如 果 有 一 个 文 持 单 触 发 模式 的 时 钟 ， 而 且 其 精度 可 以 达到 高 分 辨 率 定 时 器 所 要 求 的 分 辨 率 〈 即 设 
置 了 CLOCK_SOURCE_VALID_FOR_HRES 标 志 )， 那 么 tick_check_oneshot_change 将 通知 内 核 可 以 使 










































































高 分 辨 率 定 时 器 。 实 际 的 切换 由 hrtimer_switch_to_hres 执 行 。 图 15-18 概 括 了 所 需 的 步骤 。 


hrtimer switch to highres 


















Ecoanacghnoonres 


tick_switch to_oneshot (hrtimer_interrupt) 





在 时 钟 基 础 中 设置 分 辨 率 


tick_setup_sched_tiner | 
retrigger_next_event | 


图 1$-18 ”hrtimer_switch_to_hires 的 代码 流程 




















对 
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tick_init_switch to _highres 是 一 个 包装 器 函数 ， 它 使 用 tick_switch_to_oneshot 将 时 钟 
事件 设备 设置 为 单 触发 模式 。 另 外 ， 还 将 hrtimer_interrupt 设 置 为 事件 处 理 程序 。 然 后 ， 正 如 前 文 
的 讨论 ， 用 tick_init_highres 激 活 周期 时 钟 仿真 。 由 于 分 辩 率 现在 已 经 提高 ， 这 也 需要 反映 到 数 
据 结构 中 。 


kernel/hrtimer.c 
static int hrtimer switch to_ hres (void) 


C 






















































































base->hres_active = 1; 
base->clock_base[CLOCK REALTIME] .resolution = KTIME HIGH_RES; 
base->clock_base[CLOCK MONOTONIC] .resolution = KTIME HIGH_ RES; 


最 后 ，retrigger_next_event 对 时 钟 事件 设备 重新 编程 ， 启 动 整 个 运作 过 程 。 高 分 辨 紊 支 持 现 
在 已 经 生效 ! 


15.5 ”动态 时 钟 


多 年 以 来 ，Linux 内 核 中 的 时 间 概 念 都 是 由 周期 时 钟 提 供 的 。 该 方法 简单 而 有 效 ， 但 在 很 关注 耗 
电量 的 系统 上 ， 有 一 点 不 足 之 处 : 周期 时 钟 要 求 系统 在 一 定 的 频率 下 ， 周 期 性 地 处 于 活动 状态 。 因 此 ， 
长 时 间 的 休眠 是 不 可 能 的 。 

动态 时 钟 改 善 了 这 种 情况 。 只 有 在 有 些 任务 需要 实际 执行 时 ， 才 激活 周期 时 钟 。 和 否则 ， 会 临时 禁 
用 周期 时 钟 。 对 该 技术 的 支持 可 以 在 编译 时 选择 ， 启 用 此 选项 的 系统 也 称 为 DD DODDDO (tickless 
system)。 但 这 个 名 称 ee 因为 即使 在 这 种 情况 下 ,周期 时 钟 运行 的 基础 频率 HZ 仍然 为 时 
序 提供 了 一 个 基本 的 度量 工具 。 由 于 时 钟 可 以 根据 当前 的 需要 来 激活 或 停 用 ， 因 而 “动态 时 钟 ” 这 个 
术语 就 很 适用 。 

内 核 如 何 判定 系统 当前 是 否 无 事 可 做 ? 回想 第 2 章 的 内 容 ， 其 中 提 到 ， 如 果 运 行 队列 时 没有 活动 
进程 ， 内 核 将 选择 一 个 特别 的 idle 进 程 来 运行 。 此 时 ， 动 态 时 钟 机 制 将 开始 发 挥 作用 。 每 当选 中 idle 进 
程 运行 时 ， 都 将 禁用 周期 时 钟 ， 直 至 下 一 个 定时 器 即将 到 期 为 止 。 在 经 过 这 样 一 段 时 间 之 后 ， 或 者 有 
将 重新 启用 周期 时 钟 。 与 此 同时 ，CPU 可 以 进入 不 受 打扰 的 睡 眼 状态。 请 注意 ， 只 有 经 
典 定 时 器 需要 考虑 此 用 法 。 高 分 辩 率 定时 器 不 绑 定 到 时 钟 频率 ， 也 并 非 基 于 周期 时 钟 实现 。 
在 讨论 动态 时 钟 的 实现 之 前 ， 我 们 先 要 注意 ， 单 触发 时 钟 是 实现 动态 时 钟 的 先决 条 件 。 因 为 动态 
时 钟 的 一 个 关键 特性 是 可 以 根据 需要 来 停止 或 重启 时 钟 机 制 ， 纯 粹 周期 性 的 定时 器 根本 就 不 适用 于 该 
机 制 。 

下 文 提 到 周期 时 钟 时 ， 是 指 时 钟 的 实现 没有 使 用 动态 时 钟 。 这 决 不 能 与 工作 于 周期 模式 的 时 钟 事 
件 设备 相 混 淆 。 
15.5.1 数据 结构 

动态 时 钟 需要 根据 
以 下 数据 结构 进行 : 


<tick.h> 

struct tick_ sched { 
struct hrtimer sched timer; 
enum tick nohz_mode nohz_mode; 
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用 的 定时 器 分 辩 紊 高低 来 采用 不 同 的 实现 。 在 两 种 情况 下 ， 其 实现 都 是 围绕 
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ktime_t idle tick; 

int tick_stopped; 

unsigned long idle jiffies; 
unsigned long idle calls; 
unsigned long idle_ sleeps; 
ktime _t idle entrytime; 
time_t idle_sleeptime; 
time _t sleep_length; 
nsigned long last jiffies; 
nsigned long next jiffies; 
time t idle expires; 


六 中 


于 
各 个 成 员 的 用 法 如 下 。 

口 scheq_timer 表 示 用 于 实现 时 钟 的 定时 器 。 

口 当前 运作 模式 保存 在 nohz_mode 中 。 有 3 种 可 能 值 : 


<tick.h> 

enum tick nohz mode { 
NOHZ_MODE_INACTIVE, 
NOHZ_MODE_LOWRES, 
NOHZ_MODE_HIGHRES, 

































































}; 

如 果 周 期 时 钟 处 于 活动 状态 ， 则 使 用 NoOHz_MoOD_INACTIVE， 而 其 他 两 个 值 分 别 表示 所 使 用 的 

动态 时 钟 是 基于 低 / 高 分 辨 率 的 定时 器 。 
口 idle_tick 存 储 在 禁用 周期 时 钟 之 前 ， 上 一 个 时 钟 信号 的 到 期 时 间 。 这 对 于 了 解 何 时 再 次 启用 
周期 时 钟 是 很 重要 的 ， 因 为 下 一 个 时 钟 的 到 期 时 间 必 须 与 时 钟 禁 用 前 完全 一 致 ， 就 像 是 时 钟 
没有 禁用 一 样 。; 准 确 的 时 间 点 可 以 根据 iale_tick 中 保存 的 值 来 计算 。 然 后 加 上 数目 足够 多 的 
时 钟 周期 ， 以 获得 下 一 个 时 钟 信号 的 到 期 时 间 。 
口 如 果 周 期 时 钟 已 经 停 用 , 则 tick_stopped 为 1, 即 当 前 没有 什么 基于 周期 时 钟 信号 的 工作 要 做 。 

否则 ， 其 值 为 0。 
剩余 的 字段 用 于 记录 一 些 信息 。 
D iale_jiffies 存 储 了 周期 时 钟 禁 用 时 的 jiffies 值 。 
D idle_calls 统 计 了 内 核 试 图 停 用 周期 时 钟 的 次 数 。idle_sleeps 统 计 了 实际 上 成 功 停 用 周 

时 钟 的 次 数 。 这 两 个 值 可 能 是 不 同 的 ， 因 为 如 果 下 一 个 时 钟 即将 在 一 个 jiffy 之 后 到 期 ， 内 核 

不 会 停 用 时 钟 的 。 
口 idle_sleeptime 存 储 了 周期 时 钟 上 一 次 禁用 的 准确 时 间 (使 用 当前 最 佳 的 分 辨 率 )。 
口 sleep_length 存 储 了 周期 时 钟 将 禁用 的 时 间 长 度 ， 即 从 时 钟 禁用 起 ， 到 预定 将 发 生 的 下 一 个 
时 钟 信号 为 止 ， 这 一 段 时 间 的 长 度 。 
口 idle_sleeptime 累 计 了 时 钟 停 用 的 总 的 时 间 。 
口 next_jiffies 存 储 了 下 一 个 定时 器 到 期 时 间 的 jiffy 值 。 
口 idle_expires 存 储 了 下 一 个 将 到 期 的 经 典 定时 器 的 到 期 时 间 。 与 上 一 个 值 不 同 ， 这 个 值 的 分 
辨 紊 会 尽 可 能 高 ， 其 单位 不 是 jiffies。 
tick_sched 中 收集 的 统计 信息 通过 /proc/timer_1ist 导 出 到 用 户 层 。 
cick_cpu_scheq 是 一 个 全 局 各 CPU 变量 ， 提 供 了 一 个 struct tick_sched 实 例 。 这 是 必须 的 ， 
为 对 时 钟 的 禁用 是 按 CPU 指 定 的 ， 而 不 是 对 整个 系统 指定 。 
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15.5.2” 低 分 辩 率 系统 下 的 动态 时 钟 


考虑 内 核 不 使 用 高 分 辩 率 定时 器 ， 只 提供 低 分 辩 率 计时 功能 的 情形 。 这 种 场景 下 ， 如 何 实现 动态 
时 钟 ? 回想 上 文 可 知 ， 定 时 器 软 中 断 调 用 hrtimer_run_queues 来 处 理 高 分 辨 率 定 时 器 队列 ， 即 使 底 
层 时 钟 事件 设备 只 提供 了 低 分 辩 率 ， 也 是 如 此 。 当 然 ， 要 再 次 强调 这 并 不 会 为 定时 器 提供 更 好 的 分 辩 
率 ， 但 这 使 得 可 以 使 用 现存 的 框架 ， 而 无 须 关 注 时 钟 的 分 辨 紊 。 

1. 切换 到 动态 时 钟 

hrtimer_run_gqueues 调 用 tick_check_oneshot_change 来 判断 是 否 可 以 激活 高 分 辩 率 定时 器 。 
此 外 ， 该 函数 还 检查 是 否 可 以 在 低 分 辩 率 系统 上 启用 动态 时 钟 。 在 两 种 情况 下 ， 这 是 可 能 的 。 

(1) 提供 了 支持 单 触 发 模式 的 时 钟 事 件 设备 。 

(2) 未 启用 高 分 辩 率 模式 。 
如 果 二 者 都 满足 ， 那 么 将 调用 tick_nohz_switch_to_nohz 来 激活 动态 时 钟 。 但 这 没有 最 终 启用 
动态 时 钟 。 如 果 在 编译 时 禁用 了 对 无 时 钟 系统 的 支持 ， 那 么 上 述 函数 只是 一 个 衬 函 数 ， 内 核 仍 将 处 于 
周期 时 钟 模式 。 和 否则 ， 内 核 将 继续 进行 处 理 ， 如 图 15-19 所 示 。 











































































































































































































































tienohz >ewlitehnonnohez 
tick switch to oneshot(tick nohz handler) 


将 tick_sched->nohz_mode 设 置 为 NOHZ_MODE_LOWRES 


初始 化 时 钟 定 时 器 ， 编 程 设置 下 一 个 时 钟 周 期 信号 














图 15-19 tick_nonz_switch_to_nohz 的 代码 流程 图 


























迁移 到 动态 时 钟 模式 所 需 的 最 重要 的 改变 是 将 时 钟 事件 设备 设置 为 单 触 发 模式 , 并 安装 一 个 适当 
的 时 钟 定 时 器 处 理 程 序 。 这 是 通过 调用 tick_switch_to_oneshot 完 成 的 。 新 的 处 理 程序 是 
tick_nohz_handler， 将 在 下 文 考察 。 
于 动态 时 钟 模式 现在 已 经 激活 ，struct tick_sched 的 各 CPU 实 例 的 nohz_mode 字 上 段 将 改变 为 
NOHZ_MODE_LOWRES。 为 使 该 机 制 进 入 运转 ， 内 核 最 后 需要 激活 第 一 个 周期 时 钟 定时 器 ， 使 得 该 定时 
器 在 下 一 个 时 钟 信号 应 当 出 现 的 时 间 到 期 。 
2. 动态 时 钟 处 理 程序 
新 的 时 钟 定时 器 处 理 程 序 tick_nohz_handler 需 要 承担 如 下 两 个 职责 。 

(1) 执行 时 钟 机 制 所 需 的 所 有 操作 。 

(2) 对 时 钟 设备 重新 编程 ， 使 得 下 一 个 时 钟 信号 在 适当 的 时 候 到 期 。 

满足 这 些 需 求 的 代码 如 下 所 示 。 为 获得 struct tick_sched 的 各 CPU 实 例 和 当前 时 间 ， 需 要 一 些 
初始 化 工作 : 

kernel/timel/tick-sched.c 

static void tick nohz_handler (struct clock_ event_ device *dev) 


{ 






















































































































































































struct tick_ sched *ts = & get cpu var(tick cpu_ sched); 
struct pt_regs *regs = get_irq regs(); 

int cpu = smp_processor id(); 

ktime t now = ktime get(); 


dev->next_event.tv64 = KTIME MAX; 
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全 局 时 钟 设备 的 角色 仍然 由 一 个 特定 的 CPU 承 担 ， 处 理 程序 需要 检查 当前 CPU 是 否 负 责 该 时 钟 。 


但 对 动态 时 钟 来 说 ， 情 况 有 一 点 复杂 。 如 果 一 个 CPU 要 进入 比较 长 时 间 的 休眠 ， 不 能 继续 负责 全 局 时 
钟 , 需要 撤销 其 职责 。 如 果 是 这 样 , 那么 接 下 来 如 果 有 哪个 CPU 的 时 钟 定时 器 处 理 程序 被 调用 , 该 CPU 
必须 承担 该 职责 : ” 


kernel/time/tick-sched.c 
IE (unlikely(tick do timer cpu == -1)) 
tick do timer cpu = cpu; 
/* 检查 是 否 需要 更 新 jiffies */ 
IE (tick do _ timer cpu == cpu) 
tick do update jiffies64 (now); 































































































update process times (user mode (regs)); 
profile tick(CPU_ PROFILING); 


如 果 CPU 人 负责 提供 全 局 时 钟 ， 那 么 调用 tick_qdo_update_ jiffies64 就 足够 了 ， 该 函数 将 处 理 所 
有 相关 事项 ， 细 节 稍 后 讨论 。 而 update_process_times 和 profile_tick 将 接管 局 部 时 钟 的 职责 ， 读 
者 此 前 应 该 已 经 看 到 过 几 次 。 
关键 的 是 对 时 钟 设备 重新 编程 的 部 分 。 如 果 时 钟 机 制 在 当前 CPU 已 经 停 用 ， 重 新 编程 是 没有 必要 
的 ，CPU 可 以 进入 完全 的 睡眠 状态 。 (请 注意 ，next_event .tv64 = KTIME MAX 保证 事件 设备 在 最 
近 的 时 间 内 不 会 到 期 ， 实 际 上 可 能 永远 都 不 会 到 期 。) 

如 果 时 钟 定时 器 是 活动 的 ， 那 么 tick_nohz_reprogram 会 将 该 定时 器 设置 为 在 下 一 个 jiffy 到 期 。 
如 果 处 理 花 费 了 太 长 时 间 ， 导 致 下 一 个 时 钟 周期 已 经 成 为 过 去 ， 那 么 while 循 环 将 重复 重新 编程 的 工 
作 ， 直 至 成 功 为 止 。 


kernel/time/tick-sched.c 
/* 如 果 处 于 idle 循 环 中 ， 不 要 重启 时 钟 定 时 器 */ 
if (ts->tick_stopped) 
return; 
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while (tick nohz reprogram(ts, now)) { 
now = ktime get(); 
tick do update jiffies64 (now); 
} 
} 


3. 更 新 jiffies 

全 局 时 钟 设备 调用 tick_dqo_update_jiffies64 来 更 新 全 局 jiffies_64 变 量 ， 它 是 低 分 辨 率 定 
时 器 处 理 的 基础 。 在 使 用 周期 时 钟 时 ， 这 相对 简单 ， 因 为 每 过 一 个 jiffy， 都 会 调用 该 函数 。 在 启用 动 
态 时 钟 时 ， 可 能 出 现 这 种 情况 : 系统 的 所 有 CPU 都 处 于 idel 状 态 ， 系 统 处 于 没有 全 局 时 钟 的 状态 。 
tick_qdo_update_ jiffies64 需 要 考虑 这 种 情况 。 我 们 直接 看 一 下 代码 是 如 何 处 理 的 ; 

kernel/time/tick-sched.c 

static void tick do update jiffies64(ktime t now) 

i long ticks = 0; 

ktime_t delta; 












































































































































delta = ktime sub(now, last jiffies update); 

















Q@ 也 有 可 能 所 有 处 理 器 都 进入 睡眠 ， 其 时 间 都 长 于 一 个 jiffy。 内 核 需 要 考虑 这 种 情形 ， 正 如 下 文中 对 tick do_ 
updates_jiffies64 的 讨论 。 
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于 该 函数 需要 判断 ， 从 上 一 次 更 新 以 来 时 间 是 否 已 经 过 了 多 个 jiffy， 必 须 计 算 当 前 时 间 与 
last_jiffies_update 之 间 的 差 。 


很 自然 ， 仅 当 上 次 更 新 是 在 个 时 钟 周 期 之 前 时 ， 才 需 要 更 新 jiffies 值 : 


kernelltime/tick-sched.c 
if (delta.tv64 >= tick period.tv64) { 






































delta = ktime_ subl(delta, tick period); 
last_jiffies update = ktime add(last jiffies update, 
tick period); 
最 常见 的 情况 是 ， 自 上 次 更 新 jiffy 值 以 来 ， 己 经 过 去 了 一 个 时 钟 周期 ， 上 面 给 出 的 代码 相应 地 将 
last_jifies_update 加 1。 这 就 得 到 了 当前 的 时 钟 周期 数 。 

但 是 ， 上 一 次 更 新 也 可 能 是 在 多 于 一 个 时 钟 周期 之 前 。 在 这 种 情况 下 需要 的 工作 会 多 一 些 : 
kernel/timel/tick-sched.c 

/* 低速 路 径 ， 处 理 流逝 时 间 较 长 的 情况 */ 

if (unlikely(delta.tv64 >= tick period.tv64)) { 

s64 incr = ktime to ns(tick period); 
























































ticks = ktime_ divns (delta, incr); 


last_ jiffies update = ktime add ns(last jiffies update, 
ime EiGRS) 





} 
对 ticks 的 计算 , 会 得 出 比 实际 经 过 的 时 钟 周期 数 少 1 的 结果 ， 而 last_jiffies_updates 会 相应 
地 更 新 。 请 注意 ， 少 1 是 必要 的 ， 因 为 最 初 已 经 向 last_Jjiffies_updqate 增 加 了 一 个 时 钟 周期 。 这 样 ， 
常见 的 情形 ( 即 ， 自 从 上 次 更 新 以 来 ， 过 去 了 一 个 时 钟 周期 处理 得 很 快 ， 当 然 ， 不 常见 的 情况 在 
上 次 更 新 以 来 过 去 了 多 个 时 钟 周期 ) 需要 更 多 工作 来 处 理 。 
最 后 ， 调 用 do_timer 来 更 新 全 局 jiffies 值 ， 这 在 15.2.1 节 讨论 过 : 


kernelltime/tick-sched.c 
do_ timer (++ticks); 




























































































} 
} 


15.5.3 ”高 分 辨 率 系 统 下 的 动态 时 钟 


由 于 在 内 核 使 用 高 分 辩 京 时 ， 时钟 事件 设备 以 单 触发 模式 运行 ， 对 动态 时 钟 的 支持 比 低 分 辨 紊 情 
更 为 容易 实现 。 回 想 前 文 的 讨论 ， 周 期 时 钟 是 通过 tick_sched_timer 仿 真 的 。 该 函数 也 用 于 实现 
态 时 钟 。 在 15.4.4 节 的 讨论 中 ， 省 略 了 实现 动态 时 钟 需要 的 两 个 要 素 。 

(1) 由 于 CPU 可 能 放弃 全 局 时 钟 的 职责 ， 该 处 理 程序 需要 检查 现在 是 否 是 这 种 情况 ， 并 承担 该 职 
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kernel/timel/tick-sched.c 
#ifdef CONFIG NO_HZ 
If (unlikely (tick do timer cpu == -1)) 
tick_ do timer cpu = cpu; 
#endif 


该 代码 在 tick_scheq_timer 最 开始 运行 。 
(2) 在 处 理 程序 结束 时 ， 通 常 需 要 对 时 钟 设备 重新 编程 ， 使 得 下 一 个 时 钟 信号 在 适当 时 候 发 生 。 
如 果 时 钟 已 经 停止 ， 则 不 必 如 此 : 
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kernel/time/tick-sched.c 
/* 如 果 处 于 idle 循 环 中 ， 不 要 重启 定时 器 */ 
if (ts->tick_stopped) 

return HRTIMER NORESTART; 

在 高 分 辨 率 模式 下 初始 化 动态 时 钟 模式 ， 只 需要 在 现存 代码 中 修改 一 处 。 回 想 前 文 ， 可 知 tick_ 
setup_sched_timer 在 高 分 辨 率 下 用 于 初始 化 时 钟 仿真 层 。 如 果 在 编译 时 启用 动态 时 钟 ， 会 向 该 函数 
添加 一 小 段 代 码 : 

kernel/time/tick-sched.c 

void tick_ setup_sched timer (void) 


{ 

































































#ifdef CONFIG NO_HZ 
if (tick nohz_enabled) 
ts->nohz_mode = NOHZ_MODE_ HIGHRES; 
#endif 
} 


这 正式 宣布 了 开始 在 高 分 辨 紊 定时 器 下 使 用 动态 时 钟 。 
15.5.4 ”停止 和 启动 周期 时 钟 


动态 时 钟 提 供 了 和 暂时 延迟 周期 时 钟 的 框架 。 但 内 核 仍 然 需要 判断 在 何 时 停止 和 重启 时 钟 。 

民 自 然 的 一 种 做 法 是 ， 在 调度 idle 进 程 时 停止 时 钟 : 这 表明 处 理 器 确实 没什么 可 做 。 动 态 时 钟 

架 提供 了 tick_nohz_stop_scheq_tick， 用 于 停止 时 钟 。 请 注意 ， 该 函数 同时 适用 于 低 /高 分 辩 率 。 

如 果 编 译 时 停 用 了 动态 时 钟 ， 该 函数 将 替换 为 空 实 现 。 
idle 进 程 是 以 特定 于 体系 结构 的 方式 实现 的 ， 而 并 非 所 有 的 体系 结构 都 已 经 更 新 到 文 持 停 用 周期 

时 钟 。 在 本 书 撰写 时 ，ARM、MIPS、PowerPC、SuperH、Sparc64、IA-32、AMD64" 会 在 idle 进 程 关 

闭 时 钟 。 

集成 tick_nohz_stop_sched_tick 的 工作 相当 简单 ,例如 , 考虑 ARM 系 统 上 cpbu_iale 的 实现 (在 

idle 进 程 中 运行 ) : 


arch/arm/kernel/process.c 
void cpu_idle(void) 


{ 
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/* 无 限 的 idale 循 环 ， 根 本 没有 优先 级 */ 
while (1) { 


tick nohz_stop_sched tick() 
while (!need resched()) 
idle(); 





tick nohz_restart_scheqd tick(); 





} 
} 


其 他 体系 结构 在 一 些 细 节 方 面 有 所 不 同 ， 但 一 般 原 理 上 是 一 致 的 。 在 调用 tick _nohz_stop_ 
schedq_tick 关 闭 时 钟 后 ， 系 统 进 入 一 个 无 限 循 环 ， 在 该 处 理 器 上 有 一 个 进程 可 调度 时 ， 循 环 才 结 束 。 
时 钟 接 下 来 就 需要 使 用 了 ， 可 通过 tick_nohz_restart_schedq _tick 重 激活 。 


































































































GD 以 及 用 户 模式 Linux， 如 果 读 者 认为 那 是 一 个 独立 体系 结构 的 话 。 
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回想 前 文 ， 睡眠 进程 会 等 待 一 些 条 件 满足 ， 使 得 该 进程 切换 到 可 运行 状态 。 对 条 件 的 改变 可 通过 
中 断 通 知 ， 假 定 进程 在 等 待 一 些 数据 到 达 ， 而 该 中 断 将 通知 系统 数据 现在 已 经 可 用 。 由 于 从 内 核 的 
度 来 看 ， 中 断 可 能 发 生 在 随机 的 时 间 点 上 ， 因 而 很 可 能 是 这 样 ， 在 关闭 时 钟 的 idle 循 环 期 间 ， 引 发 了 
中 断 。 因 而 可 能 有 两 种 情况 需要 重启 时 钟 。 

(1) 一 个 外 部 中 断 使 某 个 进程 变 为 可 运行 ， 这 要 求 时 钟 机 制 恢复 工作 。” 在 这 种 情况 下 ， 时 钟 的 恢 
复 ， 比 最 初 计划 的 时 间 要 早 一 些 。 

(2) 下 一 个 时 钟 信号 即将 到 期 ， 而 时 钟 中 断 表明 到 期 时 间 已 经 到 来 。 在 这 种 情况 下 ， 时 钟 机 村 
恢复 与 此 前 的 计划 相同 。 

1. 停止 时 钟 

本 质 上 ，tick_nohz_stop_schedq_tick 需 要 执行 以 下 3 个 任务 。 

(1) 检查 下 一 个 定时 器 轮 事件 是 否 在 一 个 时 钟 周期 之 后 。 

(2) 如 果 是 这 样 ， 则 重新 编程 时 钟 设备 ， 忽 略 下 一 个 时 钟 周 期 信号 ， 直 至 有 必要 时 才 恢 复 。 这 将 
自动 忽略 所 有 不 需要 的 时 钟 信号 。 

(3) 在 tick_sched 中 更 新 统计 信息 。 
于 许多 细节 需要 关注 边 边 角 角 的 情况 ，tick_nohz_stop_sched_tick 的 实际 实现 相当 庞大 ， 
下 文 将 考虑 一 个 简化 版 本 。 
首先 ， 内 核 需 要 当前 CPU 的 时 钟 设备 和 tick_sched 实 例 : 


kernelltime/tick-sched.c 
void tick nohz_stop_sched tick(void) 


{ 
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unsigned long seq, last jiffies, next jiffies, delta jiffies, flags; 
struct tick_ sched *ts; 

ktime t last update, expires, now, delta; 

struct clock event device *dev = _ get cpu var(tick cpu device) .evtdev; 
int :Cou 


cpu = smp_processor_ id(); 
ts = &per_ cpul(tick cpu_ sched, cpu); 


其 中 更 新 了 一 些 统计 信息 。 回 想 前 文 ， 这 些 字 段 的 语义 已 经 在 15.5.1 节 描述 过 。 上 一 次 更 新 jiffy 
的 时 间 和 当前 的 jiffy 值 保存 在 局 部 变量 


kernel/timel/tick-sched.c 
now = ktime get(); 



























































ts->idle entrytime = now; 
ts->idle_ calls++; 


last _ update = last jiffies update; 

last_ jiffies = jiffies; 
只 有 在 下 一 个 周期 性 事件 是 在 一 个 时 钟 周 期 之 后 的 情况 下 ， 停 用 时 钟 才 是 有 意义 的 。 辅 助 函 数 
get_next_timer_interrupt 分 析 定 时 器 轮 ， 找 到 下 一 个 事件 到 期 的 jiffy 值 。delta_wheel 表 示 下 一 
个 事件 与 当前 时 间 的 间隔 ， 单 位 为 jiffies: 




































































GD 为 简化 曾 述 ， 这 里 忽略 了 一 种 情况 : 在 中 断 扰 动 了 无 时 钟 间 区 期 但 没有 改变 系统 状态 的 情况 下 ， 此 时 没有 进程 变 

为 可 运行 , irq_exit 也 会 调用 tick_nohz_stop_scheq_tick。 这 也 简化 了 对 tick_nohz_stop_schedq_tick 的 讨论 ， 
天 为 此 后 对 该 函数 的 多 次 调用 都 无 须 考虑 。 此 外 ， 我 没有 讨论 在 irg_enter 中 需要 更 新 jiffies 值 的 情况 ， 如 果 
不 更 新 ， 中 断 处 理 程 序 会 使 用 一 个 错误 的 时 间 值 。 负 责 此 工作 的 函数 是 tick_nohz_update_ jiffies。 
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kernel/timel/tick_sched.c 
/* 获得 下 一 个 定时 器 轮 定 时 器 */ 
next_jiffies = get next timer_ interrupt (last jiffies); 
delta jiffies = next jiffies -last jiffies; 


如 果 下 一 个 时 钟 信号 至 少 在 一 个 jifty 以 后 (请 注意 ， 可 能 还 有 一 些 
时 钟 设备 需要 据 此 重新 编程 


kernel/timerl/tick-sched.c 
/* 如 果 下 一 个 事件 至 少 在 一 个 jiffy 之 后 ， 则 调度 时 钟 */ 
if ((long)delta jiffies >= 1) { 


Mal 





l 件 己 经 在 当前 jiffy 到 期 )， 





4 























ts->idle tick = ts->sched timer.expires; 
ts->tick_stopped = 1; 
ts->idle jiffies = last jiffies; 
所 修改 tick_sched 字 段 的 语义 已 经 讨论 过 。 
如 果 当 前 CPU 必须 提供 全 局 时 钟 , 那么 此 职责 必须 转交 给 另 一 CPU。 这 只 需要 将 tick_do_timer_ 
cpu 设 置 为 -1 即 可 。 另 一 个 CPU 上 激活 的 下 一 个 时 钟 处 理 程序 ， 将 自动 接手 全 局 时 钟 源 的 职责 : 
kernel/time/tick-sched.c 


if (cpu == tick do _ timer_ cpu) 
tick do timer cpu = -1; 






































ts->idle_sleeps++; 
最 后 ， 将 对 时 钟 设 备 重新 编程 ， 以 便 在 未 来 的 适当 时 间 点 提供 下 一 个 事件 的 信号 。 虽 然 高 / 低 分 
辨 紊 模式 下 设置 定时 器 的 方法 不 同 ， 但 如 果 编 程 设置 成 功 ， 二 者 都 会 跳 转 到 标号 out: 
kernel/time/tick-sched.c 
expires = ktime add ns(last update, tick period.tv64 * 


delta jiffies); 
ts->idle expires = expires; 
























































if (ts->nohz _ mode == NOHZ_ MODE HIGHRES) { 
hrtimer_start (&ts->sched timer, expires, 
HRTIMER_MODE_ABS) ; 
/* 检查 定时 器 的 到 期 时 间 是 否 已 经 过 去 */ 
if (hrtimer active(&ts->sched timer)) 
TOtD DUE 
} else if(!'tick program event (expires, 0)) 
Ot DUE 





tick do update jiffies64(ktime get()); 


} 
raise_ softirq irqoff (TIMER SOFTIRQO); 


ua 

ts->next_jiffies = next_ jiffies; 

ts->last_jiffies = last jiffies; 

ts->sleep_length = ktime_ sub(dev->next_event, now); 
} 























如 果 重 新 编程 失败 , 那么 必然 是 在 处 理 过 程 中 花费 了 太 多 时 间 , 而 导致 下 一 个 到 期 时 间 已 经 过 去 。 
在 这 种 情况 下 ，tick_do_update jiffies_64 将 jiffies 更 新 为 正确 值 ， 并 引发 软 中 断 TIMER_SOFTIRQ 
来 处 理 任何 待 决 的 定时 器 轮 定 时 器 。 请 注意 ， 如 果 在 当前 jiffty 有 事件 到 期 ， 也 会 引发 该 软 中 断 。 

2. 重启 时 钟 

tick_nohz_restart_scheq_tick 用 于 重启 时 钟 。 其 代码 流程 图 在 图 15-20 给 呈 
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tick nohz_ restart_sched tick 
tick do update Jiffies64 


统计 空闲 〈idle) 时 间 


















将 tick_sched->tick_stopped 设 置 为 0 








为 下 一 个 时 钟 周 期 信号 编程 














图 15-20 ”tick_nohz_restart_schegd_tick 的 代码 流程 图 


同样 ， 该 函数 的 实现 被 各 种 技术 细节 搞 得 很 复杂 ， 但 其 一 般 原理 是 很 简单 的 。 首 先 调用 我 们 熟悉 
的 tick_do_updates_jiffies64。 在 正确 地 统计 宇 闲 时 间 之 后 , 将 tick_sched->tick_stopped 设 置 
为 0， 因 为 时 钟 现 在 再 次 激活 了 。 最 后 ， 需 要 对 下 一 个 时 钟 事件 编程 。 这 是 必要 的 ， 因 为 外 部 中 断 的 
存在 ， 可 能 导致 空闲 时 间 的 结束 早 于 预期 。 


15.6 广播 模式 


在 一 些 体系 结构 上 ， 在 某 些 省 电 模 式 启用 时 ， 时 钟 事件 设备 将 进入 睡眠 。 垃 好 ， 系 统 不 是 只 有 
个 时 钟 事件 设备 ， 因 此 仍然 可 以 用 另 一 个 可 工作 的 设备 来 奉 换 停止 的 设备 。 全 局 变量 tick_ 
broadcast_device 定 义 在 kernel/tick/tick-broadcast.c 中 ， 即 为 用 于 广播 设备 的 tick_ 
device 实 例 。 


图 15-21 给 出 了 一 个 广播 模式 的 概述 。 


@ tick handle periodic broadcast 





























































































































































































































































Io 中 人 apic_timer 中 汤 
刁 CPU 0 上 和 刁 CPU 2 上 刁 CPU 3 上 
TT T TIT _TTTT 
IPl 
IPI 





图 15-21 在 使 用 广播 设备 来 代替 不 工作 的 时 钟 设备 时 ， 系 统 情况 的 概述 


在 这 种 情况 下 ，APIC 设 备 是 不 工作 的 ， 但 广播 事件 设备 仍然 可 工作 。tick_handle_perioaic 
broadcast 用 作 事 件 处 理 程序 。 它 可 以 处 理 广 播 设 备 的 周期 模式 和 单 触发 模式 , 我 们 无 须 进 一 步 关注 。 
该 处 理 程序 在 每 个 tick_period 之 后 都 会 激活 。 
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广播 处 理 程序 使 用 了 tick_do_periodic_pbroadcast。 其 代码 流程 图 在 图 15-22 给 出 。 该 函数 调 
入 了 当前 CPU 上 不 工作 设备 的 event_handler 方 法 。 该 处 理 程序 不 能 区 分 对 其 调用 是 来 自 于 时 钟 中 断 
还 是 广播 设备 ， 因 而 会 像 底 层 事件 设备 仍然 正常 工作 一 样 去 执行 。 


tick do _ Periodic broadcast 


确定 受 影响 的 CPU 



























































































tick_do_broadcast 





当前 CPU 处 于 广播 措 码 中 ? 


















从 掩 码 移 除 该 CPU 























对 当前 CPU 调 





用 event_handqler 

















掩 码 中 有 更 多 的 CPU? 一 >| 调用 broadcast 方 法 


























图 15-22”tick_do_periodic_pbroadcast 的 代码 流程 图 


如 果 有 更 多 不 工作 的 时 钟 设备 , 那么 tick_do_broadcast 将 利用 链表 中 第 一 个 设备 的 broadcast 
方法 。” 对 局 部 APIC 来 说 ，broadcast 方 法 指向 lapic_timer_broadcast。 对 所 有 与 不 工作 时 钟 设备 
相关 联 的 CPU, 该 方法 都 负责 发 送 D D0 D0 DDD (inter-processor interrupt, IPI) LOCAL_TIMER_VECTOR。 
该 中 断 的 中 断 向 量 由 内 核 设置 为 调用 apic_timer_interrupt。 其 结果 就 是 ， 时 钟 事件 设备 无 法 区 分 
IPI 和 真正 的 中 断 ， 因 而 其 效果 与 设备 仍然 处 于 工作 状态 是 相同 的 。 

处 理 器 间 中 断 是 很 慢 的 , 因而 不 会 提供 高 分 辩 率 定时 器 所 需 的 精度 和 分 辩 率 。 因 而 如 果 需 要 广播 ， 
内 核 总 是 切换 到 低 分 辨 率 模式 。 

15.7 ”定时 器 相关 系统 调用 的 实现 

内 核 提 供 了 几 个 与 定时 器 相关 的 系统 调用 ， 下 文 将 考虑 其 中 最 
15.7.1 ”时间 基 准 

在 使 用 定时 器 时 ， 有 3 个 选项 可 以 区 分 如 何 计算 经 过 的 时 间 ， 或 定时 器 所 处 的 时 间 基 准 2?。 内 核 提 
供 了 以 下 形式 的 时 间 基 准 ， 在 超时 发 生 时 ， 会 触发 各 种 信号。 

口 ITIMER_REAL 测 量 定时 器 激活 以 来 实际 流逝 的 时 间 ， 以 便 在 超时 时 间 达 到 时 发 出 信号 。 在 这 种 
情况 下 ， 定 时 器 会 继续 运转 ， 而 不 管 系统 是 处 于 核心 态 还 是 用 户 态 ， 或 使 用 该 定时 器 的 应 用 
程序 当前 是 否 在 运行 。 在 定时 器 到 期 时 将 发 出 sSIGALRM 类 型 的 信号 。 

口 ITIMER_VIRTUAL 内 在 定时 器 的 拥有 者 进程 在 用 户 态 消耗 的 时 间 内 运行 。 在 这 种 情况 下 ， 在 核 
心态 (或 处 理 器 忙于 男 一 个 应 用 程序 ) 消耗 的 时 间 将 忽略 。 定 时 器 到 期 通过 sITGVTALRM 信 号 


表 不 。 


口 ITIMER_PROF 计 算 进 程 在 用 户 态 和 核心 态 消耗 的 时 间 , 在 内 核 代表 该 进程 执行 系统 调用 时 , 仍 




































































































































































E 要 的 一 些 。 





[Nail 










































































































































































G@ 这 是 可 能 的 ， 因 为 目前 对 所 有 不 工作 的 设备 都 会 安装 同一 广播 处 理 程 序 。 
@) 通常 也 称 为 0] 0D 0D (time domain )。 
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然 会 计算 时 间 的 消耗 ,。 系统 其 他 进程 消耗 的 时 间 将 忽略 。 定 时 器 到 期 时 发 送 的 信号 是 SIGPROF。 

顾名思义 ， 该 定时 器 的 主要 用 途 是 剖析 应 用 程序 的 性 能 ， 以 查找 程序 中 计算 最 密集 的 片段 ， 并 据 

此 进行 优化 。 这 是 一 项 重要 的 考虑 ， 特 别 是 在 科学 计算 或 操作 系统 相关 应 用 中 。 

定时 器 的 类 型 和 时 间 间 隔 的 长 度 ， 都 必须 在 创建 间隔 定时 器 时 指定 。 在 我 们 的 例子 中 ， 使 用 了 

TITIMER_REAT 来 创建 一 个 实时 定时 器 。 

报警 定时 器 的 行为 可 以 用 间隔 定时 器 仿真 ， 选 择 TITIMER_REAL 作 为 定时 器 类 型 ， 在 第 一 次 到 期 后 
删除 定时 器 即 可 。 因 而 可 以 认为 ， 间 隔 定 时 器 是 报警 定时 器 的 一 种 一 般 形 式 。 


15.7.2 ”alarm 和 setitimer 系 统 调用 


alarm 安 装 ITIMER_REAL 类 型 的 定时 器 (实时 定时 器 ) ， 而 setitimer 不 仅 可 用 于 安装 实时 定时 
器 ， 还 可 以 安装 虚拟 和 前 析 定时 器 。 这 两 个 系统 调用 都 结束 于 do_setitimer。 两 个 系统 调用 的 实现 
都 依赖 于 kernel/itimer.c 中 定义 的 一 种 共同 机 制 。 实 现 围绕 struct hrtimer 展 开 ， 因 而 如 果 高 分 
辩 率 支持 可 用 , 那么 用 户 层 会 自动 利用 相应 的 优点 ， 而 不 仅仅 只 能 在 内 核 中 利用 。 请 注意 ,由 于 alarm 
使 用 了 ITIMER_REAL 类 型 的 定时 器 ， 这 两 个 系统 调用 可 能 相互 干扰 。 

照例 ， 这 两 个 系统 调用 的 起 点 分 别 是 sys_alarm 和 sys_setitimer 函 数 。 这 两 个 函数 都 使 用 辅助 
函数 do_setitimer 来 实际 实现 定时 器 : 


kernel/itimer.c 
int do_setitimer(int which, struct itimerval *value, struct itimerval *ovalue) 


该 函数 需要 3 个 参数 。which 指 定 了 定时 器 类 型 ， 可 以 是 ITIMER_REAL 、ITIMER_VIRTURAL 或 
ITIMER_PROF 。value 包 含有 关 新 定时 器 的 所 有 信息 。 如 果 定 时 器 将 替换 某 个 现存 定时 器 ， 那 么 可 使 
用 ovalue 来 返回 此 前 活动 的 定时 器 的 描述 。 

指定 定时 器 的 属性 是 比较 简单 的 : 


<time.h> 
struct itimerval { 
struct timeval it_interval; /* 定时 器 时 间 间 隔 


struct timeval it_value; /* 当前 值 */ 












































































































































































































































































































































































































































本 质 上 ，timeval 表 示 一 个 时 间 间 隔 长 度 ， 在 该 间隔 之 后 定时 器 将 到 期 。it_value 表 示 到 定时 器 
下 一 次 到 期 之 前 ， 还 剩余 的 时 间 长 度 。 所 有 的 细节 都 可 以 参考 手册 页 setitimer(2) 。 

1. 对 进程 结构 task_struct 的 扩展 

每 个 进程 的 task_struct 实 例 都 包含 一 个 指针 ， 指 问 一 个 struct signal_struct 的 实例 ， 其 中 
包含 了 几 个 成 员 ， 用 于 容纳 定时 器 所 需 的 信息 : 


<sched.h> 
struct signal_ struct { 























Pr 


















































/* 进程 的 ITIMER_REAL 定 时 器 */ 
struct hrtimer real timer; 
struct task_struct *tsk; 
ktime 七 it real_ incr; 











/* 进程 的 ITIMER_PROF 和 ITIMER_VIRTUAL 定 时 器 */ 
cputime t it prof expires, it virt expires; 
cputime 七 it. prof incer, it._virt_ iner; 
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安装 后 ， 这 些 属 性 
会 “和 窗 盖 ”此 前 的 定 有 














有 两 个 字段 分 别 为 音 


I 析 定 时 器 和 虚拟 定时 器 保留 。 





(1) 下 一 次 定时 器 到 期 的 时 间 (it_prof_expires 和 it_virt expires) 。 


(2) 定时 器 在 多 长 时 


= 





real_timer 是 





时 定时 器 。 其 他 类 型 的 两 
的 task_struc 

















hrtimer 














alarm 机 制 管 理 更 多 的 定时 器 。 例 如 ， 一 个 进程 可 以 同时 
不 能 是 两 个 实时 定时 器 。 
































1 


























FPF 指 定 。 
现存 的 数据 结构 ， 内 核 不 能 用 setitimer 和 


间 之 后 调用 (it_prof_incr 和 it_virt incr) 。 

的 实例 〈 不 是 指针 ) ， 将 插入 到 内 核 的 其 他 数据 结构 中 ， 用 于 实现 实 
种 定时 器 《虚拟 和 剖析 ) 的 管理 无 须 此 数据 : 
上 实例。 实时 定时 器 的 间隔 在 it_real_inczj 
因而 每 个 进程 可 以 有 3 个 不 同类 型 的 定时 器 ， 根 扩 











页 。tsk 指 向 设置 定时 器 的 进程 














执行 


个 虚拟 定时 器 和 一 个 实时 定时 器 ， 但 





POSIX 定 时 器 实现 在 kernel/posix-timers.c 中 , 提供 了 对 此 方案 的 一 个 扩展 , 它 允 许 更 多 的 定 




















2. 实时 定时 器 





时 器 ， 但 无 须 更 进一步 讨论 。 虚 拟 和 剖析 定时 器 也 是 基于 此 框架 实现 的 。 

















在 安装 实时 定时 器 (ITIMER_REAL) 时 ， 首 先 必 须 保 存 可 能 存在 的 旧 定 时 器 的 属性 〈 在 新 定时 器 



































FE 将 i 











定时 器 的 时 间 间 


那么 该 定时 器 不 是 周 共 














时 间 到 期 。 


在 动态 定时 






































I 期 时 ， 不 会 有 处 理 程序 例 程 在 用 户 空间 执 4 



































调用 信和 号 处 理 











设置 为 周期 性 的 ? 






















































































内 核 使 用 ] 





程序 it_real_fn， 它 将 对 所 有 用 





而 间接 调用 了 一 个 回调 函数 。 内 核 如 何 





























户 层 ) ， 并 用 hrtimer_try_to_cancel 取 消 旧 定时 器 。 安 装 定 时 器 时 ， 














明 保 存在 特定 于 进程 的 signal_struct->it_real_incr 字 上 段 ( 如 果 该 字段 为 零 ， 
的 ， 而 只 能 激活 一 次 )，hrtimer_start 将 启动 定时 器 ， 该 定时 器 在 指定 的 








。 相 反 ， 系 统 会 生成 一 个 信号 ， 导 致 




















站 保 该 信号 会 被 发 送 ， 而 如 何 将 定时 器 


户 室 间 实时 定时 器 的 执行 。 该 函数 向 安装 

















定时 器 的 进程 发 送 STGat， 
相反 ， 在 进程 上 下 文 


用 hrtimer_forward 前 推 
































言 号 ， 但 不 会 重新 设置 信号 处 理 程序 以 使 得 信号 具有 周期 性 。 
投递 信号 时 (确切 地 说 ， 在 dequeue_signal 中 ), 会 重新 安装 定时 器 。 在 
寺 间 之 后 ， 用 hrtimer_res 
































在 定时 器 到 翅 
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将 导致 在 定时 器 代码 
避免 了 这 各 情况。 


















































要 记录 文件 上 次 修改 














然而 对 第 一 项 用 
一 致 )， 绝 对 精度 不 昼 
或 快 、 或 慢 或 者 是 快 
法 就 是 与 一 个 可 靠 的 

















这 里 不 会 进 





内 核 提供 了 两 种 方法 ， 可 





























的 时 间或 一 些 









































启 定 时 器 。 


Latt 村 
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时 钟 源 《〈 例 如， 一 个 原子 钟 ) 通过 NTP 同 步 。 











用 于 获取 时 间 信 息 。 
































， 内 核 为 何不 立即 重新 激活 定时 器 ?更 早 的 内 核 版 本 确实 选择 了 这 种 方法 , 但 
会 出 现 问题 。 进 程 可 以 选择 非常 短 的 重复 周期 ， 使 得 定时 器 反复 到 期 ， 这 
花费 过 多 时 间 。 说 得 直接 些 ， 这 也 可 以 称 为 一 种 拒绝 服务 攻击 ， 而 现在 的 方法 

















， 使 得 我 们 需要 获得 系统 的 当前 时 间 。 首 先 ， 许 多 操作 依赖 于 时 间 惟 ， 例 如 ， 内 核 需 
日 志 信 息 产生 的 时 间 。 其 次 , 系统 的 绝对 时 间 , 即 外 界 的 实际 时 间 ， 

















途 来 说 ， 只 要 时 序 是 连续 的 〈 即 ， 连 续 操 作 的 时 间 戳 的 顺序 应 与 其 实际 操作 顺序 
要 。 但 对 第 二 项 用 途 来 说 ， 精 度 更 重 
滥 随 机 组 合 。 有 各 种 方法 可 解决 该 问题 ， 














要 些 。 便 件 时 钟 在 精度 方面 只 名 昭著 ， 
计算 机 的 时 代 ， 一 个 最 常见 的 方 























于 这 纯粹 是 一 个 用 户 层 的 问题 ， 
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(1) 系统 调用 agjtimex。 有 一 个 同名 小 实用 程序 ， 可 用 于 快速 显示 该 系统 调用 导出 的 信息 。 该 系 
统 调用 用 来 读 取 当前 内 核 内 部 时 间 。 其 他 可 能 性 都 记录 在 相关 的 手 

















手册 页 agj timex(2) 中 。 
QQ) 设备 特殊 文件 /dev/rtc。 该 时 钟 源 可 以 运作 于 各 种 模式 ， 其 中 一 种 模式 可 向 调用 者 提供 当前 
日 期 和 时 间 。 

下 文 将 专注 于 adjtimex。 入 口 点 照例 是 sys_adjtimex， 但 经 过 一 些 准 备 工作 之 后 ， 实 际 工作 委 
托 给 do_adjtimex。 该 函数 相当 匈 长 ， 但 我 们 感 兴趣 的 部 分 还 比较 短 : 


kernel/time.c 
Int do adjtimex(struct timex *txc) 















































do_gettimeofday (&txc->time); 


人 
对 do_gettimeofday 的 调用 ， 可 以 获得 内 核 内 部 时 间 ， 分 辩 率 是 最 佳 的 可 能 分 辨 率 。 为 此 使 用 了 
内 核 选择 的 最 佳 时 钟 源 ， 如 15.4 节 所 述 。 


15.8 ”管理 进程 时 间 
task_struct 实 例 包含 了 两 个 与 进程 时 间 有 关 的 成 员 ， 在 这 里 比较 重 


<sched.h> 
struct task_struct { 









































问 














cputime t utime, stime; 





这 
update_process_times 用 于 管理 特定 于 进程 的 时 间 数 据 ， 从 局 部 时 钟 调用 。 
根据 图 15-23 给 出 的 代码 流程 图 ， 有 4 项 工作 需要 完成 。 


update process_ times 
account process_tick 
run_ local timers 


Scheduler _ tick 


































































run posix cpu timers 





图 15-23 ”update_process_times 的 代码 流程 图 
































(1) account_process_tick 使 用 account_user_time 或 account_sys_time 来 更 新 进程 在 用 户 
ee 即 task_struct 中 的 utime 或 stime 成 员 。 如 果 进 程 超出 了 R1limit 指 定 
的 CPU 份 额 限制 ， 那 么 还 会 每 隔 1 秒 发 送 sIGXCPU 信 号 。 

(2) tie 册 0 性 忆 疝 瑟 或 对 其 进行 到 期 操作 。 回 想 前 文 ， 这 在 15.2 节 已 经 
详细 讨论 过 。 

(3) schedquler_tick 是 一 个 辅助 函数 ， 用 于 CPU 调度 器 ， 在 第 2 章 讨论 过 。 

(4) run_posix_cpu_ timers 使 当前 注册 的 PosIX 定 时 器 开始 运行 。 这 包括 运行 前 述 的 的 间隔 定时 
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器 ， 因 为 其 实现 基于 POSTX 定 时 器 。 因 为 我 们 对 这 些 定时 器 不 太 感 兴趣 ， 所 以 就 不 详细 阐述 其 实现 了 。 


15.9 ”小结 


内 核 为 各 种 需要 而 跟踪 记录 时 间 ， 为 解决 该 问题 需要 考虑 很 多 方面 的 因素 。 在 本 章 中 ， 首 先 向 读 
者 介绍 了 计时 的 一 般 概念 ， 以 及 定时 器 和 超时 之 间 的 差别 。 你 已 经 知道 ， 定 时 器 和 超时 的 实现 是 基于 
可 以 管理 时 间 的 硬件。 通常 ， 每 个 系统 都 包含 多 个 与 之 相关 的 组 件 ， 本 章 向 读者 介绍 了 用 于 表示 这 些 
组 件 并 按 质量 对 其 分 类 的 各 数据 结构 。 传 统 上 ， 内 核 依赖 于 低 分 辩 率 定时 器 ， 但 最 新 的 硬件 发 展 以 及 
对 计时 子 系统 的 重 写 ， 使 得 可 以 引入 一 类 新 的 高 分 辨 率 定 时 器 。 
在 讨论 了 高 / 低 分 辩 率 定时 器 的 实现 之 后 ， 本 章 向 读者 介绍 了 动态 时 钟 的 概念 。 传 统 上 ， 会 使 用 
一 个 频率 为 Hz 的 周期 定时 器 作为 时 钟 ， 但 对 于 缺乏 电力 的 系统 来 说 ， 这 不 是 最 优选 择 : 在 系统 处 于 空 
闲 状态 , 无 事 可 做 时 ， 时 钟 信号 是 多 余 的 ， 可 以 暂时 停 用 ， 使 得 系统 各 组 件 可 以 进入 更 深 的 睡眠 状态 ， 
而 不 是 被 时 钟 信号 周期 性 地 唤醒 。 动 态 时 钟 模式 就 是 用 来 实现 此 特性 的 。 

时 间 对 用 户 空间 进程 也 是 有 用 的 ， 本 章 最 后 讨论 了 此 领域 中 可 用 的 各 种 系统 调 
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页 缓存 和 块 缓存 
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上 往 * 能 和 效率 是 内 核 开 发 中 两 个 非常 重要 的 因素 。 内 核 不 仅 依赖 于 一 个 精巧 的 整体 框架 来 规范 
各 个 部 分 之 间 交 互 ， 还 需要 一 个 功能 广泛 的 缓冲 和 缓存 框架 来 提高 系统 的 速度 。 
缓冲 和 缓存 利用 一 部 分 系统 物理 内 存 , 确保 最 重要 、 最 常 使 用 的 块 设备 数据 在 操作 时 可 直接 从 主 
内 存 获取 ， 而 无 须 从 低速 设备 读 取 。 物 理 内 存 还 用 于 存储 从 块 设备 读 取 的 数据 ， 使 得 随后 对 该 数据 的 
访问 可 直接 在 物理 内 存 进行 ， 而 无 须 从 外 部 设备 再 次 取 用 。 
当然 ， 这 项 工作 是 透明 的 ， 应 用 程序 不 会 也 不 能 注意 到 数据 来 源 方面 的 差别 。 
数据 并 非 在 每 次 修改 后 都 立即 写 回 ， 而 是 在 一 定 的 时 间 间 隔 之 后 才 进 行 回 写 ， 时 间 间 隔 的 长 度 取 
决 于 多 种 因素 ， 如 空闲 物理 内 存 的 容量 、 物 理 内 在 中 数据 的 利用 率 ， 等 等 。 单 个 的 写 请 求 会 被 收集 起 
来 ， 并 打包 进行 ， 这 在 总 体 上 花费 的 时 间 较 少 。 因 而 ， 延 迟 写 操作 在 总 体 上 改进 了 系统 性 能 。 
但 缓存 也 有 人 负面 效应 ， 内 核 必须 审慎 地 采用 ， 如 下 所 述 。 
口 通常 ， 物 理 内 存 的 容量 比 块 设备 小 得 多 ， 因 而 只 能 缓存 仔细 挑选 的 部 分 数据 。 
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D 如 果 系统 央 溃 〈 例 如 ， 于 停电 )， 绥 存 包 含 的 数据 可 能 没有 
不 可 恢复 的 数据 丢失 。 
但 缓存 带 来 的 好 处 ,在 很 大 程度 上 超出 了 带 来 的 不 利之 处 ， 因 而 缓存 特性 已 经 永久 性 地 集成 到 了 
内 核 的 结构 中 。 
缓存 是 页 交换 或 调 页 操作 的 逆 操 作 “〈 换 页 的 相关 信息 ， 在 第 18 章 讨论 )。 尽 管 缓存 牺牲 了 物理 内 
存 〈 使 得 不 需要 在 块 设备 上 进行 低速 操作 ) ， 而 实现 页 交换 时 ， 则 是 用 低速 的 块 设备 来 代替 物理 内 存 。 
因而 内 核 必 须 尽 力 同时 考虑 到 这 两 种 机 制 ， 确 保 一 种 方法 带 来 的 好 处 不 会 被 另 一 种 方法 的 不 利之 处 抵 
消 ， 这 不 是 件 容易 事 。 
此 前 各 章 讨 论 了 内 核 提供 的 一 些 方法 ,用 于 缓存 特定 的 结构 。slab 绥 存 是 一 个 内 存 到 内 存 的 缓存 ， 
其 目的 不 是 加 速 对 低速 设备 的 操作 ， 而 是 对 现存 资源 进行 更 简单 、 更 高 效 的 使 用 。dentry 缓 存 也 用 于 
减少 对 低速 块 设备 的 访问 ， 但 它 无 法 推广 到 通用 场合 ， 因 为 它 是 专门 用 于 处 理 单一 数据 类 型 的 。 
内 核 为 块 设备 提供 了 两 种 通用 的 绥 存 方案 。 
(1) 页 缓存 (page cache) 针对 以 页 为 单位 的 所 有 操作 ， 并 考虑 了 特定 体系 结构 上 的 页 长 度 。 
主要 的 例子 是 许多 章 讨 论 过 的 内 存 映 射 技术 。 因 为 其 他 类 型 的 文件 访问 也 是 基于 内 核 中 的 这 一 oe 
现 的 ， 所 以 页 缓存 实际 上 负责 了 块 设备 的 大 部 分 缓存 工作 。 
(2) 块 缓存 (buffer cache〉 以 块 为 操作 单位 。 在 进行 WO 操作 时 ， 存 取 的 单位 是 设备 的 各 个 块 ， 而 
不 是 整个 内 存 页 。 尽管 页 长 度 对 所 有 文件 系统 都 是 相同 的 , 但 块 长 度 取 决 于 特定 的 文件 系统 或 其 设置 。 
因而 ， 块 缓存 必须 能 够 处 理 不 同 长 度 的 块 。 


ul 





器 到 底层 的 块 设备 。 这 造成 了 


























































































































































































































































































































762 0160 0000000 
虽然 缓冲 区 曾经 是 对 块 设备 进行 /JO 操作 的 传统 方法 ， 但 现在 在 这 个 领域 中 ， 绥 冲 区 只 用 于 支持 


规模 很 小 的 读 取 操 












































种 场合 下 高 级 方法 可 能 显得 比较 笨重 。 























前 用 了 





块 传输 的 标准 数据 结构 


已 经 


























































































































































































































演变 为 struct bio， 该 结构 在 第 6 章 讨论 。 用 这 种 方式 进行 块 传输 更 为 高 效 ， 因 为 它 可 以 合并 同一 请 
求 中 后 续 的 块 ， 加 速 处 理 的 进行 。 

但 表示 对 单个 块 的 MO 操作 时 ， 缓 冲 区 仍然 是 首选 方法 ， 即 使 底层 IO 是 通过 Pio 进行 的 。 特 别 是 
对 经 常 按 块 读 取 元 数据 的 系统 ， 与 其 他 更 为 强大 的 结构 相 比 ， 缓 冲 区 对 此 任务 的 处 理 更 为 容易 。 总 而 
言 之 ， 缓 冲 区 并 未 失去 自我 ， 其 存在 并 不 仅仅 是 因为 兼容 性 的 原因 。 

在 许多 场合 下 ， 页 缓存 和 块 缓存 是 联合 使 用 的 。 例 如 ， 一 个 缓存 的 页 在 写 操作 期 间 可 以 划分 为 不 
同 的 缓冲 区 ， 这 样 可 以 在 更 细 的 粒度 下 ， 识 别 出 页 被 修改 的 部 分 。 好 处 在 于 ， 在 将 数据 写 回 时 ， 只 需 
要 回 写 被 修改 的 部 分 ， 无 须 将 整 页 都 传输 回 底层 的 块 设备 。 
16.1 页 缓存 的 结构 


顾名思义 ， 页 缓存 处 到 
易于 操作 较 大 的 地 址 空间 ， 还 支持 一 系列 功能 ， 






































获得 


还 是 与 内 


些 物 到 





内 存 页 ， 虚 拟 内 存 和 物理 
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置 加 入 




















销 











内 存根 据 页 划分 为 较 小 的 单位 。 这 不 仅 使 得 内 核 
如 调 页 、 按 需 加 载 、 内 存 映 射 等 。 
内存 页 ， 以 加 速 在 块 设备 上 按 页 为 单位 执行 的 操 
当然 ， 页 缓存 的 运作 方式 对 用 户 应 用 程序 是 透明 的 ， 应 用 无 
存 中 的 数据 交互 ， 在 两 种 情况 下 ， 
然 ， 对 内 核 来 说 ， 情 况 多 少 有 些 不 同 。 为 支持 对 缓存 页 的 使 用 ， 必 须 在 代码 中 各 个 不 同 的 位 
标 ”， 与 页 缓存 交互 。 无 论 目标 页 是 否 在 缓存 中 ， 用 户 进程 所 要 的 操作 总 是 必须 执行 。 在 
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页 缓存 的 任务 在 于 ， 





法 了 解 到 底 是 在 与 块 设 备 之 间 交 互 ， 
read 和 write 系统 调用 的 结 








果 是 相同 的 。 





缓存 命中 时 ， 将 快速 地 执行 适当 的 操作 《这 也 是 缓存 的 目的 所在 )。 倘 若 缓 存 失 效 ， 必 须 先 从 底层 块 


设备 读 取 所 需 的 页 ， 这 花费 的 时 
的 访问 可 以 快速 进行 。 

在 页 缓存 中 搜索 一 页 所 花费 的 时 间 必 须 最 小 化 ， 以 有 
失效 时 ， 进 行 搜索 的 计算 时 间 实 际 上 被 浪费 了 。 因 




















页 进行 高 效 的 组 织 。 


























[ 间 是 比较 长 的 。 在 页 读 入 内 存 之 后 ， 页 将 被 插入 到 缓 在 中 ， 


前 保 缓 存 失 效 的 代价 尽 可 能 低廉， 
而 ， 页 缓存 设计 的 一 个 关键 的 方 画 





因而 后 续 











到 为 在 缓存 
就 是 ， 对 缓存 的 























从 大 量 数据 的 集合 《页 缓存 ) 中 快速 获取 单个 数据 元 素 〈 页 ) 的 问题 ， 并 不 是 Linux 内 核 特 有 的 。 









































16.1.1 管理 和 查找 缓存 的 页 
它 对 信息 技术 的 所 有 领域 来 说 都 是 一 个 共同 的 问题 ， 在 发 展 过 程 
构 ， 并 经 受 住 了 时 间 的 考验 。 对 此 用 途 而 言 ， 树 数据 结 
管理 页 缓存 中 包含 的 页 ， 称 为 基数 树 (radix tree) 。 
附录 C 提 供 了 该 数据 结构 的 更 详细 的 描述 。 本 章 将 简要 概述 该 结 
图 16-1 给 出 了 一 个 基数 树 ， 其 中 对 一 个 数据 结构 的 不 同 实例 ( 





该 结构 并 不 对 应 普遍 条 






























































Ph 衍生 出 了 许多 精巧 复杂 的 数据 结 
构 是 非常 流行 的 ，Linux 也 采用 了 这 种 结构 来 








构 是 如 何 组 织 各 页 的 。 











1 正方 形 表示 ) 进行 了 组 织 。?9 























文 之 间 ， 可 能 有 任意 数目 的 高 度 差 。 树 本 身 
示 叶 ， 其 











中 包含 了 有 用 的 数据 。 











该 事实 


不 会 影响 到 树 的 实现 。 


(内 核 源 





GD 这 是 


因为 页 缓存 组 织 的 是 内 存 页 ， 因 











两 种 不 同 的 数据 结 















































天 | 








有 给 出 的 结构 是 简化 过 的 ， 








为 内 核 利 








不 影响 树 的 基本 结构 。 











了 各 结 点 中 额 乡 





构 纤 


而 基数 树 的 叶子 是 page 
尺码 没有 定义 具体 的 数据 类 型 来 表示 基数 树 的 叶子 ， 而 使 用 


的 标记 ， 来 保存 该 结 点 中 组 织 的 页 的 具体 信息 。 








j 的 二 叉 或 三 叉 搜索 树 。 基 数 树 也 是 不 平衡 的 ， 换 名 话说， 在 树 的 不 同 分 











成 ， 还 需要 为 一 种 数据 结构 来 
结构 的 实例 ， 
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AT 
































但 这 
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了 void 指针 。 这 意味 着 基数 树 还 可 以 用 于 其 他 目的 ， 当 然 目前 尚未 有 其 他 用 途 。) 


画 于 和 门 PAGECACHE_TAG_DIRTY 
Ble 

Count |t It tt It 
Na i 


















PAGECACHE_TAG_ WRITEBACK 
































图 16-1 基数 树 的 实例 


树 的 根 由 一 个 简单 的 数据 结构 表示 ， 其 中 包含 了 树 的 高 度 〈 所 包含 结 点 的 最 大 层次 数目 ) 和 一 个 
指针 ， 指 向 组 成 树 的 的 第 一 个 结 点 的 数据 结构 。 

结 点 本 质 上 是 数组 。 为 简明 起 见 ， 结 点 在 图 中 表示 为 4 个 元 素 ， 但 在 内 核 源 代码 中 ， 它 们 实际 上 
有 2 页 。 由 于 RADIX_TREE MAP_SHIET 通 常 定义 为 6， 这 使 得 每 个 数组 有 64 项 ， 比 图 16-1 中 
所 示 的 多 很 多 。 小 型 系统 会 将 RADIX_TREE_MAP_SHIFT 设 置 为 4， 以 节省 宝贵 的 内 存 。 

树 的 各 结 点 通过 一 个 唯一 的 键 来 访问 ， 键 是 一 个 整数 。 这 里 不 会 讨论 用 于 根据 结 点 的 键 来 查找 结 
点 本 身 的 算法 。 对 相关 代码 的 描述 ， 在 附录 C 给 出 。 

树 结 点 的 增删 涉及 的 工作 量 都 很 少 ， 因 此 缓存 管理 操作 所 涉及 的 时 间 开 销 可 以 降低 到 最 低 限 度 。 
对 此 实现 的 更 详细 描述 ， 也 请 参考 附录 C。 
如 图 16-1 所 示 , 树 的 结 点 具备 两 种 口 口 口 口 (search tag)。 二 者 用 于 指定 给 定 页 当前 是 否 是 脏 的 ( 即 
页 的 内 容 与 后 备 存储 器 中 的 数据 是 不 同 的 ) ， 或 该 页 是 否 正在 向 底层 块 设备 回 写 。 重 要 的 是 ， 标 记 不 
仅 对 叶 结 点 设置 ， 还 一 直 向 上 设置 到 根 结 点 。 如 果菜 个 层次 n+ 1 的 结 点 设置 了 某 个 标记 ， 那 么 其 在 层 
次 n 的 父 结 点 也 会 获得 该 标记 。 

这 使 得 内 核 可 以 判断 ， 在 某 个 范围 内 是 否 有 一 页 或 多 页 设置 了 某 个 标记 位 。 图 16-1 中 提供 了 一 个 
例子 : 由 于 第 一 层 最 左 侧 的 指针 设置 了 脏 标 记 位 ， 内 核 就 知道 在 与 对 应 的 二 级 结 点 相关 联 的 页 中 ， 有 
一 个 或 多 个 设置 了 脏 标记 位 。 另 一 方面 ， 如 果 某 个 高 层 的 结 点 没有 设置 某 一 标记 ， 内 核 就 可 以 确定 ， 
与 该 结 点 的 子 结 点 相关 联 的 页 不 会 设置 该 标记 。 
可 想 第 3 章 的 内 容 ， 我 们 知道 每 一 页 表示 为 一 个 struct page 实 例 ， 每 个 page 实 例 都 具备 一 组 标 
志 。 其 中 也 包括 了 脏 标志 和 回 写 标志 。 因 而 ， 基数 树 中 的 信息 只 增加 了 内 核 的 知识 。 页 缓存 中 的 标记 ， 
可 用 于 快速 判断 某 个 区 域 中 是 否 有 脏 页 或 正在 回 写 的 页 ， 而 无 须 扫 描 该 区 域 中 所 有 的 页 。 但 它们 并 不 
是 用 来 代替 page 中 的 标志 位 的 。 
16.1.2 ” 回 写 修改 的 数据 


于 页 缓存 的 存在 ， 写 操作 不 是 直接 对 块 设备 进行 ， 而 是 在 内 存 中 进行 ， 修 改 的 数据 首先 被 收集 
起 来 ， 然 后 被 传输 到 更 低 的 内 核 层 ， 在 那里 可 以 对 写 操作 进一步 优化 ， 以 完全 利用 各 个 设备 的 具体 功 
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的 场景 。 伪 





这 两 种 场 ; 
为 出 


口 几 个 专门 的 
当前 的 情况 。 
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解 ， 这 
| 如 ， 通 


个 问题 
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， 这 在 第 6 章 讨论 过 。 这 上 
据 应 该 在 何 种 时 机 
可 以 理 


回 写 ? 当然 ， 这 个 问题 
项 没有 普通 
运行 的 服务 器 
务 。 在 个 人 计算 机 上 ， 如 果 用 
变 ， 例 如 服务 器 突然 开始 通过 FTP 传 输 
， 缓 存 最 初 的 回 
we 
内 核 守护 进程 在 后 台 运 行 ， 称 为 paflush， 它 们 
这 些 守 护 进程 扫 j 
早期 的 内 核 版 本 对 此 采用 了 一 个 用 户 空 
描述 这 一 机 制 。 
口 pdflush 的 第 二 种 运 人 
活 pdaflush。 





只 讲述 从 页 缓存 的 视角 所 能 看 到 的 情形 ， 
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个 特定 














动 包含 了 如 何 
的 答案 ， 因 为 不 同 
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核 的 这 项 服 














户 暂 时 休息 一 会 ， 
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模式 是 : 如 果 绥 存 中 
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口 提供 了 相关 的 系统 调 


sync 调 用 ， 因 为 还 有 一 个 同名 
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的 数据 项 数 
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将 超出 一 定时 间 没 有 与 底 


称 为 kudpated,， 
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并 产生 大 量 数据 。 


在 


质 频 繁 进行 同步 。 


将 周期 性 激活 ， 而 不 考虑 
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通常 仍然 使 





























目 在 短期 内 显著 增加 ， 
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的 用 户 空间 工具 ， 











利于 从 绥 存 回 
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应 数据 的 各 种 机 制 





， 将 在 第 17 章 讨论 。 




















特定 


为 管理 


可 以 按 整 页 处 理 











和 缓存 的 各 种 不 同 对 象 ， 内 核 使 用 了 “地 址 衬 








的 块 设备 或 任何 其 他 


系统 单 





元 ， 或 系统 单元 的 一 部 分 ) 





回 所 有 未 


是 基于 该 调用 的 。 


关联 起 来 。 


同步 的 数据 。 


民 块 设备 同步 的 页 写 





回 。 
和 该 名 称 来 




















则 由 内 核 激 











最 著名 的 是 


间 ” 抽 象 ， 将 内 层 中 的 页 与 
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最 初 ， 
况 下 ， 








我 们 只 


对 一 个 方面 
宿主 都 是 表示 一 个 文件 的 inode。” 
内 核 只 需要 扫描 所 有 超级 块 的 链表 ， 








感 兴趣 。 每 个 地 址 空 
大 | 
并 跟随 相关 的 inode， 















































通常 ， 


起 了 一 个 问题 。 将 整 页 写 
步 的 。 为 节省 时 
内 核 可 


数据 时 ， 
受到 危 


吉 。 
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写 操作 限 1 





zs 间 都 有 一 个 “宿主 ”， 
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16.2 ” 块 缓存 的 结构 


在 Linux 内 核 中 ， 并 非 总 使 用 基于 页 的 方法 来 承担 缓存 的 任务 。 内 核 的 早期 版 本 只 
来 加 速 文件 操作 和 提高 系统 性 能 。 
底层 块 设 备 的 块 缓存 在 内 存 的 缓冲 

与 内 存 页 相 比 ， 块 不 仅 上 
如 第 9 章 所 示 )。 


文件 系 统 ， 

















这 是 来 自 于 其 他 具有 相同 乡 


因为 内 存 中 该 页 的 大 部 
的 每 一 页 划分 为 较 小 的 单 
关于 那些 实际 发 生 了 修改 的 较 小 的 单位 上 。 














分 数据 仍然 与 
位 ， 称 为 缓冲 





F 为 其 数据 来 源 。 大 多 数 情 
为 所 有 现存 的 inode 都 关联 到 其 超级 块 〈 第 8 章 讨 论 过 ) 

即 可 获得 被 缓存 页 的 列表 。 
修改 文件 或 其 他 按 页 缓存 的 对 象 时 ， 只 会 修改 页 的 一 部 分 ， 而 
回 到 块 设 备 是 没有 意义 的 ， 
间 ， 内 核 在 写 操作 期 间 ， 将 缓存 " 


FE 全 部 。 这 在 数据 同步 时 引 


块 设备 是 同 
区 。 在 同步 

















因而 ， 页 缓存 
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Q@ 由 于 大 部 分 缓存 的 页 都 来 上 
自 于 伪 块 设备 文件 系统 。 





来 











区 中 ， 可 以 加 
较 小 〈 大 多 数 情况 


速 读 写 操作 。 









































于 对 文件 的 访问 ， 大 多 数 宿主 对 象 ， 实 际 上 都 是 
在 这 种 情况 下 ， 地 址 空间 不 是 关联 到 一 个 文件 ， 而 是 其 


的 思想 没有 


了 块 缓存 ， 

















UNIX 操 作 系统 的 遗 P 
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实现 包含 在 fs/puffers.c 中 。 
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普通 文件 。 但 也 有 可 能 ，inode 答 主 














所 在 的 整个 块 设 





块 设备 (或 





备 或 分 区 。 
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随 着 日 渐 倾 向 于 使 用 基于 页 操作 实现 的 通用 文件 存 取 方 法 , 块 缓存 作为 中 枢 系 统 缓存 的 重要 性 已 
经 逐渐 失去 ， 主 要 的 缓存 任务 现在 由 页 缓存 承担 。 另 外 ， 基 于 块 的 MO 的 标准 数据 结构 ， 现 在 已 经 不 再 
是 缓冲 区 ， 而 是 第 6 章 讨 论 的 struct bio。 

绥 冲 区 用 作 小 型 的 数据 传输 , 一 般 涉及 的 数据 量 是 与 块 长 度 可 比拟 的 。 | 里 元 数据 时 ， 
通常 会 使 用 此 类 方法 。 而 裸 数 据 的 传输 则 按 页 进行 ， 而 缓冲 区 的 实现 也 基于 页 缓存 。 

块 缓存 在 结构 上 由 两 个 部 分 组 成 。 

(DODD (bufferhead) 包含 了 与 缓冲 区 状态 相关 的 所 有 管理 数据 ， 包 括 块 号 、 块 长 度 、 访 问 计 
数 器 等 ， 将 在 下 文 讨论 。 这 些 数据 不 是 直接 存储 在 绥 冲 头 之 后 ， 而 是 存储 在 物理 内 存 的 一 个 独立 区 域 
中 ， 由 缓冲 头 结构 中 一 个 对 应 的 指针 表示 。 

(2) 有 用 数据 保存 在 专门 分 配 的 页 中 ， 这 些 页 也 可 外 Sa 这 进一步 细 分 了 页 组 
存 , 如 图 16-2 所 示 。 在 我 们 的 例子 中 , 页 划分 为 4 个 长 度 相同 的 部 分 , 每 一 部 分 由 其 自身 的 缓冲 头 描述 。 
缓冲 头 存储 的 内 存 区 域 与 有 用 数据 存储 的 区 域 是 无 关 的 。 


buffer_head 
b_this_pace 一 一， 
lb data “ae > 























































































































































































































































































































图 16-2 ”页 与 缓冲 之 间 的 链接 


这 使 得 页 可 以 细 分 为 更 小 的 部 分 ， 各 部 分 ll 车 续 的 (因为 级 神 区 数据 和 缓冲 头 激 据 是 
离 的 ) 。 因 为 一 个 缓冲 区 由 至 少 512 字 节 组 成 ， 每 页 最 多 可 包括 MAX_BUF_PER_PAGE 个 绥 冲 区 。 该 常数 
定义 为 页 长 度 的 函数 : 


<buffer_head.h> 
#define MAX_ BUF_PER_ PAGE (PAGE_ CACHE_ SIZE / 512) 


如 果 修 改 了 某 个 缓冲 区 ， 则 会 立即 影响 到 页 的 内 容 〈 反 之 亦 然 )， 因 而 两 个 缓存 不 需要 显 式 同步 ， 
毕竟 二 者 的 数据 是 共享 的 。 

当然 ， 有些 应 用 程序 在 访问 块 设备 时 ， 使 用 的 是 块 而 不 是 页 ， 读 取 文 件 系统 的 超级 块 ， 就 是 一 个 
实例 。 一 个 独立 的 块 缓存 用 于 加 速 此 类 访问 。 该 块 缓存 的 运作 独立 于 页 缓存 ， 而 不 是 在 其 上 建立 的 。 
为 此 ， 缓 冲 头 数据 结构 (对 块 缓存 和 页 缓存 是 相同 的 ) 群集 在 一 个 长 度 恒定 的 数组 中 ， 各 个 数组 项 按 
LRU (least recently used， 最 近 最 少 使 用 ) 方式 管理 。 在 一 个 数组 项 用 过 之 后 ， 将 其 置 于 索引 位 置 0， 
其 他 数组 项 相应 下 移 。 这 意味 着 最 常 使 用 的 数组 项 位 于 数组 的 开头 ， 而 不 常用 的 数组 项 将 被 后 推 ， 如 
果 很 长 时 间 不 用 ， 则 会 “ 掉 出 ”数组 。 









































































































































































































































































































































与 此 不 同 的 是 ，2.2 及 此 前 的 内 核 版 本 对 缓冲 区 和 页 使 用 了 独立 的 缓存 。 建 立 两 个 不 同 的 缓存 ， 则 需要 在 二 者 之 间 
同步 花费 很 多 努力 ， 因 此 内 核 开 发 者 在 许多 年 前 就 决定 要 统一 缓存 方案 。 
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因为 数组 的 长 度 ， 或 者 说 LRU 列 表 中 的 项 数 ， 是 一 个 固定 值 ， 在 内 核 运行 期 间 不 改变 ， 内 核 无 须 
运行 独立 的 线程 来 将 缓存 长 度 修整 为 合理 值 。 相 反 ， 内 核 上 只 需要 在 一 项 “ 掉 出 ”数组 时 ， 将 相关 的 组 
冲 区 从 缓存 删除 ， 以 释放 内 存 ， 用 于 其 他 目的 。 

16.5 节 将 详细 讨论 缓冲 区 实现 的 技术 细节 。 此 前 ， 有 必要 讨论 地 址 空间 的 概念 ， 因 为 它 是 实现 组 
存 功能 的 关键 。 

16.3 ”地 址 空间 

在 Linux 的 发 展 过 程 中 ， 不 仅 缓 存 由 面向 缓冲 区 演化 为 面向 页 ， 而 且 与 此 前 的 Linux 版 本 相 比 ， 将 
被 缓存 的 数据 与 其 来 源 相 关联 的 方法 ， 也 已 经 演变 为 一 种 更 一 般 的 方案 。 尽 管 在 Linux 及 其 他 UNIX 衍 
生物 的 初期 ，inode 是 缓存 数据 的 唯一 来 源 ， 但 内 核 现在 采用 了 更 为 通用 的 地 址 空间 方案 ,来 建立 缓存 
数据 与 其 来 源 之 间 的 关联 。 尽 管 文件 的 内 容 构 成 缓存 数据 的 一 大 部 分 ， 但 地 址 空间 的 接口 非常 通用 ， 
使 得 缓存 也 能 够 容纳 其 他 来 源 的 数据 ， 并 快速 访问 。 

地 址 空间 如 何 融入 到 页 绥 存 的 结构 中 呢 ? 它们 实现 了 两 个 单元 之 间 的 一 种 转换 机 制 。 

(1) 内 存 中 的 页 分 配 到 每 个 地 址 空间 。 这 些 页 的 内 容 可 以 由 用 户 进程 或 内 核 本 身 使 用 各 式 各 样 的 
方法 操作 。 

这 些 数据 表示 了 缓存 的 内 容 。 

CI00000 指定 了 填充 地 址 空间 中 页 的 数据 的 来 源 。 地 址 空间 关联 到 处 理 器 的 虚拟 地 址 空间 ， 
是 由 处 理 器 在 虚拟 内 存 中 管理 的 一 个 区 域 到 源 设备 (使 用 块 设备 ) 上 对 应 位 置 之 间 的 一 个 映射 。 

如 果 访 问 了 虚拟 内 存 中 的 某 个 位 置 , 该 位 置 没 有 关联 到 物理 内 存 页 ， 内 核 可 根据 地 址 空间 结构 来 
找到 读 取 数据 的 来 源 。 

为 支持 数据 传输 ， 每 个 地 址 空间 都 提供 了 一 组 操作 (以 函数 指针 的 形式 )， 以 容许 地 址 空间 所 涉 
及 双方 面 的 交互 ， 例 如 ， 从 块 设备 或 文件 系统 读 取 一 页 ， 或 写 回 一 个 修改 的 页 。 在 讲述 地 址 空间 操作 
的 实现 之 前 ， 下 一 节 将 详细 讲述 所 使 用 的 数据 结构 。 

地 址 空间 是 内 核 中 最 关键 的 数据 结构 之 一 。 对 该 数据 结构 的 管理 ， 已 经 演变 为 内 核 面 对 的 最 中 心 
的 问题 之 一 。 大 量子 系统 《文件 系统 、 页 交换 、 同 步 、 绥 存 ) 都 围绕 地 址 空间 的 概念 展开 。 因 而 ， 这 
个 概念 可 以 认为 是 内 核 最 根本 的 抽象 机 制 之 一 ， 以 重要 性 而 论 ， 该 抽象 可 跻身 于 传统 象 如 进程 、 文 
件 之 列 。 

16.3.1 数据 结构 

地 址 空间 的 基础 是 address_space 结 构 ， 其 稍 作 简 化 的 形式 定义 如 下 : 

<fs.h> 

struct address_space { 

struct inode *host; /* 所 有 者 : inode， 或 块 设备 */ 
struct radix tree root page_ tree; /* 所 有 页 的 基数 树 */ 
unsigned int i_mmap_writable; /* VM_SHARED 映 射 的 计数 */ 
struct prio_ tree root i_mmap; /* 私有 和 共享 映射 的 树 */ 
struct 1ist_head i_mmap_nonlinear; /* VM_NONLINEAR 映 射 的 链表 元 素 */ 
unsigned long nrpages; /* 页 的 总 数 */ 

pgoff_t writeback_ index; /* 回 写 由 此 开始 */ 

struct aqdqress_spbace_operations *a_ops; /* 方法 ， 即 地 址 空间 操作 */ 
unsigned long flags; /* 错误 标志 位 /gfp 掩 但 */ 
struct packing_dev_info *backing_dev_info; /* 设备 预 读 */ 

struct list _ head private_list; 
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struct address_space *assoc_ mapping; 
} _attribute _((aligned(sizeof (long)))); 


口 与 地 址 空间 所 管理 的 区 域 之 间 的 关联 ， 是 通过 以 下 两 个 成 员 建立 的 : 一 个 指向 inode 实 例 (类 
型 为 struct inode) 的 指针 指定 了 后 备 存储 器 ， 一 个 基数 树 的 根 (page_tree) 列 出 了 地 址 
空间 中 所 有 的 物理 内 存 页 。 

口 缓存 页 的 总 数 保存 在 nrpages 计 数 器 变量 中 。 

口 address_space_operations 是 一 个 指向 结构 的 指针 , 该 结构 包含 了 一 组 函数 指针 , 指向 用 于 

处 理 地 址 空间 的 特定 操作 。 其 定义 在 下 文 讨论 。 

口 i_mmap 是 一 棵 树 的 根 结 点 ， 该 树 包含 了 与 该 inode 相 关 的 所 有 普通 内 存 映 射 (“普通 ”是 指 ， 
这 些 映射 不 是 用 非 线 性 映射 机 制 创建 的 ) 。 该 树 的 任务 在 于 ， 文 持 查 找 包 含 了 给 定 区 间 中 至 
少 一 页 的 所 有 内 存 区 域 ， 而 辅助 安 vma_prio_tree_foreach 就 用 于 该 目的 。 回 想 前 文 ， 该 树 
的 作用 在 4.4.3 节 讨论 过 。 目 前 我 们 对 该 树 的 实现 不 感 兴趣 ， 只 要 知道 映射 的 所 有 页 都 可 以 在 
树 中 找到 ， 而 且 树 的 结构 很 容易 操作 ， 就 足够 了 。 

口 还 有 两 个 成 员 涉 及 内 存 映 射 的 管理 ，i_mmap_writeable 统 计 了 所 有 用 vM_sHARED 属 性 创建 的 

映射 ， 它 们 可 以 由 儿 个 用 户 同 时 共享 。i_mmap_nonlinear 用 于 建立 一 个 链表 ， 包 括 所 有 包含 
在 非 线 性 映射 中 的 页 (提示: 非 线 性 映射 是 在 remap_file_pages 系 统 调用 控制 下 ， 通 过 对 页 
表 的 技巧 性 操作 而 建立 的 )。 

口 packing_dev_info 是 一 个 指针 ， 指 问 男 一 个 结构 ， 其 中 包含 了 与 地 址 空间 相关 的 后 备 存储 器 









































































































































































































































































































































的 有 关 信 息 。 
DODOO0OD0D0 是 指 与 地 址 空间 相关 的 外 部 设备 ， 用 作 地 址 空间 中 信息 的 来 源 。 它 通常 是 块 设 
备 : 
<backing-dev.h> 
struct backing dev_info { 
unsigned long ra pages; /* 最 大 预 读数 量 ， 单 位 为 PAGE_CACHE_SIZE */ 
unsigned long state; /* 对 该 成 员 ， 总 是 使 用 原子 位 操作 */ 
unsigned int capabilities; /* 设备 能 力 */ 





}; 
ra_pages 指 定 了 预 读 页 的 最 大 数目 。 后 备 存储 器 的 状态 保存 在 state 中 。capabilities 保 存 了 后 
备 存储 器 有 关 的 信息 ， 例 如 ， 存 储 的 数据 是 否 可 以 直接 执行 ， 这 对 基于 ROM 的 文件 系统 是 必 
要 的 。 但 capabilities 中 最 重要 的 信息 是 页 是 否 可 以 回 写 。 对 真正 的 块 设备 这 总 是 可 以 的 ， 
但 对 基于 内 存 的 设备 如 RAM 人 磁盘 是 不 可 能 的 ， 因 为 从 内 存 向 内 存 回 写 数据 没什么 意义 。 
如 果 设 置 了 BDI_CAP_NO_WRITEBACK， 那 么 不 需要 数据 同步 ， 否则 ， 需 要 进行 同步 。 第 17 章 详 
细 讨 论 了 用 于 同步 的 机 制 。 
口 private_1ist 用 于 将 包含 文件 系统 元 数据 (通常 是 间接 块 ) 的 buffer_head 实 例 彼此 连接 起 
来 。assoc_mapping 是 一 个 指向 相关 的 地 址 空间 的 指针 。 
口 flags 中 的 标志 集 主要 用 于 保存 映射 页 所 来 自 的 GFP 内 存 区 的 有 关 信息 。 它 也 可 以 保存 异步 输 
入 输出 期 间 发 生 的 错误 信息 ， 在 异步 WO 期 间 错 误 无 法 之 间 传 递 给 调用 者 。AS_EIO 代 表 一 般 性 
的 VO 错误 ，AS_ENOSPC 表 示 没 有 足够 的 空间 来 完成 一 个 异步 写 操作 。 
图 16-3 勾 画 出 了 地 址 空间 与 内 核 其 他 部 分 的 关联 。 这 个 概览 中 ， 只 给 出 了 最 重要 的 关联 。 更 多 细 

















































































































































































































































































































节 将 在 本 章 余下 的 部 分 讨论 。 
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图 16-3 ”地 址 空间 及 其 与 内 核 的 其 他 主要 数据 结构 和 子 系 统 的 关联 






































16.3.2 页 树 

内 核 使 用 了 基数 树 来 管理 与 一 个 地 址 空间 相关 的 所 有 页 ， 以 便 尽 可 能 降低 开销 。 对 此 类 树 的 一 般 
性 概述 已 经 在 上 文 给 出 ; 现在 我 们 来 关注 内 核 中 与 之 对 应 的 数据 结构 。 

根据 address_space 的 定义 ， 我 们 很 清楚 radix_tree_root 结 构 是 每 个 基数 树 的 的 根 结 点 : 

































































<radix_tree_root.h> 
struct radix tree_ root { 
unsigned int height; 
gfp_t gfp_mask; 
struct radix_ tree node *rnode; 
}3 
口 height 指 定 了 树 的 高 度 ， 即 根 结 点 之 下 结 点 的 层次 数目 。 根 据 该 信息 和 每 个 结 点 的 项 数 ， 内 
核 可 以 快速 计算 给 定 树 中 数据 项 的 最 大 数目 。 如 果 没 有 足够 的 空间 容纳 新 数据 ， 可 以 据 此 对 
树 进行 扩展 。 
口 gfp_mask 指 定 了 从 哪个 内 存 域 分 配 内 存 。 
口 rnode 是 一 个 指针 ， 指 向 树 的 第 一 个 结 点 。 该 结 点 的 数据 类 型 是 radix_tree_nogde, 将 在 下 文 
讨论 。 
实现 
基数 树 的 结 点 基本 上 由 以 下 数据 结构 表示 : 
<lib/radix_tree.c> 
#define RADIX TREE_TAGS 2 
#define RADIX TREE MAP_SHIFT (CONFIG_ BASE _ SMALL ? 4 : 6) 
#define RADIX TREE MAP_SIZE (1UL << RADIX_ TREE MAP_SHIFT) 


#define RADIX_ TREE_TAG_ LONGS \ 
( (RADIX_TREE MAP_SIZE + BITS_PER_LONG - 1) / BITS_PER_LONG) 

























































































struct radix_ tree node { 
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unsigned int height; /* 从 底部 开始 计算 的 高 度 */ 
unsigned int EGGUE7 
struct rcu_head rcu_head; 
void *slots[RADIX _ TREE MAP_SIZE]; 
unsigned long tags [RADIX_ TREE_TAGS] [RADIX_ TREE_TAG LONGS]; 
9 
该 数据 结构 的 布局 也 非常 简单 。slots 是 一 个 void 指针 的 数组 ， 根 据 结 点 所 在 的 层次 ， 指 向 数据 
































或 其 他 结 点 。count 保 存 了 该 结 点 中 已 经 使 用 的 数组 项 的 数目 。 各 数组 项 从 头 开 始 填 充 ， 未 使 用 的 项 
为 NULL 指 针 。 

每 个 树 结 点 都 可 以 进一步 指向 64 个 结 点 (或 叶子 )， 根 据 radix_tree_node 中 的 slots 数 组 可 以 
推断 。 该 定义 的 直接 后 果 是 ， 每 个 结 点 中 的 数组 长 度 都 只 能 为 2 的 寡 。 另 外 ， 基 数 树 结 点 的 大 小 只 能 
在 编译 时 定义 (当然 ， 树 中 结 点 的 最 大 数目 可 以 在 运行 时 修改 )。 这 种 行为 可 带 来 速度 的 提升 。 

©e00 

到 目前 为 止 讨 论 的 信息 ， 包括 地 址 空间 和 页 树 , 但 这 些 并 不 能 让 内 核 直接 区 分 映射 的 干净 页 和 肚 
页 。 在 某 些 时 候 这 种 区 分 是 本 质 性 的 ， 例 如 在 将 页 回 写 到 后 备 存储 器 、 永 久 修改 底层 块 设备 上 的 数据 
时 。 早 期 的 内 核 版 本 在 address_space 中 提供 了 额外 的 链表 ， 来 列 出 脏 页 和 干净 页 。 原 则 上 ， 内 核 当 
然 可 以 扫描 整个 树 ， 并 过 滤 出 具备 适当 状态 的 页 ， 但 这 显然 非常 耗 时 。 为 此 ， 基 数 树 的 每 个 结 点 都 包 
含 了 额外 的 标记 信息 ， 用 于 指定 结 点 中 的 每 个 页 是 否 具 有 标记 中 指定 的 属性 。 例 如 ， 内 核对 带 有 脏 页 
的 结 点 使 用 了 一 个 标记 。 在 扫描 脏 页 期 间 ， 没 有 该 标记 的 结 点 即 可 跳 过 。 这 种 方案 是 在 简单 、 统 一 的 
数据 结构 〈 不 需要 显 式 的 链表 来 保存 不 同 状态 的 页 ) 与 快速 搜索 具备 特定 性 质 的 页 的 方案 之 间 的 一 个 
折 中 。 当 前 支持 如 下 两 种 标记 。 

(1) PAGECACHE_TAG_DIRTY 指 定 页 是 否 是 脏 的 。 

(2) PAGECACHE_TAG_WRITEBACK 表 示 该 页 当前 正在 回 写 。 

标记 信息 保存 在 一 个 二 维 数 组 中 (tags)， 它 是 radix_tree_node 的 一 部 分 。 数 组 的 第 一 维 区 分 
不 同 的 标记 ， 而 第 二 维 包 含 了 足够 数量 的 unsigned long， 使 得 对 该 结 点 中 可 能 组 织 的 每 个 页 ， 都 能 
分 配 到 一 个 比特 位 。 

radix_tree_tag_set 用 于 对 一 个 特定 的 页 设置 一 个 标志 : 


<radix-tree.h> 
void *radix tree tag_ set(struct radix tree root *root, 
unsigned long index, unsigned int tag); 


内 核 在 位 串 中 操作 对 应 的 位 置 ， 并 将 该 比特 位 设置 为 1 。 在 完成 后 ， 将 自 上 而 下 扫描 树 ， 更 新 所 
有 结 点 中 的 信息 。 

为 查找 所 有 具备 特定 标记 的 页 ， 内 核 仍 然 必须 扫描 整个 树 ， 但 该 操作 现在 可 以 被 加 速 ， 首 先 可 以 
过 滤 出 至 少 有 一 页 设置 了 该 标志 的 所 有 子 树 。 男 外 ， 这 个 操作 还 可 以 进一步 加 速 ， 内 核实 际 上 无 须 逐 
比特 位 检查 ， 只 需要 检查 存储 该 标记 的 unsigned long 中 ， 是 否 有 某 个 不 为 0 即 可 。 


lib/radix-tree.c 
int radix tree tagged(struct radix tree root *root, int tag) 


{ 





























































































































































































































































































































































































































































































































int. idxs 


if (!root->rnode) 
return 0; 
for (idx = 0; idx < RADIX_ TREE TAG LONGS; idx++) { 
if (root->rnode->tags[tag] [idx]) 
return 1; 





770 0010 0000000 
return 0; 
} 
euUUUU0000 





操作 。radix_tree_preload 是 一 
tree_insert 癌 基数 树 添加 数据 项 之 前 ， 总 是 会 调 


内 核 还 提供 了 以 下 函数 来 处 




















<radix-tree.h> 


int radix tree insert(struct radix tree root *, 
void *radix tree lookup(struct radix tree root *, 
void *radix_ tree delete(struct radix tree root *, 








EE 基数 树 (都 实现 在 lib/radix_tree.c 中 ): 


unsigned long, 
unsigned long); 
unsigned long); 


int radix tree tag get(struct radix tree root *root, 
unsigned long index, 
void *radix tree tag clear(struct radix tree root *root, 








unsigned long index, 

































































unsigned int tag); 


unsigned int tag); 


















































es *)s 






























































口 radix_tree_insert 问 基数 树 添加 一 个 新 的 数据 项 ， 由 一 个 voidqx* 指 针 表 示 。 如 果树 当前 的 容 
量 过 小 ， 则 会 自动 扩展 。 

口 radix_tree_lookup 根 据 键 来 查找 基数 树 的 数据 项 ， 键 是 一 个 整数 ， 以 参数 的 形式 传递 给 该 
函数 。 返 回 值 是 一 个 void 指针 ， 必 须 转 换 为 适当 的 目标 数据 类 型 。 

口 radix_tree_delete 根 据 刍 值 ， 删 除 对 应 的 数据 项 。 如 果 删 除 成 功 ， 则 返回 指向 被 删除 对 象 
的 指针 。 

口 radix_tree_tag_get 检 查 指定 的 基数 树 结 点 上 是 否 设置 了 某 个 标记 。 如 果 设 置 了 标记 ， 则 函 
数 返 回 1， 和 否则 返回 0。 

口 radix_tree_tag_clear 清 除 指定 的 基数 树 数 据 项 上 的 标记 。 对 该 结 点 的 修改 , 在 树 中 会 向 上 
传播 ， 即 如 果菜 个 结 点 下 一 层 的 所 有 子 结 点 结 点 都 没有 指定 的 标记 了 ， 那 么 该 结 点 也 需要 清 
除 此 标记 ， 依 此 类 推 。 在 成 功 的 情况 下 ， 将 返回 被 标记 数据 项 的 地 址 。 

这 些 函 数 的 实现 ， 主 要 基于 对 数字 的 移 位 操作 ， 如 附录 C 所 述 。 

为 确保 基数 树 的 操作 快速 ， 内 核 使 用 了 一 个 独立 的 slab 缓 存 来 保存 raqix_tree_node 的 实例 ， 以 

便 快 速 分 配 此 类 型 的 结构 实例 。 








DUO0O:slaoO0O00o0o0 








时 本 OUDOUO 


O00 


O00 

















每 个 基数 树 都 还 有 一 个 CPU 池 ， 其 中 存放 了 预 分 配 的 结 点 ， 以 便 进 
芷 该 缓存 
该 函数 〈 在 以 后 几 节 
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函数 ， 




















已 保证 了 




































































对 几 个 重要 的 读 取 函 数 来 说 ， 











步 加 速 向 树 插入 新 数据 项 的 
P 至少 有 一 个 结 点 。 在 使 
里 ， 将 忽略 这 一 点 )。” 

















jradix_ 





核 的 惯例 ， 对 锁 或 其 他 同步 原 语 的 


有 一 个 例外 。 


其 中 包括 进行 查找 操作 的 radix_tree_lookup、 获 得 某 个 基数 树 结 点 标记 的 radix_tree_tag_get、 





























© 0 
基数 树 没 有 针对 通常 的 并 发 访问 提供 任何 形式 的 保护 。 按 照 内 
处 理 ， 是 使 用 基数 树 的 各 子 系统 的 职责 ， 如 第 $ 章 所 述 。 但 
和 测试 树 中 是 否 有 数据 项 带 有 标记 的 radix_tree_tagged。 
如 果 前 两 个 函数 被 rcu_reagd_lock()... 
GD 更 精确 
使 用 ， 意 味 着 必须 停 用 内 核 抢占 〈 参 见 第 2 章 ) ， 在 操作 完成 后 重新 启用 
的 唯一 任务 。 









































rcu_ read unlock 











) 包 围 








i 

















， 那 么 不 进行 特定 于 子 系统 


地 说 ， 插 入 操作 骨 入 在 radqix_tree_preload() 和 traqix_tree_preload_endq() 之 间 。 对 各 CPU 变量 的 
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的 锁定 操作 ， 即 可 调用 这 两 个 函数 ， 而 第 三 个 函数 根本 不 需要 任何 锁 。 
rcu_headq 提 供 了 基数 树 结 点 和 RCU 实 现 之 间 的 关联 。 请 注意 ， 关 于 如 何 对 基数 树 实现 适当 的 同 
步 ，<radix-tree.h> 包 含 了 更 多 建议 ， 因 此 这 里 不 会 更 详细 地 讨论 。 


16.3.3” ”地址 空间 操作 
空间 将 后 备 存储 器 与 内 存 区 关联 起 来 。 在 二 者 之 间 传 输 数据 ， 不 仅 需 要 数据 结构 ， 还 需要 相 


地 址 
应 的 函数 。 


一 个 结构 来 硼 
在 讨论 s 





















































为 地 址 空间 可 用 于 不 同 的 组 合 ， 所 需 的 函数 不 是 静态 定义 的 ， 而 是 根据 具体 的 映射 借助 

















有 定 ， 其 中 保存 了 指向 适当 实现 的 函数 指针 。 








truct address _space 时 已 经 说 明 ， 每 个 地 址 空间 都 包含 了 一 个 指向 address_space_ 


operations 实 例 的 指针 ， 该 实例 保存 了 所 述 函 数 指针 的 列表 : 


<fs.h> 


struct address_space operations { 


3 


int (*writepage) (struct page *page, struct writeback control *wbc); 
int (*readpage) (struct file *, struct page *); 
int (*sync page) (struct page *); 


/* 回 写 该 映射 的 某 些 脏 页 */ 


int (*writepages) (struct address_space *, struct writeback control *); 


/* 将 指定 页 设置 为 脏 */ 
int (*set_page_ dirty) (struct page *page); 


int (*readpages) (struct file *filp, struct address_space *mapping, 
struct list head *pages, unsigned nr pages); 
































六 ”Ext3 要 求 ， 在 一 个 成 功 的 prepare_write() 调 用 之 后 ， 应 跟随 一 个 commit_write() 调 用 ， 
二 者 必须 是 平衡 的 














int (*prepare write) (struct file *, struct page *, unsigned, unsigned); 

int (*commit write) (struct file *, struct page *, unsigned, unsigned); 

int (*write begin) (struct file *, struct address_space *mapping, 16 
loff_t pos, unsigned len, unsigned flags, 
struct page **pagep, void **fsdata); 

int (*write end) (struct file *, struct address_space *mapping, 


loff t pos, unsigned len, unsigned copiedqd, 
struct page *page, void *fsdata); 

















/* 很 遗憾 ， 这 些 函数 是 FIBMAP 所 需 。 请 勿 使 用 */ 

Sector 七 (*bmap) (struct address_space *, sector 七 ) ; 

int (*invalidatepage) (struct page *, unsigned long); 

int (*releasepage) (struct page *, gfp_t); 

ssize t (xdqirect_IO) (int, struct kiocb *, const struct iovec *iov, 
loff t offset, unsigned long nr_segs); 

struct page* (*get xip page) (struct address_space *, sector 七 ， 
int); 

Int (*migratepage) (struct address_space *, 

struct page *, struct page *); 
int (*launder page) (struct page *); 








口 writepage 和 writepages 将 地 址 空间 的 一 页 或 多 页 写 回 到 底层 块 设备 。 这 是 通过 疝 块 层 发 出 
一 个 相应 的 请 求 来 完成 的 。 
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D0 











内 核 为 此 提供 了 若干 标准 函数 (block_write_full_page 和 mpage_readpage(s) ); 








writepages，readpage 和 和 readpages 通 常 也 不 
数 执行 (mpage_readpage 和 mpage_readpages)， 这 些 标准 函数 可 
请 注意 ， 如 果 使 用 标准 函数 来 实现 所 需 
标 页 相关 联 的 inode 可 以 通过 page->mapping->host 而 






































sync_page 对 尚未 回 写 到 
次 上 运作 ， 试 图 将 仍然 保存 在 缓冲 





址 空间 的 层次 上 运作 ， 只 是 将 数据 转发 到 块 
内 核 提 供 了 标准 函数 block_sync_page， 该 





块 设备 队列 ， 开 始 IO。 





set_page dir 





用 这 些 函 数 ， 而 不 是 直接 编写 代码 实现 。16.4.4 节 讨论 了 mpage 系列 
口 readpage 和 readpages 从 后 备 存储 器 将 一 页 或 多 个 连续 的 页 读 入 页 

















后 备 存储 器 的 数据 进行 同步 。 不 同 
区 中 的 待 决 写 操作 写 入 到 














ty 容许 地 址 空间 提供 


直接 编写 





的 


帧 。 类 似 于 writepage 和 


民 码 实现 ， 而 是 通过 内 核 的 标准 函 


通常 会 使 
函数 。 














贡 定 。 


























] 于 大 多 数 场合 。 





功能 ，readpage 的 file 参 数 是 不 需要 的 ， 





块 层 。 











民 ， 而 不 关注 块 



































在 这 种 情况 下 ,内 核 将 自动 使 用 __set 
为 胜 ， 还 将 该 页 在 基数 树 中 的 标记 置 为 





prepare_write 和 commit_wri 





个 特定 的 方法 ， 将 一 页 标记 为 脏 。1 
page_dirty_buffers, 不仅 将 页 在 缓冲 区 层次 上 标记 





-执行 








脏 @ 





Iwrite 系 统 调用 触发 的 写 操作 。 为 迎合 




















的 特点 ,该 操作 必须 分 为 


















































个 部 分 : prepare_write 将 事务 数据 存储 到 

















因为 与 上 








于 writepage， 该 函数 在 块 层 的 层 
与 此 相反 ,writepage 在 地 
屋 中 的 缓冲 问题 。 
函数 获得 所 述 页 所 属 的 地 址 空间 映 








mr 


中， 并 “ 拔 出 ” 

















1 该 选项 很 少 使 用 。 

















志文 件 系 统 


日 志 , 而 commit_write 


















































执行 实际 的 写 操作 ， 向 块 层 发 送 适 当 的 命令 。 
在 写 入 数据 时 ， 内 核 必 须 确 保 两 个 函数 总 是 成 对 调用 ， 并 且 顺 序 正 确 ， 和 否则 日 志 机 制 不 能 
到 其 目的 。 
现在 这 已 经 成 为 惯例 ， 即 使 非 日 志文 件 系统 〈 如 Ext2) 也 将 写 操作 划分 为 两 部 分 。 

0UD0UDU wzitepage0 prepare writel| commit writelUUOU0O0O0DIOo00O0O0D00 
加 
加 





write_begin 和 write_endq 是 prepare_write 和 

















作用 是 相同 的 ，1 








Documentation/filesystems/vfs.txt 已 经 详细 


述 。 


bmap 将 地 址 空间 内 的 逻辑 芭 
件 的 块 在 设备 上 通常 不 是 连续 或 线 怕 
页 交换 代码 (参见 18.3.3 节 )、 文 件 ioct1l FIBMAP， 以 及 某 些 文 伯 
日 志文 件 系 统 中 ， 准 备 释 放 页 。 








releasepage 用 于 

















如 果 一 页 将 要 从 地 址 空间 移 除 ， 而 通过 PG_Private 标 志 可 判断 有 缓冲 


invalidatepage。 























direct_IO 用 于 实现 直接 

















R 仿 移 量 曲 








的 读 写 访问 。 这 绕 过 了 块 


射 为 物理 
的 ， 




















Hcommit_write 的 代替 物 。 尺 管 这 两 组 函数 的 
1 所 需 的 参数 以 及 对 涉及 的 对 象 进行 锁定 的 方式 都 发 生 了 变化 。 
者 述 了 这 些 函 数 的 运作 方式 ， 这 里 无 须 歼 














1 于 









































不 提 

















块 号 。 这 对 块 设 备 通常 是 很 简单 的 ， 但 组 成 文 
供 该 函数 则 不 能 确定 所 需 的 信息 。 
系统 内 











部 ， 都 需要 bmap。 




















三 | 
En 








块 设备 进行 通信 。 大 型 数据 库 会 频繁 使 





地 预测 未 来 的 输入 输出 情况 ， 





Q dirty pages 链 表 已 经 从 aqqress_space 结 构 








因而 














通过 





























删除 ， 原 文 的 这 名 话 似乎 没有 更 新 到 新 版 本 。 一 一 译 者 注 


的 缓冲 机 制 ， 允许 应 用 程序 非常 直接 
该 特性 ， 因 为 与 内 核 的 通用 机 制 相 比 ， 它 们 
行 实现 的 缓存 机 制 ， 能 够 达到 更 好 








区 与 之 相关 ， 则 调 


Pan 






































的 效果 。 






































































































































16.3 口 000 773 
口 get_xip_page 用 于 就 地 执行 (execute-in-place 〉 机制， 该 机 制 可 用 于 启动 可 执行 代码 ， 而 无 
须 将 其 先 加 载 到 页 缓存 。 这 对 有 些 场合 是 有 用 的 ， 例 如 ， 基 于 内 存 的 文件 系统 如 RAM 厂 盘 ， 
或 在 内 存 较 少 的 小 型 系统 上 ，CPU 可 直接 寻 址 ROM 区 域 包含 的 文件 系统 。 因 为 该 机 制 很 少 使 
用 ， 无 须 详细 讨论 。 
口 在 内 核 想 要 重新 定位 一 页 时 会 使 用 migrate_page， 即 将 一 页 的 内 容 移动 到 男 外 一 页 。 由 于 页 
通常 都 带 有 私有 数据 ， 只 是 将 两 页 对 应 的 物理 页 帧 的 裸 数 据 进 行 复 制 是 不 够 的 。 举 例 来 说 ， 
























































支持 内 存 热 插 拔 就 需要 对 页 进行 移动 。 













































































口 launder_page 在 释放 页 之 前 ， 提 供 了 回 写 脏 页 的 最 后 的 机 会 。 

大 多 数 地 址 空间 都 没有 实现 所 有 的 函数 ， 对 某 些 函数 指定 了 NULL 指 针 。 在 许多 情况 下 ， 会 调用 
内 核 的 默认 例 程 ， 而 不 是 具体 地 址 空间 所 提供 的 特定 实现 。 接 下 来 ， 我 们 将 讲述 内 核 提供 的 儿 个 
address_space operations 实 例 ， 给 出 可 用 选项 的 概述 。 

Ext3 文 件 系 统 定义 了 ext3_writeback_aops 全 局 变量 ， 它 是 一 个 填充 好 的 address_space_ 
operations 实 例 。 其 中 包含 了 用 于 回 写 的 函数 : 











fs/ext3/inode.c 
static const struct address 




















_space_ operations ext3_ writeback aops { 











.readpage = ext3_readpage, 

.readpages = ext3_readpages, 

.writepage = ext3_writeback writepage, 

.Sync_page = block_sync_page, 

.write begin = ext3_write begin, 

.write_end = ext3_writeback write_end, 

.bmap = ext3_bmap, 

.invalidatepage = ext3_invalidatepage, 

.releasepage = ext3_releasepage, 

.direct_IO = EXt3 dieect. LO0., 

.migratepage = buffer migrate page, 
和 
没有 设置 的 函数 指针 ， 将 由 编译 器 自动 初始 化 为 NULL。 16 
初 看 起 来 ，Ext3 似 乎 将 很 多 函数 指针 都 设置 为 指向 自身 的 实现 。 但 如 果 看 一 下 上 文 引用 的 ext3_ 





系列 函数 在 内 核 源 代码 中 的 定义 ， 很 
内 核 提 供 的 通用 四 





























函 数 

















快 就 能 揭 开 这 种 假象 。 许 多 函数 都 只 包含 几 行 ， 实 际 工 作 委托 给 





和 助 函 数 ， 如 下 所 示 。 


标准 实现 





ext3_readpage 
ext3_readpages 
ext3_writeback_writepage 
ext3_write begin 
ext3_writeback_ write end 
ext3_direct_IO 


address_space_ operations 

一 些 简短 
上 文 提 到 的 

其 他 文 


数 。 








牛 系统 使 
































有 的 address_ 
[Eg 


结构 
的 包装 器 函数 对 参数 进行 转换 。 


mpage_readpage 
mpage_readpages 
block write full page 
block write begin 

block write end 
blockdev_direct . 


用 数 使 用 的 参数 不 同 ， 因 而 需 
LCL 下 ， 该 结构 中 的 指针 都 可 以 直接 指 癌 


IO 


Vit 


P 的 函数 和 内 核 提供 的 通 
否则 ， 在 大 多 数 情况 



























































接 使 用 了 内 核 的 标准 





， 也 都 直接 或 间 








space_operations 实 例 
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共享 内 存 文件 系统 的 address_space_operations 实 例 特别 简单 


mm/shmem.c 




















Bs 








为 只 需要 对 3 个 字段 赋值 : 




















static struct address_space operations shmem aops = { 


.writepage 
.Set_page_dirty 
.migratepage 


} 











shmem writepage, 
set_ page dirty no writeback, 
migrate_page, 








需要 实现 的 操作 只 有 : 将 页 标记 为 胜 ， 页 的 回 写 ， 页 的 迁移 。 共 享 内 存 不 需要 其 他 操作 。 “在 这 
里 ， 内 核 使 用 的 后 备 存 储 器 是 什么 呢 ? 共享 内 存 文 件 系统 的 内 存 完 全 独立 于 具体 的 块 设备 ， 因 为 该 文 


















































件 系 统 中 所 有 的 文件 都 是 动态 生成 的 (例如 ， 从 男 一 个 文件 系统 复制 茶 个 文件 的 内 容 ， 或 将 计算 出 的 











数据 写 入 一 个 新 文件 )， 这 些 文件 并 不 存在 于 任何 源 块 设备 上 。 
当然 ， 内 存 不 足 也 会 影响 到 该 文件 系统 的 页 ， 使 得 有 必要 将 某 些 页 写 回 到 后 备 存储 器 。 因 为 该 文 







































































件 系统 没有 真正 的 后 备 存 储 器 ， 可 使 用 交换 区 替代 。 普 通 文件 需要 写 回 到 其 在 便 盘 〈 或 其 他 块 设备 ) 























上 的 文件 系统 ， 以 释放 所 用 的 页 帧 ， 而 共享 内 存 文件 系统 的 文件 则 必须 保存 到 交换 区 。 





























于 对 块 设备 的 访问 并 不 总 是 经 由 文件 系统 ,也 可 能 直接 访问 裸 设备 ， 也 有 支持 直接 操作 块 设 备 






























































内 容 的 地 址 空间 操作 例如 ， 在 从 用 户 空间 创建 文件 系统 上 ， 就 需要 此 类 访问 模式 )。 


fs/block_dev.c 


struct address_space operations def blk aops = { 


.readpage 
.writepage 
.Sync_page 
.write begin 
.write_end 
.writepages 
:irect, IO 
二 














blkdev_readpage, 
blkdev_writepage, 
block_sync_page, 
blkdev_write begin, 
blkdev_write_endgd, 
generic writepages, 
blkdev_direct_I0O, 




















这 里 仍然 使 用 了 大 量 专门 的 函数 来 实现 此 项 功能 需求 , 但 这 些 实现 也 会 迅速 归结 到 内 核 的 标准 函 

















数 ， 如 下 所 示 。 
块 层 





标准 函数 





blkdev_readpage 
blkdev_writepag 


= 


block_reaq_ful1_page 
block write full _ page 


blkdev _ write begin block write begin 
blkdev_write end 
blkdev_direct_IO 


内 核对 文件 系统 和 直接 访问 块 设备 所 需 地 址 空间 操作 的 实现 有 许多 共同 之 处 , 因为 二 者 共享 了 同 

















组 辅助 函数 。 
16.4 ”页 缓存 的 实现 











页 缓存 的 实现 基于 基数 树 。 尽 
得 





block write end 
blockdev_direct_IO 



































管 该 缓存 属于 内 核 中 性 能 要 求 最 苛刻 的 部 分 之 一 ， 而 且 广 泛 用 于 内 

















核 的 所 有 子 系统 ， 但 其 实现 简单 





16.4.1 分 配 页 





惊人 。 能 做 到 这 一 点 ， 精 心 设计 的 数据 结构 是 一 个 必要 前 提 。 





page_cache_alloc 用 于 为 一 个 即将 加 入 页 缓存 的 新 页 分 配 数 据 结构 。 与 后 级 为 _colg 的 变 体 工 












































GD 如 果 启 用 了 tmpfs， 其 实现 基于 共享 内 存 ， 那 么 也 会 实现 readpage、write_begin 和 write_end。 
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作 方 式 相同 ， 但 试图 获取 一 个 冷 页 (对 CPU 高 速 绥 存 而 言 〉: 
<pagemap.h> 


struct page *page _ cache alloc(struct address_space *x) 
struct page *page cache alloc cold(struct address_space *x) 


最 初 ， 不 会 访问 基数 树 ， 因 为 工作 委托 给 alloc_pages， 该 函数 从 伙伴 系统 在 第 3 章 描 述 ) 获 
取 一 个 页 帧 。 但 需要 地 址 空间 参数 ， 确 定 该 页 所 来 自 的 内 存 域 。 

将 新 页 添加 到 页 缓存 稍微 复杂 一 点 ， 这 是 add_to_page_cache 的 职责 。 在 这 里 ，radix tree_ 
insert 将 与 页 相关 的 page 实 例 插入 到 所 述 地 址 空间 的 基数 树 : 

mm/filemap.c 


int add to_ page cache(struct page *page, struct address_space *mapping, 
pgoff_t offset, gfp_t gfp_mask) 
























































error = radix tree_ insert(&mapping->page tree, offset, page); 
IE (lerror) f{ 

page_cache_get (page); 

SetPageLocked (page); 

page->mapping = mapping; 

page->index = offset; 

mapping->nrpages++; 


} 


return error; 
4 
在 页 缓存 中 的 索引 和 指向 页 所 属地 址 空间 的 指针 保存 在 struct page 的 对 应 成 员 中 〈index 和 
mapping)。 最 后 ， 将 地 址 空间 的 页 计数 (nrpages) 加 1， 因 为 地 址 空间 中 现在 又 多 了 一 页 。 
内 核 还 提供 了 另 一 个 可 选 的 函数 aqq_to_page_cache_lru， 其 原型 是 相同 的 。 该 函数 首先 调用 
adq_to_page_cache 癌 地址 空间 相关 的 页 缓存 添加 一 页 ， 然 后 使 用 1ru_cache_add 函 数 将 该 页 添加 到 
系统 的 LRU 缓 存 。 


16.4.2 ”查找 页 
在 系统 需要 判断 给 定 页 是 否 已 经 缓存 时 ， 保 存 所 有 缓存 页 的 基数 树 特别 有 用 。finda_get_page 即 
用 于 该 目的 : 


mm/filemap.c 


struct page * find get page(struct address_space *mapping, pgoff t offset) 
{ 

































































struct page *page; 


page = radix tree_ lookup (&mapping->page_ tree, offset); 
if (page) 

page_cache_get (page); 
return page; 


} 

页 缓存 的 工作 相对 轻松 因为 所 有 繁重 的 工作 都 已 经 由 基数 树 的 实现 完成 : radix_tree_1lookup 
查找 位 于 给 定 偏 移 量 的 页 ， 而 page_cache_get 在 找到 页 的 情况 下 ， 将 其 引用 计数 加 1。 

但 在 很 多 情况 下 ， 页 是 属于 文件 的 。 遗 憾 的 是 ， 文 件 中 的 位 置 是 按 字 节 偏 移 量 指定 的 ， 而 非 页 组 
存 中 的 偏 移 量 。 如 何 将 文件 偏 移 量 转换 为 页 缓存 偏 移 量 呢 ? 

当前 ， 页 缓存 的 粒度 是 单个 页 ， 即 页 缓存 基数 树 的 页 结 点 是 一 个 页 。 但 未 来 的 内 核 可 能 增加 该 组 


































































































776 D160 0UU000050 








| 


存 的 粒度 ， 因 而 假定 缓存 的 粒度 为 单 页 是 不 可 靠 的 。 相 反 ， 内 核 提供 了 PaGE_CAcHE_SHIFT 宏 。 页 组 
存 结 点 的 对 象 长 度 ， 可 通过 2"seesen 计 算 。 
那么 ， 在 文件 的 字 节 偏 移 量 和 页 绥 存 偏 移 量 之 间 的 转换 就 变 得 比较 人 简单， 将 文件 偏 移 量 右 移 
PAGE_CACHE_SHIFT 位 即 可 : 

index = ppos >> PAGE CACHE SHIFT; 

ppos 是 文件 的 字 节 偏 移 量 ， 而 index 则 是 页 缓存 中 对 应 的 偏 移 量 。 

为 方便 使 用 ， 内 核 提供 了 两 个 辅助 函数 : 

<pagemap.h> 

struct page * fingd or_ create page(struct address_space *mapping, 

pgoff_t index, gfp_t gfp mask); 


struct page * find lock page(struct address_space *mapping, 
pgoff_t index); 


find_or_create_page 的 功能 可 根据 其 名 称 判断 , 它 在 页 缓存 中 查找 一 页 , 如 果 没 有 则 分 配 一 个 
新 页 。 然 后 通过 调用 aaa_to_page_cache_1lru 插 入 到 页 缓存 和 LRU 链 表 中 。 
findq_lock_page 的 工作 与 finq_get_page 类 似 ， 但 会 锁定 该 页 。 


U0:ODOU0OU0000000000000000000000000000 
还 可 以 查找 多 个 页 。 对 应 的 辅助 函数 原型 如 下 : 


<pagemap.h> 
unsigned fingd get pages (struct address_space *mapping, pgoff t start, 
unsigned int nr pages, struct page **pages); 
unsigned fingd get pages_ contig(struct address_space *mapping, pgoff t start, 
unsigned int nr pages, struct page **pages); 
unsigned fingd get pages_tag(struct address_space *mapping, pgoff tt *index, 
int tag, unsigned int nr pages, struct page **pages); 


口 fing_get_pages 从 页 缓存 偏 移 量 start 开 始 ， 返 回 映射 中 最 多 nr_pages 页 。 指 向 这 些 页 的 指 
针 放 置 在 数组 pages 中 。 该 函数 不 保证 返回 的 页 是 连续 的 ， 不 存在 的 页 会 形成 空洞 。 该 函数 的 
返回 值 是 找到 的 页 的 数目 。 

口 find_get_pages_contig 的 工作 方式 类 似 于 fina_get_pages， 但 所 选 的 页 保证 是 连续 的 。 在 

遇 到 第 一 个 空洞 时 ， 该 函数 会 停止 查找 ， 并 将 找到 的 页 填充 到 pages 数 组 中 。 

口 find_get_pages_tag 的 运作 方式 类 似 于 fing_pages， 但 它 只 选择 设置 了 特定 标记 的 页 。 此 

外 ， 在 函数 返回 后 ，inaex 参 数 中 将 包含 一 个 页 缓存 的 索引 ， 指 向 pages 数 组 中 最 后 一 页 的 下 

一 页 。 
16.4.3 ”在 页 上 等 待 
内 核 经 常 需要 在 页 上 等 待 ， 直至 其 状态 改变 为 某 些 预期 值 。 例 如 ， 数 据 同步 的 实现 有 时 候 需 要 确 
保 对 某 页 的 回 写 操 作 已 经 结束 ， 而 内 存 页 中 的 内 容 与 底层 块 设备 的 数据 是 相同 的 。 处 于 回 写 过 程 中 的 
页 会 设置 PG_writeback 标 志 位 。 
内 核 提 供 了 wait_on_page_writepack 函 数 ， 用 于 等 待 页 的 该 标志 位 清除 : 
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<pagemap.h> 
static inline void wait_ on page writeback(struct page *page) 
{ 

if (PageWriteback (page)) 
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wait_on page bit(page, PG writeback); 























} 
wait_on_page_pbit 安 装 一 个 等 待 队 列 ,进程 可 以 在 其 上 睡眠 ， 直 至 PG_writeback 标 志 位 从 页 的 
标志 中 清除 。 


























同样 地 ， 也 可 能 有 等 待 页 解锁 的 需求 。wait_on_page_locked 负 责 处 理 这 种 情况 。 
16.4.4 ”对 整 页 的 操作 


虽然 名 为 “ 块 ”设备 ， 但 现代 块 设备 可 以 在 一 个 操作 中 传输 比 块 大 得 多 的 数据 单位 ， 以 提升 系统 
性 能 。 从 Linux 也 可 以 反映 出 这 一 点 ， 内 核 在 块 设备 与 内 存 之 间 传 输 数 据 时 ， 相 关 的 算法 和 数据 结构 
都 以 页 为 基本 单位 。 在 整 页 处 理 数 据 时 ， 逐 缓冲 区 / 块 的 传输 实际 上 是 对 性 能 踩 刹车 。 在 重新 设计 块 层 
的 过 程 中 ， 内 核 版 本 2.5$ 开 发 期 间 引 入 了 BIO ， 以 替换 缓冲 区 ， 来 处 理 与 块 设备 的 数据 传输 。 内 核 添 加 
了 4 个 新 的 函数 ， 来 支持 读 写 一 页 或 多 页 : 

<mpage.h> 

int mpage_ readpages (struct address_space *mapping, struct list head *pages, 

unsigned nr_pages, get_block t get_ block); 

mpage_readpage (struct page *page, get block t get block); 
mpage_writepages (struct address_space *mapping, 
struct writeback control *wbc, get block t get block); 


int mpage writepage(struct page *page, get block t *get block, 
struct writeback control *wbc); 


根据 前 几 节 的 阐述 ， 这 些 参 数 的 含义 应 该 是 显然 的 ， 唯 一 的 例外 是 writeback_control。 将 在 第 
17 章 讨论 ， 它 是 一 个 用 于 精细 控制 回 写 操作 的 选项 。 
由 于 这 4 个 函数 的 实现 有 很 多 共同 之 处 〈 其 目标 都 是 构建 一 个 适当 的 BIO 实例 ， 用 于 对 块 层 进行 传 
输 )， 接 下 来 以 其 中 一 个 为 例 进 行 讨论 ， 即 mpage_readpages。 该 函数 需要 nr_pages 个 page 实 例 ， 以 
链表 的 形式 通过 参数 传递 进来 mapping 是 相关 的 地 址 空间 , 而 get_block 有 照例 用 于 查找 匹配 的 块 地 址 。 
该 函数 通过 循环 遍历 所 有 page 实 例 : 
fs/mpage.c 
int 
mpage_readpages (struct address_space *mapping, struct list head *pages, 
unsigned nr_ pages, get block t get block) 
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{ 
struct bio *bio = NULL; 
unsigned page_idx; 
sector_t last block_ in bio = 0; 
struct buffer _ head map_bh; 
struct pagevec lru_pvec; 





clear_buffer mapped(&map_bh); 
for (page idx = 0; page idx < nr pages; page idx++) { 
struct page *page = list_ entry(pages->prev, struct page, lru); 


在 循环 的 每 一 遍 中 ， 首 先 将 该 页 添加 到 地 址 空间 相关 的 页 缓存 中 ， 然 后 创建 一 个 bio 请 求 ， 从 块 
层 读 取 所 需 的 数据 : 


fs/mpage.c 


UD 














list_ del(&page->lru); 
if (!add to page cache lrul(page, mapping, 
page->index, GFP_KERNEL)) { 
bio = do_mpage readpage (bio, page, 
nr_pages - page_idx, 
&last_ block_ in bio, &map_bh, 
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&first_ logical block, 
get_block); 
} else { 
page_cache_ release (page); 
} 
} 


对 于 这 些 页 ， 会 使 用 adq_to_page_cache_1lru 将 其 添加 到 页 缓存 和 内 核 的 LRU 链 表 。 

在 ao_mpage_reaqpage 建 立 bio 请 求 时 ， 也 包括 了 此 前 各 业 的 BIO 数据 ， 以 便 构造 一 个 合并 的 请 
求 。 如 果 将 从 块 设 备 读 取 几 个 连续 页 ， 这 可 以 用 一 个 请 求 完 成 ， 而 不 是 对 每 页 分 别 发 送 一 个 请 求 。i 
注意 ,传递 到 do_mpage_readpage 的 buffer_head 通 常 是 不 需要 的 。 但 如 果 遇 到 了 一 种 不 常见 的 情 
(例如 ， 页 中 包含 了 缓冲 区 )〉 ， 那 么 将 回 退 到 使 用 旧式 的 、 按 块 访问 的 读 取 例 程 。 

如 果 在 循环 结束 时 ，do_mpage_readpage 留 下 一 个 未 处 理 的 BIO 请 求 ， 则 提交 该 请 求 : 



































SS 出 
















































































| 















































fs/mpage.c 
if (bio) 
mpage_bio_submit (READ, bio); 
return 0; 
} 


16.4.5 ”页 缓存 预 读 


对 未 来 的 预测 公认 是 一 个 非常 困难 的 问题 ， 但 有 时 候 内 核 会 禁不住 尝试 一 下 。 实 际 上 ， 有 些 情况 
下 ， 不 难 知道 接 下 来 会 发 生 什 么 ， 例 如 在 进程 从 文件 读 取 数据 时 。 
通常 ， 页 是 顺序 读 取 的 ， 这 也 是 大 多 数 文件 系统 的 假定 。 回 想 第 9 章 的 内 容 ，Ext 文 件 系 统 族 做 了 
很 多 工作 ， 试 图 为 一 个 文件 分 配 相 邻 的 块 ， 使 得 块 设备 的 读 写 头 在 读 写 数据 时 可 以 尽 可 能 少 移动 。 
考虑 一 个 进程 从 位 置 A 到 B 线 性 读 取 一 个 文件 内 容 的 情形 。 这 个 操作 通常 会 持续 片刻 。 因 而 从 B 
向 前 预 读 《假定 ， 预 读 到 位 置 C) 是 有 意义 的 ， 在 进程 发 出 请 求 读 取 B 和 C 之 间 的 页 时 ， 这 些 数据 已 经 
在 页 缓存 中 了 。 
很 自然 ， 预 读 不 能 由 页 缓存 独立 解决 ， 还 需要 VFS 和 内 存 管理 层 的 支持 。 实 际 上 ， 预 读 机 制 已 经 
在 8.5.2 节 和 8.5.1 节 讨论 过 。 回 想 可 知 ， 就 内 核 直 接 关 注 的 问题 而 言 ， 预 读 是 从 3 个 地 方 控制 的 ” 
(1) do_generic_mapping_read， 这 是 一 个 通用 的 读 取 例 程 ， 其 中 ， 大 多 数 依赖 内 核 的 标准 例 程 
来 读 取 数 据 的 文件 系统 都 结束 于 某 些 位 置 。 
(2) 缺 页 异常 处 理 程序 filemap_fault， 它 负责 为 内 存 映 射 读 取 缺 页 。 
(3) _ generic_file_splice_read， 调 用 该 例 程 是 为 支持 splice 系 统 调用 ， 该 系统 调用 使 得 可 
以 直接 在 内 核 空间 中 在 两 个 文件 描述 符 之 间 传 输 数据 ， 而 无 须 涉及 用 户 空间 。? 
各 预 读 例 程 在 源 代码 层次 上 的 时 序 控制 已 经 在 第 8 章 讨论 过 ， 但 从 一 个 更 高 的 层次 来 考察 其 行为 
仍然 是 有 益 的。 图 16-4 提 供 了 这 样 的 一 个 视角 。 为 简 音 起见， 下文 只 考虑 do_generic mapping_ 


read。 























































































































































































































































































































GD 本 书 内 容 至 少 已 经 涵盖 了 这 些 地方 。 实 际 上 ， 在 用 户 层 可 以 用 madvise、fadvise 和 readahead 系 统 调用 影响 预 读 机 制 ， 
这 里 不 进一步 讨论 这 些 了 (系统 调用 是 fadvise， 不 是 ce 一 一 译 者 注 ) 。 
@ 本 书 中 其 他 地 方 将 不 会 更 详细 地 讨论 该 系统 调用 ， 更 多 的 信息 请 读者 参考 手册 页 splice(2) 。 
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Dage_cache_sync_readqahead 


A 












































4 ff 
访问 的 页 不 在 缓存 file ra state->s _Readahead 






















i file ra state-> 
state->size async_ size 
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百 台 进行 的 async_readahead 

















page_cache async_ readahead 


国 由 同步 预 读 读 取 的 页 
SS 








-一 一 一 ”由 异步 预 读 读 取 的 页 ”一 一 -一 一 一 
图 16-4” 预 读 机 制 概 览 ， 以 及 VFS 与 页 缓存 之 间 的 交互 


假定 进程 已 经 打开 了 一 个 文件 ， 想 要 读 取 第 一 页 。 该 页 尚未 读 入 页 缓存 。 由 于 通常 的 所 有 者 不 会 
只 读 取 一 页 ， 而 是 顺序 读 取 多 页 ， 内 核 采 用 page_cache_sync_readahead 读 取 一 行 中 的 8 页 ， 这 个 数 
字 只 是 举例 来 说 ， 实 际 上 不 见得 如 此 。 第 一 页 对 do_generic_mapping_read 来 说 是 立即 可 用 的 。" 而 
在 实际 需要 之 前 就 被 选 择 读 入 页 缓存 的 页 ， 则 称 为 处 于 预 读 窗 口中 。 
进程 现在 继续 读 取 接 下 来 的 各 页 ， 与 我 们 的 预期 相同 。 在 访问 第 6 页 时 请 注意 ， 在 进程 发 出 读 
请 求 之 前 ， 该 页 已 经 读 入 页 缓存 ) ，do_generic_mapping_read 注 意 到 ， 该 页 在 同步 读 取 处 理 过 程 中 
设置 了 PG_Readahead 标 志 位 。“ 这 触发 了 一 个 异步 操作 ， 在 后 台 读 取 若 干 页 。 由 于 页 缓存 中 还 有 两 页 
可 用 ,不 必 和 匆忙 读 取 ,所 以 不 需要 一 个 同步 操作 。 但 在 后 台 进 行 的 VO 操作 ， 将 确保 在 进程 进一步 读 取 
文件 时 , 相关 页 已 经 读 入 缓存 。 如果 内 核 不 采用 这 种 方案 , 预 读 只 能 在 进程 遇 到 一 个 缺 页 异常 后 开始 。 
虽然 所 需 的 页 〈 以 及 另 一 些 预 读 的 页 ) 可 以 同步 谈 入 页 缓存 ， 但 这 将 引入 延迟 ， 显 然 不 是 我 们 期 待 的 
情形 。 
现在 将 进一步 重复 这 种 做 法 。 由 于 page_cache_async_read〈 人 负责 发 出 异步 读 请 求 ) 又 将 预 读 
窗口 中 的 一 页 标记 为 PG_Readahead， 在 进程 遇 到 该 页 时 ， 将 再 次 开始 异步 预 读 ， 依 此 类 推 。 
对 do_generic_readahead 就 讲 到 这 里 。 filemap_fault 的 处 理 方式 , 与 do_generic_readahead 
的 区 别 有 两 个 方面 : 仅 当 设置 了 顺序 读 取 提 示 的 情况 下 ， 才 会 进行 异步 自 适应 的 预 读 。 如 果 没 有 设置 
预 读 提示 ， 那 么 qo_page_cache_reaqaheadq 只 进行 一 次 预 读 ， 而 不 设置 PG_Readqahead， 也 不 会 更 新 
文件 的 预 读 状态 跟踪 信息 。 

预 读 机 制 的 实现 涉及 几 个 函数 。 图 16-5 说 明了 这 些 函 数 彼此 的 关联 。 
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TT 


G@) 实际 上 ， 内 核 在 这 里 使 用 的 术语 同步 ， 有 一 点 误导 。 内 核 并 未 等 待 由 page_cache_sync_readqahed 提 交 的 读 操 
完成 ， 因 此 在 通常 意义 上 这 不 是 同步 的 。 但 由 于 读 入 一 页 比较 快速 ， 在 page_cache_sync_readahead 返 回 到 调 
者 时 ， 目 标 页 已 经 读 入 页 缓存 的 几率 是 很 高 的 。 但 调用 者 必须 小 心目 标 页 尚未 读 入 的 情况 。 

@ 由 于 预 读 状 态 是 针对 每 个 文件 分 别 跟踪 的 ， 内 核 在 本 质 上 不 需要 这 个 专门 的 标志 ， 因 为 没有 该 标志 ， 也 可 以 获得 
相应 的 信息 。 但 在 多 个 并 发 的 读 取 操 作 作用 于 一 个 文件 时 ， 是 需要 该 标志 的 。 
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| 229ge_cache_sync_readahead | [Bage_cache_async_readahead 
force page cache do_page_cache 
readahead readahead 























































| ondemand_readahead 2 ra_submit 














将 页 读 入 页 缓存 
图 16-5 ”用 于 实现 预 读 的 函数 。 请 注意 ， 图 中 虽然 给 出 了 各 个 函数 之 间 的 关联 ， 但 并 不 
是 一 个 正确 的 代码 流程 图 
从 技术 角度 来 看 ,在 实际 需要 页 之 前 将 其 读 入 页 缓存 是 简单 的 ， 用 本 章 中 到 目前 为 止 介绍 的 框架 
可 以 轻易 实现 。 问 题 在 于 预测 预 读 窗口 的 最 优 长 度 。 为 此 ， 内 核 会 记录 每 个 文件 上 一 次 的 设置 。 下 列 
数据 结构 将 关联 到 每 个 file 实 例 : 





















































































































































<fs.h> 
struct file ra_ state { 
pgoff_t start; /* 预 读 的 起 始 位 置 */ 
unsigned int size; /* 预 读 的 页 数 */ 
unsigned int async_size; /* 效 值 ， 在 读 取 方 向 上 剩余 页 数 为 该 值 时 ， 启 动 异 步 预 读 */ 
unsigned int ra_pages; /* 预 读 窗口 最 大 长 度 */ 
loff_t prev_pos; /* 缓存 的 上 一 次 read() 的 位 置 */ 
}7 






































statt 表 示 页 缓存 中 开始 预 读 的 位 置 ，size 给 出 了 预 读 窗口 的 长 度 。async_size 表 示 剩 余 预 读 页 
的 最 小 值 。 如 果 预 读 窗 口中 只 有 这 人 么 多 页 ， 那 么 将 发 起 异步 预 读 ， 将 更 多 页 读 入 页 缓存 。 图 16-4 也 说 
明了 这 些 值 的 含义 。 

ra_pages 表 示 预 读 窗口 的 最 大 长 度 。 内 核 读 入 的 页 数 可 以 比 这 个 值 少 ， 但 决 不 会 比 这 个 值 多 。 
最 后 ，prev_pos 表 示 前 一 次 读 取 时 ， 最 后 访问 的 位 置 。 


加 
加 


该 值 最 重要 的 提供 者 是 do_generic_mapping_read 和 filemap_fault。 

ondemand_readahead 例 程 负 责 实现 预 读 策略 ， 即 判断 读 入 多 少 当前 并 不 需要 的 页 。 如 图 16-5 所 
示 ，page_cache_sync_readahead 和 和 page_cache_async_readahead 痢 依赖 于 该 函数 。 在 确定 预 读 
窗口 的 长 度 之 后 , 调用 ra_submit, 将 技术 性 问题 委托 给 ”qo_page_cache_readahead 完 成 。 在 这 里 ， 
页 是 在 页 缓存 中 分 配 的 ， 而 后 由 块 层 填充 。 

在 讨论 ondemang_readahead 之 前 ， 需 要 介绍 两 个 辅助 函数 :get_init_ra_size 为 一 个 文件 确 
定 最 初 的 预 读 窗口 长 度 ， 而 get_next_ra_size 为 后 来 的 读 取 计 算 窗口 长 度 ， 即 此 时 已 经 有 一 个 先前 
的 预 读 窗口 存 在 。get_init_ra_size 根 据 进程 请 求 的 页 数目 来 确定 窗口 长 度 ， 而 get_mnext_ra_size 
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则 根据 前 一 个 预 读 窗 口 的 长 度 来 计算 新 的 窗口 长 度 。 两 个 函数 都 会 确保 预 读 窗 口 的 长 度 不 超过 特定 于 
文件 的 上 限 值 。 虽 然 该 上 限 可 用 fagvise 系 统 调用 修改 ， 但 通常 都 设置 为 VM_MAX_READAHEAD * 1024 
/ PAGE_CACHE_SIZE， 在 页 长 度 为 4 KiB 的 系统 上 ， 相 当 于 32 页 。 两 个 函数 的 结果 如 图 16-6 所 示 。 图 
16-6 说 明了 初始 预 读 窗口 长 度 随 请 求 长 度 的 变化 关系 ， 以 及 后 续 的 预 读 窗口 长 度 随 前 一 个 预 读 窗口 长 
度 的 变化 关系 。 从 数学 意义 上 说 ， 最 大 的 预 读 长 度 相 当 于 这 两 个 函数 的 一 个 不 动 点 。 实 际 上 ， 这 意味 
着 预 读 窗口 长 度 决 不 能 超过 最 大 的 容许 值 ， 在 这 里 是 32 页 。 
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初始 窗口 长 度 一 
下 一 个 窗口 长 度 一 
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5 10 15 20 25 30 
请 求 长 度 和 上 一 个 预 读 窗口 的 长 度 
图 16-6 ”内 核 如 何 根 据 请 求 长 度 来 确定 预 读 窗口 长 度 
我 们 返回 到 ondemand_readahead， 该 函数 必须 借助 这 两 个 辅助 函数 来 设置 预 读 窗口 长 度 。 如 下 
三 种 情形 是 最 基本 的 。 
(1) 当前 偏 移 量 在 前 一 个 预 读 窗口 末尾 ， 或 在 同步 读 取 范围 的 末尾 。 在 这 两 种 情况 下 ， 内 核 假定 
进程 在 进行 顺序 读 取 ， 使 用 上 文 讨论 的 get_next_ra_size 来 计算 新 的 预 读 窗口 长 度 。 
(2) 如 果 遇 到 了 预 读 标记 ， 但 与 前 一 次 预 读 的 状态 不 符 ， 那 么 很 可 能 有 两 个 或 更 多 并 发 的 控制 流 
在 交错 地 读 取 文件 ,使 得 对 方 的 预 读 状 态 无 效 。 内 核 将 构建 一 个 新 的 预 读 窗口 ,以 适应 所 有 的 读 取 者 。 
(3) 如 果 是 在 对 文件 进行 第 一 次 读 取 (特别 是 这 种 情况 ) 或 发 生 了 缓存 失效 ， 则 用 


get_init_ra_size 建 立 一 个 新 的 预 读 窗口 。 
16.5 ” 块 缓存 的 实现 


块 缓存 不 仅仅 用 作 页 缓存 的 附加 功能 ， 对 以 块 而 不 是 页 进行 处 理 的 对 象 来 说 ， 块 缓存 是 一 个 独立 














































































































































































































































































































782 0 160 0000000 





16.5.1 数据 结构 


境 运 的 是 ， 两 种 类 型 的 块 缓存 ， 即 独立 的 块 缓存 和 用 作 页 缓存 附加 功能 的 块 缓存 ， 二 者 的 数据 结 
构 是 相同 的 ， 这 大 大 简化 了 实现 。 块 缓存 主要 的 数据 元 素 是 缓冲 头 ， 其 基本 特征 如 上 文 所 述 。 缓 冲 头 
在 内 核 源 代 码 中 的 定义 如 下 : 


<buffer_head.h> 
struct buffer head { 





































































































unsigned long b_state; /* 缓冲 区 状态 位 图 ( 见 上 文 ) */ 

struct buffer head *b_this page; /* 页 的 缓冲 区 的 环形 链表 */ 

struct page *b_page; /* 当前 缓冲 头 映射 到 的 页 */ 

sector_t b_ blocknr; /* 起 始 块 号 */ 

size t b_ size; /* 映射 长 度 */ 

char *b_data; /* 指向 页 内 数据 的 指针 */ 

struct block_device *b bdqev; 

bh end_ io t *b_end io; /* I/O 完 成 */ 

void xb_ private; /* 保留 给 b_ena_io 使 用 */ 

atomic t b_count; /* 此 缓冲 头 的 使 用 计数 */ 
缓冲 区 类 似 于 页 , 可 以 有 许多 状态 。 缓冲 头 的 当前 状态 保存 在 b_state 成 员 中 , 可 接受 下 列 值 (1 
































的 完整 列表 由 一 个 枚 举 bh_state_bits 提 供 ， 定 义 在 include/Linux/buffer_headqds.h 中 ) 。 
口 如 果 缓 冲 区 当前 的 数据 与 后 备 存储 器 匹配 ， 则 状态 为 bh_uptodqate。 
口 如 果 缓 冲 区 中 的 数据 已 经 修改 ， 不 再 与 后 备 存储 器 匹配 ， 则 状态 标记 为 BH_Dirty。 
口 BH_Lock 表 示 组 冲 区 被 锁定 ， 以 便 进 行进 一 步 的 访问 。 绥 冲 区 在 IO 抬 作 期 间 会 显 式 锁定 ， 以 
防 几 个 线程 并 发 处 理 缓冲 区 ， 导 致 彼此 干扰 。 
口 BH_Mapped 意 味 着 存在 一 个 缓冲 区 内 容 到 二 级 存储 设备 的 映射 , 所 有 起 源 于 文件 系统 或 直接 访 
问 块 设 备 的 缓冲 区 ， 都 是 这 样 。 
口 BH_New 标 记 新 创建 的 缓冲 区 。 





















































































































































s sieaee0 OO 
日 日 卓 卓 日 日 章 日 日 BK Lock 虽 BH Mapped 国 日 目 日 目 卓 自 日 利 日 自 四 站 目 利 目 站 旧 日 

















aa 
UUOUO0UO0O0U0OU0 Ba UptoaatelUOOOOOOOUOUO0U0O0O00000000 
国有 











































































































除了 上 述 常数 之 外 ，enum bph_state_bits 中 还 定义 了 一 些 额外 的 值 。 这 些 或 者 没什么 重要 性 ， 
或 者 不 再 使 用 ， 因 此 在 这 里 将 略 过 。 这 些 值 仍然 保留 在 内 核 源 代 码 中 ， 是 因为 历史 原因 ， 它 们 迟早 会 




















消失 。 
内 核定 义 了 set_buffer_foo 和 get_buffer_foo 函 数 ， 来 为 BH_Foo 设 置 和 读 取 缓冲 区 状态 位 。 
buffer_head 结 构 还 包括 了 其 他 成 员 ， 其 语义 如 下 。 

口 b_count 实 现 了 通常 的 访问 计数 器 ， 以 防 内 核 释放 仍然 处 于 使 用 中 的 缓冲 头 。 

口 b_page 保 存 一 个 指向 page 实 例 的 指针 ， 它 表示 在 块 缓存 基于 页 缓存 实现 的 情况 下 ， 当 前 缓冲 

头 相 关 的 page 实 例 。 如 果 块 缓存 是 独立 于 页 缓存 的 ， 则 b_page 为 NULL 指 针 。 

口 正如 前 文 的 讨论 ， 会 使 用 几 个 缓冲 区 ， 将 一 页 的 内 容 划分 为 几 个 较 小 的 单位 。 所 有 隶属 于 这 

些 单位 的 缓冲 头 都 保存 在 一 个 环形 单 链 表 上 ,链表 元 素 为 b_this_page (最 后 一 个 缓冲 头 的 该 
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成 员 ， 指 向 环形 链表 中 的 第 一 个 缓冲 头 ) 。 
口 p_blocknr 保 存 了 底层 块 设备 上 对 应 的 块 号 ，b_size 指 定 了 块 长 度 。b_bdev 是 一 个 指向 块 设 
备 的 block_device 实 例 的 指针 。 该 信息 唯一 地 标识 了 数据 的 来 源 。 
口 指向 内 存 中 数据 的 指针 保存 在 b_qata (数据 的 结束 位 置 可 根据 b_size 计 算 ， 因 而 不 需要 一 个 
显 式 的 指针 指向 该 位 置 ， 尽 管 上 文 为 简单 起 见 使 用 了 一 个 指针 )。 
口 b_ena_io 指 向 一 个 例 程 ， 在 涉及 该 缓冲 区 的 一 个 IO 操作 完成 时 ， 由 内 核 自 动 调用 《〈 第 6 章 描 
述 的 BIO 例 程 ， 要 求 进 行 该 操作 ) 。 这 使 得 内 核 可 以 将 进一步 的 缓冲 区 处 理 推 迟到 预期 的 输入 / 
输出 操作 实际 完成 时 。 
口 b_private 是 一 个 指针 ， 预 留 给 b_enq_io 使 用 。 它 主要 由 日 志文 件 系统 使 用 。 如 果 不 需 要 ， 
通常 设置 为 NULL。 
16.5.2 ”操作 
内 核 必须 提供 一 组 操作 ， 使 得 其 余 代 码 能 够 轻松 有 效 地 利用 缓冲 区 的 功能 。 本 节 描 述 用 于 创建 和 
里 新 缓冲 头 的 机 制 。 
00:0000000000000000000000000000 
在 使 用 缓冲 区 之 前 ， 内 核 首 先 必须 创建 一 个 buffer_head 结 构 实 例 ， 而 其 余 的 函数 则 对 该 结构 进 
行 操作 。 因 为 创建 新 绥 冲 头 是 一 个 频繁 重 现 的 任务 ， 它 应 该 尽快 执行 。 这 是 一 种 很 经 典 的 情形 ， 可 使 
第 3 章 描 述 的 slab 缓 存 解决 。 


国有 
Oooo 


当然 , 内核 源 代码 确实 提供 了 一 些 函 数 , 可 用 作 前 端 , 来 创建 和 销毁 缓冲 头 。alloc_buffer_head 
生成 一 个 新 缓冲 头 ， 而 free_buffer_heaq 销 毁 一 个 现存 的 缓冲 头 。 二 者 都 定义 在 fs/puffer.c 中 。 
与 读者 预期 的 相同 ， 这 两 个 函数 只 使 用 了 内 存 管理 的 函数 ， 还 涉及 一 些 统计 工作 ， 这 些 无 须 在 此 处 
讨论 。 
16.5.3 ”页 缓存 和 块 缓存 的 交互 
在 与 块 缓存 所 包含 的 有 用 数据 联合 使 用 时 ， 绥 冲 头 就 变 得 有 趣 多 了 。 本 节 将 讨论 页 与 缓冲 头 之 间 
的 关联 。 

1. 页 和 缓冲 头 的 关联 

缓冲 区 和 页 是 如 何 关 联 起 来 的 ?回想 上 文 对 该 方法 的 简要 讨论 。 一 页 划分 为 几 个 数据 单元 (实际 
的 数目 取决 于 页 长 度 和 块 长 度 ， 随 体系 结构 而 变 ) ， 但 缓冲 头 保存 在 独立 的 内 存 区 中 ， 与 实际 数据 无 
关 。 与 缓冲 区 的 交互 没有 改变 的 页 的 内 容 ， 缓 冲 区 只 不 过 为 页 的 数据 提供 了 一 个 新 的 视图 。 

为 支持 页 与 缓冲 区 的 交互 ， 需 要 使 用 struct page 的 private 成 员 。 其 类 型 为 unsigned long， 
可 用 作 指 向 虚拟 地 址 空间 中 任何 位 置 的 指针 〈page 的 确切 定义 已 经 在 第 3 章 给 出 ) : 


<mm.h> 
struct page { 


ie long private; /* 由 映射 私有 ， 不 透明 数据 */ 
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四 
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private 成 员 还 可 以 用 作 世 



































轻易 地 扫描 与 页 关联 的 所 








其 他 用 途 ， 根 和 




















bage 和 jbuffer_headq 结 





buffers 和 1ink_gev_buffers 函 数 ， 二 者 都 实现 在 fs/buffer.c 中 。 
联 到 一 页 ， 而 create_empty_ buffers 创 建 一 组 全 新 的 缓冲 区 ， 


block _read_ful1l page 和 block write full page 读 写 整 页 时 ,就 会 调用 create_empty_ 





居 页 





























AAA 














的 具体 用 途 ， 可 能 与 
用 途 是 关联 缓冲 区 和 页 。 这 样 的 话 ，private 指 向 将 页 划分 为 更 小 单位 的 第 一 个 缓冲 头 。 各 个 缓冲 头 
通过 b_this_page 连 接 为 一 个 环形 链表 。 在 该 链表 中 ， 


后 者 











其 主要 的 











缓冲 头 完全 无 关 。 ”但 





每 个 缓冲 头 的 b_this_page 成 员 指 向 
冲 头 ， 而 最 后 一 个 缓冲 头 的 b_this_page 成 员 指向 第 一 个 缓冲 头 。 这 使 得 内 核 从 page 结 构 开 始 ， 可 以 
有 buffer_head 实 例 。 
E 构 之 间 的 关联 是 如 何 建立 的 呢 ? 内 核 为 此 提供 了 create_empty_ 
来 将 一 组 现存 的 缓冲 头 关 






































页 长 度 和 块 长 度 而 变化 )。 该 函数 返 





create_empty_buffers 首 先 调 








| 








b_this_page 成 员 指 向 下 一 个 绥 冲 头 。 唯 一 的 例外 是 


旧 针 
fs/buffer.c 


用 alloc_page | 
一 个 指针 ， 指 














以 便 与 


buffers 创 建 所 需 数 
癌 单 链表 中 的 第 一 个 元 素 ， 

















例 





进行 关联 。 








最 后 


void create empty_buffers(struct page *page, 
unsigned long blocksize, unsigned long b_state) 


{ 

















个 缓冲 头 , 其 中 b_this_pag 


struct buffer head *bh, *head, *tail; 
head = alloc_ page buffers (page, blocksize, 1); 
函数 接 下 来 壳 历 所 有 缓冲 头 ， 设 置 其 状态 ， 并 建立 一 个 环形 链表 : 
fs/buffer.c 
do { 
bh->b_state |= b_state; 
tail. 三 Bh 
bh = bh->b_ this page; 
} while (bh); 


tail->b_this_page 


缓冲 区 的 状态 依赖 于 内 存 页 





fs/buffer.c 
也 符 








bh = head; 


do { 


} while 


} 


attach page_ buffers (page, 


} 


set_buffer dirty 和 set_buffer uptodate 分 别 设置 缓冲 涉 中 对 应 的 标志 





Q@ 如 果 页 位 于 交换 缓 在 ， 则 缓存 
:在 伙伴 




















private 成 员 保存 了 其 


if 


(PageUptodate (page) 


head; 


数据 的 状态 : 


|| PageDirty(page)) { 


(PageDirty (page)) 


set_buffer dirty (bh); 


if (PageUptodate (page)) 


bh 
(bh != head); 





系统 


= bh->b_ this_page; 


也 存储 了 





中 的 阶 。 


head); 























一 个 swp_entry_t 的 实例 ，private 即 指向 该 实例 。 


set_buffer_ uptodate (bh); 





如 果 页 


目的 缓冲 头 〈 该 数 
而 其 中 每 个 缓冲 头 的 


FE 二 个 组 











如 ， 在 用 


buffers。 
目 可 能 随 











e 为 NULL 


BH Dirty 和 BH_ 


是 空闲 的 ， 则 
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Uptodate。 

最 后 调用 的 attach_page_buffers， 将 缓冲 区 关联 到 页 ， 有 两 个 独立 的 步骤 。 

(1) 设置 页 标志 的 PG_private 标 志 位 , 通知 内 核 其 他 部 分 page 实例 的 private 成 员 正 在 使 用 中 。 

(2) 将 页 的 private 成 员 设 置 为 一 个 指向 环形 链表 中 第 一 个 缓冲 头 的 指针 。 

初 看 起 来 ， 设 置 PG_Private 标 志 不 像 是 一 个 影响 深远 的 操作 。 但 该 操作 很 重要 ， 因 为 内 核 检 查 
页 是 否 与 缓冲 区 关联 的 唯一 方法 就 是 通过 该 标志 位 。 在 内 核 启动 任何 操作 修改 或 处 理 与 一 页 相关 的 组 
冲 区 时 ， 首 先 必须 检查 缓冲 区 是 否 实 际 存在 ， 但 情况 并 不 总 是 这 样 。 内 核 提 供 了 page_ 
has_buffers (page) 来 检查 是 否 设 置 了 该 标志 。 该 函数 在 内 核 源 代码 中 大 量 调用 ， 因 而 值得 提 及 。 

2. 交互 

如 果 对 内 核 的 其 他 部 分 无 益 ， 那 么 在 页 和 缓冲 区 之 间 建 立 关 联 就 没 起 作用 。 如 上 所 述 ， 一 些 与 块 
设备 之 间 的 传输 操作 ， 传 输 单 位 的 长 度 依赖 于 底层 设备 的 块 长 度 ， 而 内 核 的 许多 部 分 更 喜欢 按 页 的 粒 
度 来 执行 IO 操作 ， 因 为 这 使 得 其 他 事情 更 容易 处 理 ， 特 别 是 内 存 管 理 方面 。” 在 这 种 场景 下 ， 绥 冲 区 
充当 了 双方 的 中 介 。 

eUU0000000 
首先 考察 内 核 在 从 块 设备 读 取 整 页 时 采用 的 方法 ， 以 block_reag_full_page 为 例 。 我 们 来 讨论 
缓冲 区 实现 所 关注 的 部 分 。 图 16-7 给 出 了 block_reagd_full_page 中 与 缓冲 区 相关 的 函数 调用 。 


block read full page 


Ipage_has_buffers? 


三 4 
遍历 所 有 | | buffer_uptodate? = 
缓冲 区 否 


submit_bh 




































































































































































































































































































create_empty_buffers 
































中 饥 历 所 有 内 容 并 非 最 


的 缓冲 区 

















图 16-7 block_read_full_page 中 绥 冲 区 相关 操作 的 代码 流程 图 





block_read_full_page 分 3 步 读 取 一 整 页 。 

(1) 建立 缓冲 区 并 检查 其 状态 。 

(2) 锁定 缓冲 区 ， 防 止 其 他 内 核 线程 在 下 一 步 进行 干扰 。 

(3) 数据 传输 到 绥 冲 区 。 

第 一 步 需 要 检查 页 是 否 有 相关 联 的 缓冲 区 ， 有 时 候 是 没有 的 。 如 果 没 有 ， 则 使 用 前 几 节 描述 的 
create_empty_ buffers 创 建 缓冲 区 。 接 下 来 ,在 进行 下 述 处 理 之 前 ， 用 page_buffers 来 获得 这 些 组 
冲 区 , 无 论 是 新 建 的 还 是 已 经 存在 的 。page_buffers 只 是 将 page 的 private 成 员 转 换 为 buffer_head 
指针 ， 因 为 按照 惯例 ，private 指 加 与 page 关 联 的 第 一 个 缓冲 头 。 





















































































































































G 如果 数 据 按 页 读 写 ，IO 操 作 通 常会 更 高 效 。 这 是 引入 BIO 层 来 替代 原本 基于 缓冲 头 的 方法 的 主要 原因 。 
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可 以 是 置 位 或 未 置 位 。 























内 核 的 主要 工作 是 要 和 弄 清 
须 读 取 ， 哪 些 缓冲 区 的 数 扩 














内 核 裔 历 与 页 关 且 

















这 种 情况 下 ， 页 缓存 
(2) 如 果 没 有 映射 











(1) 如 果 缓 冲 区 内 容 





在 EXT2/EXT3 文 
的 对 应 例 程 名 称 类 似 。 








统 中 定位 所 要 的 块 。 本 
































效 的 。 为 此 ， 内 核 利 


区 ， 执 行 下 列 检查 。 
最 新 的 《可 以 用 buffer_up 
Pp 的 数据 与 块 设备 匹配 ， 无 须 额外 的 读 操 作 。 


(未 设置 BH_Mapping) ， 则 调 月 















































todate 检 查 )， 内 核 继续 处 理 下 一 个 缓冲 











区 的 数据 是 最 新 的 (与 块 设备 的 数据 匹配 或 更 新 ) ， 因 而 无 


BH_Mapping 和 BH_Uptodate 状 态 位 ， 二 者 都 





Xl 


. 在 











Hget_block 来 确定 块 在 块 设备 上 的 位 置 。 
月 了 ext2_get_block 和 ext3_get_block。 其 他 文件 系统 
所 有 这 些 例 程 的 共同 点 是 ， 修 改 了 buffer_head 结 构 ， 使 得 它 可 用 于 在 文件 系 








质 上 , 这 涉及 设置 b_ baev 和 b_bloclknzr 字 段 ,因为 二 者 标识 了 组 六 














区 对 应 的 块 。 








UU 


get_blockxl0DU0O000000000000000 bp 





ock read full pagel 口 

















在 执行 get_blockzZ 




















内 核 无 须 进行 其 他 操作 。 
(4) 在 分 别处 理 了 
射 ， 但 其 内 容 不 是 最 新 的 , 则 将 缓冲 









































(3) 还 有 第 三 种 可 能 


色 的 状态 是 BH_Mapped 而 不 是 BH_Uptodate。 
EE 了 与 块 的 映射 ， 但 其 内 容 不 是 最 新 的 。 这 种 情况 下 ， 



























































直至 没有 更 多 的 缓冲 区 需要 处 理 











Uptodate 和 BH_Mapped 状 态 








如 果 关 联 到 页 的 所 有 组 六 最 新 的 ， 可 


























可 以 结束 处 理 ， 因 为 整 页 的 所 有 数据 现在 都 处 于 内 存 中 。 
但 通常 会 有 一 些 缓冲 区 已 经 建立 了 与 块 


























内 容 。 提 示 ， 此 类 缓冲 区 会 收 人 














处 理 。 
































在 第 二 阶段 ， 使 


Ph， 用 于 b] 


lock_read_ full 





由 lock_buffer 锁 定 所 有 





























以 使 


jsetPageUptodqate 设 置 整 页 的 ; 


中 


























位 的 各 种 组 合 之 后 , 如 果 绥 冲 区 已 经 
区 放置 到 一 个 临时 的 数组 中 。 接 下 来 继续 处 理 页 的 下 一 个 缓冲 区 ， 






























































的 映射 ，1 














三 TH、 十 
需要 请 








取 的 缓冲 区 。 这 防止 了 两 个 内 核 线 程 














与 块 建立 映 


大 态 。 函 数 此 时 





! 其 数据 不 是 最 新 的 ， 未 能 反映 块 设备 当前 的 
L_page 第 二 阶段 和 第 三 阶段 的 














同时 读 取 同 


一 缓冲 区 ， 导 人 致 彼此 干扰 。 还 调用 了 mark_buffer_async_read， 将 b_engd io 设置 为 engd_buffer 


async_read， 该 函数 将 在 数据 传输 结束 时 自动 调用 。 

















实际 的 VO 操作 











第 三 阶段 触发 ， 此 日 























BIO 层 )， 在 其 中 开始 读 操 作 。 在 读 操作 结束 时 ， 将 调 
它 将 遍历 页 的 所 有 缓冲 





engd_buffer async read)。 

假定 所 有 缓冲 区 的 状态 都 已 经 是 最 新 的 。 
读者 可 以 看 到 ，block_reagd_full_page 的 优点 

如 果 能 确定 整 页 都 不 是 最 新 的 ， 那 么 最 好 调用 mpage_readpage， 避 免 缓 冲 区 的 多 余 开销 。 
eUU0000000 
































村 submit_ pb; 





各 所 有 需要 读 取 的 缓冲 




















保存 在 b_enq_io 中 的 
区 ， 检 查 其 状态 ， 并 将 整 页 的 } 



















































































区 的 角度 来 看 ， 
化 了 一 些 ) 写 操作 的 次 要 细 

















写 操 作 的 实现 比 上 述 的 读 操作 





区 转交 给 块 
函数 《在 这 种 情况 下 是 
大 态 设置 为 最 新 ， 





导 或 称 为 























本 于 ， 它 只 需 读 取 页 中 并 非 最 新 的 那些 部 分 。 但 


除了 读 操作 之 外 ， 页 的 写 操作 也 可 以 划分 为 更 小 的 单位 。 只 有 页 中 实际 修改 的 内 容 需要 回 写 ， 而 
不 用 回 写 整 页 的 内 容 。 遗 憾 的 是 ， 从 缓冲 
下 文 的 讨论 中 ， 将 忽略 





杂 得 多 。 在 


请， 而 专注 于 内 核 所 需 的 关键 操作 。 


Q 还 有 另 一 种 状态 ， 即 缓冲 区 中 的 数据 是 最 新 的 ， 但 尚未 映射 到 块 。 读 取 稀 玻 文件 可 能 出 现 这 种 状态 〈 例 如 ， 在 Ext2 


文件 系统 中 就 是 可 能 的 ) 。 在 这 种 情况 下 ， 缓 六 














区 填充 的 是 0 字 节 ， 但 这 里 将 忽略 这 种 场景 。 
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图 16-8 给 出 了 plock write_full_page 函 数 中 回 写 脏 页 涉及 的 缓冲 区 相关 操作 的 代码 流程 图 
(不 涉及 错误 处 理 ， 另 外 还 忽略 了 一 些 不 常见 的 边 角 情 况 ， 但 实际 上 是 必须 处 理 的 )。 


block write full page 
Ipage_has_buffers create empty_ buffers 


Ibuffer mapped && buffer dirty get_block 
buffer_ mapped && buffer _ dirty 


lock_buffer 








































































mark_buffer async write 











SetPageWriteback 
buffer async write submit_ bh 


图 16-8 __plock_write_full_page 的 缓冲 区 相关 操作 的 代码 流程 图 
回 写 过 程 划 分 为 儿 个 部 分 ， 每 个 部 分 都 会 遍历 与 页 关联 的 缓冲 区 的 单 链表 。 
上 照例， 首先 必须 确认 页 是 否 有 与 之 关联 的 缓冲 区 ， 这 一 点 不 能 想当然 。 与 读 取 操 作 类 似 ， 这 里 也 
调用 了 page_has_buffers 来 检查 缓冲 区 是 否 存在 。 如果 没 有 , 则 使 用 create_empty_buffers 创 建 组 
冲 区 。 

内 核 接 下 来 三 次 志 历 绥 冲 区 的 链表 ， 如 代码 流程 图 (图 16-8〉 所 示 。 

(1) 第 一 次 遍历 的 目的 是 ， 对 所 有 未 映射 的 脏 缓冲 区 ， 在 缓冲 区 和 块 设备 之 间 建 立 映射 。 将 调 月 
保存 在 get_block 函 数 指针 中 的 函数 ， 查 找 块 设备 上 与 缓冲 区 相 | 匹 配 的 块 。 

(2) 在 第 二 次 过 历 中 ， 将 滤 出 所 有 的 脏 缓冲 区 。 这 可 以 通过 test_clear_buffer_dqirty 检 查 ， 如 
果 设 置 了 脏 标志 ， 则 会 在 调用 该 函数 时 清除 ， 因 为 缓冲 区 的 内 容 将 立即 回 写 。 "mark_ buffer_async_ 
write 设置 BH_Async_Write 状 态 位 ， 并 将 enq_buffer_async_write 指 定 为 BIO 完成 处 理 程序 〈 即 
b_end_ io)。 

在 这 一 次 遍历 结束 时 ，set_page_writeback 对 整 页 设置 PG_writeback 标 志 。 

(3) 在 第 三 次 也 就 是 最 后 一 次 遍历 中 , 调用 submit_bh 将 前 一 次 遍历 中 标记 为 BH_Async_Write 
的 所 有 缓冲 区 转交 给 块 层 执行 实际 的 写 操作 ， 该 函数 向 块 层 提交 了 一 个 对 应 的 请 求 〈 通 过 BIO， 参 见 
第 6 章 )。 
在 针对 某 个 缓冲 区 的 写 操作 结束 时 ， 将 自动 调用 eng_buffer_async_write， 检查 页 的 所 有 其 他 
缓冲 区 上 的 写 操作 是 否 也 已 经 结束 。 倘 若 如 此 ， 则 唤醒 在 与 该 页 相关 的 队列 上 睡眠 、 等 待 此 事件 的 所 
有 进程 。 


16.5.4 独立 的 缓冲 区 
缓冲 区 不 仅 可 用 于 页 缓存 的 环境 中 。 在 Linux 内 核 的 早期 版 本 中 ， 所 有 缓存 都 是 用 缓冲 区 实现 的 ， 
















































































an 


Xl 
























































































































































































































































G) 此 时 ， 内 核 还 必须 调用 buffer_mapped， 确 保 该 缓存 已 经 映射 到 某 个 块 。 如 果 文 件 中 有 空洞 ， 即 稀 玻 文件 的 情形 ， 
可 能 缓冲 区 没有 映射 到 块 ， 但 这 种 情况 也 无 须 回 写 。 
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而 不 依靠 页 缓存 。 这 种 方法 的 价值 在 后 续 版 本 逐渐 降低 , 几乎 所 有 的 重要 缓存 都 已 经 基于 页 绥 存 实现 。 
但 仍然 有 些 情形 需要 在 块 级 访问 块 设备 的 数据 ， 而 不 是 从 高 层 代 码 看 到 的 页 级 进行 。 为 加 速 这 样 的 操 
作 ， 内 核 提供 了 另 一 个 缓存 ， 称 为 LRU 块 缓存 ， 在 下 文 讨论 。 

这 种 用 于 独立 缓冲 区 的 缓存 ， 并 不 是 与 页 缓存 完全 分 离 的 。 因 为 物理 内 存 总 是 按 页 管理 ， 组 冲 块 
也 必须 保存 在 页 中 ， 所 以 仍然 与 页 缓存 有 一 些 联系 。 这 些 联 系 是 不 能 也 不 应 忽略 的 ， 毕 竟 仍 然 可 以 通 
过 块 缓存 访问 各 个 块 ， 而 无 须 关 注 块 在 页 中 的 组 织 。 

1. 操作 方式 

为 什么 采用 LRU? 就 我 们 所 知 ， 该 缩写 代表 最 近 最 少 使 用 〈least recently used)， 指 的 是 一 种 一 般 
方法 ， 可 用 于 有 效 管 理 一 个 集合 中 最 常 使 用 的 那些 成 员 。 如 果 经 常 访问 一 个 数据 元 素 ， 则 该 元 素 很 可 
能 位 于 物理 内 存 中 《因而 被 缓存 )。 较 不 常用 或 很 少 使 用 的 数据 元 素 ， 将 随时 间 的 推移 ， 逐 渐 自 动 退 
出 缓存 。 

在 每 次 进行 请 求 ， 需 要 查找 一 个 独立 缓冲 区 时 ， 为 使 查找 操作 更 快速 ， 内 核 首 先 自 顶 向 下 扫描 所 
有 缓存 项 。 如 果 每 个 数据 元 素 包 含 所 需 数 据 ， 则 可 以 使 用 缓存 的 该 数据 实例 。 和 否则 ， 内 核 必 须 向 块 设 
备 提交 一 个 底层 请 求 ， 来 获取 所 需 数据 。 

上 一 次 使 用 的 数据 元 素 , 将 由 内 核 自 动 放置 到 LRU 列 表 的 第 一 个 位 置 上 。 如 果 缓 存 中 已 经 有 数据 
元 素 ， 则 只 改变 各 个 元 素 的 位 置 。 如 果 该 数据 元 素 是 从 块 设备 读 取 的 ， 则 将 数组 的 最 后 一 个 元 素 退 出 
缓存 ， 从 内 存 中 释放 。 

算法 非常 简单 ， 但 很 有 效 。 这 减少 了 查找 常用 数据 元 素 的 时 间 ， 因 为 相关 的 元 素 都 位 于 数组 的 项 
部 。 同 时 ， 不 常用 的 数据 元 素 在 持续 一 段 时 间 都 没有 访问 之 后 ， 将 自动 退出 缓存 。 该 方法 唯一 的 不 利 
之 处 是 ， 在 每 次 查找 操作 之 后 ， 几 乎 数组 的 所 有 内 容 都 需要 重新 定位 。 这 是 耗 时 的 ， 只 能 对 小 型 缓存 
实现 。 因 而 ， 块 缓存 的 容量 较 低 。 




































































































































































































































































































































































































































































2. 实现 

下 面 讨论 内 核 为 上 述 LRU 组 存 实 现 的 算法 。 

euUUU0 

算法 并 不 复杂 ， 只 需要 相对 简单 的 数据 结构 。 该 实现 的 起 点 是 bh_lru 结 构 ， 其 定义 如 下 : 
fs/buffer.c 

#define BH_LRU_SIZB 8 





struet. bh lrwu { 
struct buffer_ head *bhs[BH LRU_SIZE]; 

}3 
static DEFINE_PER_CPU(struct bh_ lru, bh_ lrus) = {{ NULL }}; 
该 结构 定义 在 一 个 C 文 件 中 ， 而 非 头 文件 。 照 例 ， 这 表示 内 核 代码 的 其 余部 分 不 应 该 (但 可 以 1) 
直接 访问 该 缓存 数据 结构 ， 而 需要 通过 下 文 讨论 的 专用 辅助 函数 。 

bhs 是 一 个 缓冲 头 指针 的 数组 ， 用 作 实 现 LRU 算 法 的 基础 〈 按 定义 所 示 ， 其 中 包括 8 个 数据 项 )。 
内 核 使 用 DEFINE_PER_CPU， 为 系统 的 每 个 CPU 都 建 立 一 个 实例 ， 改 进 对 CPU 高 速 缓存 的 利用 率 。 

该 缓存 通过 内 核 提 供 的 两 个 公开 的 函数 来 进行 管理 和 使 用 : lookup_bh_1ru 检 查 所 需 数据 项 是 否 
在 缓存 中 ， 而 bh_lru_instal1 将 新 的 缓冲 头 添加 到 缓存 中 。 
个 函数 的 实现 并 不 出 人 意料 ， 因 为 它们 只 是 实现 了 上 述 的 算法 。 "它们 只 需要 在 操作 开始 时 ， 

















































































































































































































G) 如 内 核 代 码 中 的 注释 所 言 : 抱歉 ， 但 我 得 说 ，LRU 的 管理 算法 迟钝 而 简单 。 
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根据 当前 CPU 选择 对 应 的 数组 ， 使 用 的 代码 如 下 : 


fs/buffer.c 
lru = &_ get_cpu_ var(bh lrus); 


UU00D0 1lookup bh _lruJUOOO0OO0O00000000000000000000 
UUOU0O0D0 


eUU00 

普通 的 内 核 代 码 通常 不 会 接触 到 bh_lookup_1lru 或 bnh_lru_instal1， 因 为 二 者 被 封装 起 来 。 内 
核 提 供 了 通用 例 程 来 访问 各 个 块 ， 它 们 自动 涵盖 了 块 缓存 ， 使 得 没 必要 与 块 缓 存 进 行 显 式 交 互 。 这 些 
例 程 包括 _ getblk 和 ”pbread， 实 现在 fs/buffer.c 中 。 
在 讨论 其 实现 之 前 ， 最 好 先 描述 二 者 的 异同 点 。 首 先 ， 两 个 函数 需要 的 参数 是 相同 的 : 
fs/buffer.c 

struct buffer _ head * 


__ getblk(struct block_ device *bdev, sector_t block, int size) 


{ 


























































































































} 


struct buffer_ head * 
_ bread(struct block device *pbdev, sector_t block, int size) 


{ 


} 

数据 块 可 通过 所 在 块 设备 的 block_device 实 例 、 忆 区 编号 (sector_t 类 型 ) 和 块 长 度 唯 一 
标识 。 

不 同 点 与 两 个 函数 的 目标 有 关 。__pread 保 证 返回 一 个 包含 最 新 数据 的 缓冲 区 。 这 导致 在 必要 的 
情况 下 ， 需 要 读 取 底层 块 设备 。 
调用 _getblk 总 是 返回 一 个 非 NULL 指 针 〈 即 一 个 缓冲 头 )。" 如 果 所 要 缓冲 区 的 数据 已 经 在 内 存 
中 ， 则 返回 数据 ， 但 不 保证 数据 的 状态 。 与 _bread 相 比 ， 数 据 可 能 不 是 最 新 的 。 而 另 一 种 可 能 性 是 ， 
缓冲 区 对 应 的 块 尚未 读 入 内 存 。 在 这 种 情况 下 ，__getblKk 确 保 分 配 数据 所 需 的 内 存 空 间 ， 并 将 缓冲 头 
插入 到 LRU 组 存 。 


一 gesisls 中 上 昌 四 
UUUD 


@ getblk[| 

图 16-9 给 出 了 __getpblk 的 代码 流程 图 (首先 讨论 该 函数 ， 因 为 _bread 会 调用 它 )。 

如 代码 流程 图 (图 16-9) 所 示 ， 在 执行 _ getblk 时 有 两 个 可 能 的 选项 。 调 用 _ find_get_pblock 
使 用 如 下 所 述 的 方法 来 查找 所 要 的 缓冲 区 。 如 果 查 找 成 功 则 返回 一 个 buffer_head 实 例 。 否 则 ， 任 务 
委托 给 ”getblk_slow。 顾 名 思 义 ， getblk_slow 能 产生 所 要 的 缓冲 区 ， 但 用 时 比 _ find get_ 
block 长 。 但 该 函数 能 够 保证 总 是 可 以 返回 一 个 适当 的 buffer_head 实 例 并 为 数据 分 配 内 存 空间 。 



















































































































































































































































































G 有 一 个 例外 。 如 果 所 要 的 块 长 度 小 于 512 字 节 ， 或 大 于 一 页 ， 或 不 是 底层 块 设备 硬件 扇 区 长 度 的 倍数 ， 则 该 函数 返 
回 一 个 NULL 指 针 。 但 同时 还 输出 一 个 栈 转 储 ， 因 为 无 效 的 块 长 度 解释 为 内 核 bug。 
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__getblk 
tingdlgeelblocek 


lookuabhea uy 












缓存 失效 ? 









fingd get_block_ slow 


lo rem, Maeaull 
touch utter 


NULL 指 针 ? 盖 一 >|__getblk_slow 


图 16-9 getblk 的 代码 流程 图 












加 加 
saevennewees 直 a 
DUUUUUDUDUDmark page_accessealUU000018000 











关键 问题 显然 是 _fing_ get_block 和 ”getblk_slow 之 间 的 差别 ， 这 是 _getblk 的 主要 工作 。 
































在 _find_get_block 开 始 时 会 调用 我 们 熟悉 的 lookup_ph_1ru 函 数 ， 检 查 所 需 的 块 是 否 已 经 


LRU 绥 存 中 。 
否则 ， 必 须 用 其 他 方法 来 继续 查找 。 find_get_block_slow 试 图 在 页 缓存 中 查找 该 数据 ， 
可 以 产生 两 个 不 同 的 结果 。 


























口 如 果 数 据 不 在 页 缓存 中 ， 或 虽然 在 页 缓存 中 ， 但 对 应 的 页 没有 与 之 关联 的 缓冲 区 ， 则 返回 
个 NULL 指 针 。 

口 如 果 数 据 在 页 缓存 中 ， 且 对 应 页 有 相关 的 缓冲 区 ， 则 返回 指向 所 要 缓冲 头 的 指针 。 

如 果 找 到 了 缓冲 头 ，。_fing_get_pblock 调 用 lbh_lru_install 函 数 将 其 添加 到 缓存 。 在 调 













































































touch_buffer 使 用 mark_page_accessed (参见 第 18 章 ) 将 该 页 标记 为 与 缓存 关联 之 后 ， 内 核 返 回 
__ getblk。 








在 





这 





用 
到 


如 果 _ fina_get_block 返 回 NULL 指 针 ， 则 必须 进入 _ getblk_slow 中 实现 的 第 二 条 代码 路 径 。 











该 路 径 保证 至 少 会 分 配 缓冲 头 和 实际 数据 所 需 的 内 存 空间 。 其 实现 相对 简短 : 


fs/buffer.c 
static struct buffer_ head * 
__getblk slow(struct block device *bdev, sector t block, int size) 


{ 





EO “(3 
struct buffer head * bh; 
int ret; 


bh = __ find get block(bdev, block, size); 
if (bh) 
return bh; 


ret = grow buffers (bdev, block, size); 


16.5 UUU0UU0D00D0 791 





if (ret < 0) 
return NULL; 
i (et "sa 0) 
free _ more memory(); 
} 
} 


令 人 惊讶 的 是 ， getblk_slow 首 先 调用 了 __finqd_get_block, 而 对 该 函数 的 调用 刚刚 才 失 败 。 
如 果 找 到 缓冲 头 ， 则 返回 。 当 然 ， 只 有 在 与 此 同时 有 男 一 个 CPU 建 立 了 所 需 的 缓冲 区 ， 并 在 内 存 中 创 
建 了 对 应 的 数据 结构 时 ， 这 一 次 函数 调用 才 会 成 功 。 尽 管 这 不 太 可 能 ， 但 仍然 必须 检查 。 
在 讨论 该 函数 的 实际 的 处 理 过 程 时 ， 这 种 相当 奇怪 的 行为 就 变 得 很 显然 了 。 它 实际 上 是 一 个 无 限 
循环 ， 重 复 使 用 _finq_get_block， 试 图 读 取 缓 冲 区 。 显 然 ， 如 果 该 函数 失败 ， 代 码 显然 不 会 什么 
都 不 做 。 内 核 使 用 grow_buffers， 试 图 为 缓冲 头 和 实际 数据 分 配 内 存 ， 并 将 该 内 存 空间 添加 到 内 核 
的 数据 结构 。 

(1) 如 果 成 功 ， 则 再 次 调用 _ finq_get_block， 这 一 次 会 返回 所 要 所 要 的 buffer_head。 

(2) 如 果 对 grow_buffers 的 调用 返回 负 值 ， 这 意味 着 块 超出 了 页 缓存 索引 的 范围 ， 此 时 将 放弃 循 
环 ， 因 为 目标 块 在 物理 上 是 不 存在 的 。 

(3) 如 果 grow_buffers 返 回 9， 这 意味 着 内 存 不 足 ， 无 法 增加 缓冲 区 ， 接 下 来 调用 free_more_ 
memory 试 图 释放 更 多 的 物理 内 存 来 改善 这 种 状况 ， 如 第 17 章 和 第 18 章 所 述 。 

这 也 是 将 函数 的 逻辑 髋 入 到 一 个 无 限 循 环 中 的 原因 ， 内 核 试图 反复 在 内 存 中 创建 数据 结构 ， 直 至 
成 功 。 

grow_buffers 的 实现 并 不 很 见长 。 在 进行 了 一 些 正确 性 检查 之 后 ， 它 将 工作 委托 给 
grow_dev_page 函 数 ， 后 者 的 代码 流程 图 在 图 16-10 给 出 。 


grow_dev_page 


fingd_ or_create_ page 
创建 缓冲 区 
link_ dev_buffers 


init_page_buffers| 
图 16-10 ”grow_dev_page 的 代码 流程 图 
该 函数 首先 调用 fing_or_create_page， 查 找 一 个 适当 的 页 或 创建 一 个 新 页 ， 来 保存 数据 。 
DOO0000000000000000000000000000000U00UUU0 
DDODONULLUUUUUU. getblk slow ODDO0O0O00000000000000000 
DO000000000000000U000UU0D0O 
如 果 页 已 经 与 长 度 正确 的 缓冲 区 相关 联 ， 通 过 jinit_page_buffers 来 修改 剩余 的 缓冲 区 数据 
(pb_bdev 和 b_pblocknr) ， 那 么 grow_dqev_page 就 没什么 可 做 了 ， 可 以 退出 。 
否则 ， 将 使 用 alloc_page_buffers 生 成 一 组 新 的 缓冲 区 ， 使 用 我 们 熟悉 的 1ink_qev_buffers 函 数 
关联 到 页 。 而 init_page_buffers 用 来 填充 缓冲 头 的 状态 Cb_status ) 和 管理 数据 (b_ badev\b_ blocknr )。 
@ _breadl] 品 
与 上 文 刚 刚 描述 的 方法 不 同 ，__pbreag 确 保 返 回 一 个 数据 最 新 的 缓冲 区 。 该 函数 不 难 实现 ， 因 为 
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它 基 于 __getblk: 


fs/buffer.c 
_ bread(struct block device *bdev, sector t block, int size) 


{ 
struct buffer head *bh = _ getblk(bdev, block, size); 


if (likely(bh) && !buffer_ uptodate (bh)) 
bh = _ bread_slow(bh); 
return bh; 


} 

第 一 个 操作 是 调用 __getblk 例 程 ， 确 认 绥 冲 头 和 实际 数据 所 需 的 内 存 空间 都 已 经 就 位 。 如 果 组 
冲 的 数据 已 经 是 最 新 的 ， 则 返回 指向 缓冲 头 的 指针 。 

如 果 缓 冲 的 数据 不 是 最 新 的 ， 余 下 的 工作 委托 给 __bread_slow 进 行 ， 换 言 之 ， 顾 名 思 义 ， 即 切 
换 到 低速 路 径 。 本 质 上 ， 该 函数 向 块 层 提交 一 个 请 求 ， 在 物理 上 读 取 数 据 ， 并 等 竺 操作 完成 。 接 下 来 ， 
在 缓冲 区 的 数据 保证 为 最 新 之 后 ， 返 回 缓冲 头 指针 。 

en0U000000D0 

在 何 种 情况 下 , 有 必要 按 块 读 取 ? 内 核 中 必须 用 这 种 读 取 方式 的 场景 不 多 , 但 都 很 重要 。 特别 是 ， 
文件 系统 在 读 取 超 级 块 或 管理 块 时 利用 了 上 述 的 例 程 。 

内 核定 义 了 两 个 函数 ， 以 简化 文件 系统 处 理 单个 块 的 工作 : 


<buffer_head.h> 
static inline struct buffer head * 
sb_bread(struct super_ block *sb, sector_t block) 


{ 













































































































































































return _ bread(sb->s_bdev, block, sb->s_blocksize); 


static inline struct buffer head * 
sb_getblk(struct super_ block *sb, sector_t block) 
{ 


return _ getblk(sb->s_bdev, block, sb->s_blocksize); 
} 


如 上 述 代 码 所 示 ， 用 于 读 取 特定 文件 系统 块 的 例 程 使 用 了 一 个 超级 块 、 一 个 块 号 、 一 个 块 长 度 作 
为 参数 。 
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从 外 部 存储 设备 如 人 硬盘 读 取 数 据 ， 比 从 物理 内 存 读 取 数据 要 慢 得 多 ， 因 此 Linux 使 用 了 缓存 机 制 
将 已 经 读 取 的 数据 保存 在 物理 内 存 中 ， 供 后 续 访问 使 用 。 页 帧 是 页 缓存 运作 的 自然 单位 ， 本 章 讨 论 了 
内 核 如 何 跟踪 块 设备 的 哪些 部 分 缓存 在 物理 内 存 中 。 本 章 还 介绍 了 地 址 空间 的 概念 ， 它 用 于 将 缓存 的 
数据 与 其 来 源 关 联 起 来 ， 还 讨论 了 地 址 空间 的 操作 和 查询 方式 。 接 下 来 ， 本 章 讲 述 了 在 将 数据 读 入 页 
缓存 的 过 程 中 ，Linux 处 理 相关 技术 细节 的 算法 。 
传统 上 ，UNIX 缓 存 使 用 的 是 比 整 页 更 小 的 单位 ， 该 技术 直至 今日 仍然 存在 ， 称 为 块 缓 在。 虽然 
现在 主要 的 缓存 工作 由 页 缓存 处 理 ， 但 块 缓存 仍然 有 一 些 用 途 ， 因 而 本 章 介绍 了 块 缓存 的 相应 机 制 。 
使 用 物理 内 存 来 缓存 从 磁盘 读 取 的 数据 ， 只 是 物理 内 存 和 磁盘 交互 的 一 方面 , 二 者 的 交互 还 牵涉 
男 一 个 方面 :内 核 还 必须 考虑 将 在 物理 内 存 中 修改 的 数据 ， 同 步 到 磁盘 上 以 持久 存储 。 下 一 章 将 介绍 
对 应 的 机 制 。 

























































































































































































































































































数据 同步 
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里 内 存 和 硬盘 空间 在 很 大 程度 上 是 可 以 互 换 的 。 如 果 有 大 量 的 物理 内 存 是 空闲 的 ， 则 内 核 
使 用 一 部 分 内 存 来 缓冲 块 设备 的 数据 。 反 过 来 ， 如 果 物 理 内 存 太 少 ， 可 以 将 数据 换 出 内 存 ， 

转移 到 人 磁盘 空间 。 二 者 有 一 个 共同 点 ， 数 据 总 是 在 物理 内 存 中 操作 ， 随 后 在 随机 的 时 间 点 写 回 (或 刷 
出 ) 到 磁盘， 以 持久 保存 修改 。 在 这 里 ， 块 存储 设备 通常 称 为 物理 内 存 的 后 备 存储 器 。 

Linux 提 供 了 各 种 缓存 方法 ， 已 经 在 第 16 章 详细 讨论 。 但 上 一 章 没 有 讨论 数据 是 如 何 从 缓存 
到 磁盘 的 。 内 核 为 此 仍然 提供 了 几 个 选项 ， 可 分 为 如 下 两 类 。 

(1) 后 台 线 程 重 复 检 查 系 统 内 存 的 状态 ， 周 期 性 地 回 写 数据 。 

(2) 在 系统 缓存 中 及 页 过 多 ， 而 内 核 需要 干净 页 的 情况 下 ， 将 进行 显 式 刷 出 。 

本 章 将 讨论 这 些 技 术 。 


17.1 概述 


在 页 的 0DD (flushing)、 口 口 (swapping)、 口 口 (releasing) 操作 之 间 ， 有 着 明确 的 关系 。 不 仅 
需要 定期 检查 内 存 页 的 状态 ， 还 需要 检查 空闲 内 存 的 大 小 。 在 完成 检查 后 ， 未 使 用 或 很 少 使 用 的 页 将 
自动 换 出 ， 但 在 换 出 前 ， 其 中 包含 的 数据 将 与 后 备 存储 器 同步 ， 以 防 数据 丢失 。 对 动态 产生 的 页 ， 系 
统 交 换 区 充当 后 备 存 储 器 。 对 映射 自 文 件 的 页 来 说 ， 其 交换 区 就 是 底层 文件 系统 中 与 页 对 应 的 部 分 。 
如 果 内 存 发 生 严 重 的 不 足 ， 必 须 强 制 刷 出 脏 数 据 ， 以 获得 干净 的 页 。 

内 存 /缓存 与 后 备 存 储 器 之 间 的 同步 ， 概 念 上 分 为 两 部 分 。 

DUO000 policyroutine) 控制 数据 交换 的 时 机 。 系 统管 

定 何 时 交换 数据 ， 这 实际 上 是 系统 负 葵 的 一 个 函数 。 

口 技术 实现 处 理 缓存 和 后 备 存储 器 之 间 同 步 操作 的 硬件 相关 细节 ， 并 确保 策略 例 程 发 出 的 指令 

导 以 执行 。 
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里 员 可 以 设置 各 种 参数 ， 帮 助 内 核 判 
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能 因 不 同 原 因 、 在 不 同 的 时 机 触发 不 同 的 刷 出 数据 的 机 制 。 
周期 性 的 内 核 线程 ， 将 扫描 脏 页 的 链表 ， 并 根据 页 变 脏 的 时 间 ， 来 选择 一 些 页 写 回 。 如 果 系 
统 不 是 太 忙 于 写 操作 ， 那 么 在 脏 页 的 数目 ， 以 及 刷 出 页 所 需 的 硬盘 访问 操作 对 系统 造成 的 负 
荷 之 间 ， 有 一 个 可 接受 的 比例 。 
口 如 果 系 统 中 的 脏 页 过 多 例如 ， 一 个 大 型 的 写 操作 可 能 造成 这 种 情况 )， 内 核 将 触发 进一步 的 




















口 习 
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机 制 对 脏 页 与 后 备 存储 器 进行 同步 ， 直 至 脏 页 的 数 








多 ”和 “可 接受 的 程度 ”到 底 意味 着 什么 ， 
口 内 核 的 各 个 组 件 可 能 要 求 数据 必须 在 特定 事件 发 生 时 同步 ， 
前 两 种 机 制 
代码 触发 。 
于 数据 同步 的 实现 涉及 许多 彼此 关联 的 
情形 ， 然 后 详细 讨论 各 个 具体 函数 。 图 
个 恰当 的 代码 流程 图 , 只 说 明了 
线程 、 系 统 调用 以 及 文 

数据 


昌 完 整 性 
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函数 ， 且 数 




































































同步 





目 降 低 到 一 个 可 
此 时 尚 是 一 个 不 确定 的 问题 ， 将 在 下 文 讨论 。 


1 内 核 线程 paflush 实 现 ， 该 线程 执行 同步 代码 ， 而 第 三 种 机 制 可 能 


目 相 当 多 ， 
17-1 给 出 了 构成 实现 的 各 个 函数 之 间 的 
函数 彼此 间 的 关联 , 以 及 可 能 的 代码 路 径 。 图 17-1 着 重 说 明 
牛 系统 相关 组 件 的 显 式 请 求 所 发 起 的 同步 操作 。 


接受 的 程度 。 而 “ 脏 页 过 








例如 在 重新 装载 文件 系统 时 。 
1 内 核 中 的 多 处 


















































因而 这 里 











先 概述 我 们 所 面临 的 
依赖 关系 ， 但 它 不 是 一 
Iipdflush 












































刷 出 同步 





pdflush 





周期 性 回 写 





强制 回 写 











块 层 、 分 区 处 理 、fsync 
系统 调用 、 文 件 系统 等 





























__sync inodes 


sync_blockdev 


sync_inodes_sb 





























































对 一 个 超级 块 writeback single inode fl(*) (~) 
可 以 将 inode 置 于 s_io 上 
可 以 将 Ee 置 于 os __sync_ single inode|(:) (-) 
more_1o 
可 以 等 竺 inode 解锁 或 回 
写 完成 write_inode 
图 17-1 ”数据 同步 涉及 的 一 些 函 数 的 概述 
内 核 可 以 从 代码 中 任意 位 置 发 起 数据 同步 ， 但 
数 负责 


同步 属于 给 定 超级 块 的 所 有 脏 的 inode， 对 每 个 inode 都 使 朋 





























人 background balance dirty_ 
writeout pages 


writeback_inodes 


对 所 有 超级 块 


文件 系统 








I 所 有 的 代码 路 径 都 在 sync_sb_inodqes 结 束 。 该 函 


月 writeback_single_inode。sync 


系统 调用 和 各 种 通用 的 内 核 抽 象 层 (如 分 区 代码 或 块 层 ) 都 利用 了 这 种 做 法 。 


























为 一 方面 ， 系 统 也 可 能 出 现 需 要 将 所 有 超级 块 的 脏 inode 进 行 同步 的 情况 。 对 周 









































去 控制 。 





引 写 ， 特 别 需要 该 操作 。 内 核 会 在 文件 系统 代码 修改 数据 之 前 就 启动 同步 操作 ， 表 























期 性 回 写 和 强制 
前 保 脏 页 的 数目 不 失 
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对 文件 系统 来 说 ， 同 步 一 个 超级 块 的 所 有 脏 inode 通 常 粒 度 太 粗 了 。 它 们 通常 需要 同步 一 个 脏 的 
inode， 因 而 要 直接 使 用 writeback_single_inode。 

即使 同步 实现 围绕 inode 展 开 ， 但 这 并 不 意味 着 该 机 制 只 适用 于 已 装载 的 文件 系统 所 包含 的 数据 。 
在 10.2.4 节 曾 讨论 过 ， 裸 块 设备 由 bdev 伪 文件 系统 的 inode 表 示 。 因 而 ， 该 同步 方法 也 会 影响 到 裸 块 设 
备 ， 就 像 是 普通 的 文件 系统 对 象 那样 ， 这 对 想 要 直接 访问 数据 者 而 言 ， 是 个 好 消息 。 

术语 方面 有 个 需要 注意 的 地 方 : 当 我 在 下 文 提 到 inode 同 步 时 ， 总 是 既 包括 ipode 元 数据 的 同步 ， 
也 包括 inode 管 理 的 二 进 制 裸 数据 的 同步 。 对 普通 文件 来 说 ， 这 意味 着 同步 代码 不 仅 要 传输 时 间 惟 、 属 
性 等 信息 ， 还 要 将 文件 的 内 容 传输 到 底层 块 设备 。 


17.2 pdflush 机 制 


pdflush 机 制 实现 在 一 个 文件 中 : mm/pdflush.c。 这 与 内 核 更 早 的 版 本 中 同步 机 制 支离破碎 的 实 
现 ， 形 成 了 鲜明 的 对 照 。 

pdflush 是 用 通常 的 内 核 线程 机 制 启动 的 : 

mm/pdflush.c 


static void Start_one_pdflush thread(void) 
{ 































































































































































































kthread_run(pdflush, NULL, "pdflush"); 
} 


start_one_pdflush 启 动 一 个 paflush 线 程 ， 但 内 核 通 常会 同时 使 用 几 个 线程 ， 读 者 在 下 文 会 看 
到 。 应 该 注意 到 ， 特 定 的 pdflush 线 程 并 不 总 负责 同一 个 块 设备 。 线 程 分 配 可 能 随时 间 变 化 ， 因 为 线 
程 的 数目 不 是 常数 ， 而 且 可 能 随 系统 负载 而 变化 。 

实际 上 ， 内 核 在 初始 化 paflush 子 系统 时 ， 会 启动 MIN_PDFLUSH_THREADS 个 线程 。 通 常 ， 在 普通 
负荷 的 系统 上 该 数目 是 2， 通 过 ps 可 以 看 到 进程 列表 中 有 两 个 活动 的 paflush 实 例 : 


wolfgang@meitner> ps fax 









































































































































2 2 S< 0:00 [kthreadd] 
206 ? S 0:00 _ [pdflush] 


207 ? S 0:00 _ [pdflush] 


pdflush 线 程 的 数目 有 下 限 和 上 限 。MAX_PDFLUSH_THREADS 指 定 了 pdflush 实 例 的 最 大 数目 ， 通 
常 为 8。 并 发 线程 的 数目 保存 在 nr_paflush_threads 全 局 变量 中 , 但 并 不 区 分 活动 和 睡眠 的 线程 。 用 
户 空间 可 通过 /proc/sys/vm/nr_pdflush_threads 查 看 当前 值 。 

何 时 创建 /销毁 pdf1lush 线 程 的 策略 是 很 简单 的 。 如 果 1 秒 内 都 没有 空闲 线程 可 用 ， 内 核 将 创建 
一 个 新 的 线程 。 反 之 ， 如 果 某 个 线程 的 空闲 时 间 已 经 超过 1 秒 ， 则 将 被 销毁 。 并 发 eaflush 线 程 数 目的 
上 下 限 分 别 定义 为 MIN_PDFLUSH_THREADS (2) 和 MAX_PDFLUSH_THREADS (8)， 内 核 总 是 遵守 这 两 个 
限制 。 

为 什么 需要 多 个 线程 ? 现代 系统 通常 具备 多 个 块 设备 。 如 果 系 统 中 存在 许多 脏 页 ,那么 内 核 需要 
使 这 些 设备 尽 可 能 忙于 回 写 数据 。 不 同 块 设备 的 队列 是 彼此 独立 的 ， 因 而 数据 可 以 并 行 写 入 。 数 据 传 
输 速 率 主 要 受 限于 IO 带宽 ， 而 不 是 当前 硬件 上 CPU 的 计算 能 力 。 图 17-2 概 述 了 pdaflush 线 程 和 回 写 队 
列 之 间 的 关联 。 图 17-2 说 明 ，pqdflush 线 程 的 数目 是 动态 变化 的 ， 这 些 线程 向 底层 块 设备 传输 那些 必 
须 进行 同步 的 数据 。 请 注意 ， 一 个 块 设 备 可 能 有 多 个 可 以 传输 数据 的 队列 ， 而 一 个 paflush 线 程 可 能 
服务 于 所 有 队列 ， 也 可 能 只 向 其 中 一 个 提供 数据 。 





四 
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角 保 数据 完整 
性 或 刷 出 回 写 








pq Eljush 线 各 队列 


图 17-2 ”pdflush 机 制 概 述 


























块 设备 


块 设备 











此 前 的 内 核 版 本 只 采用 了 一 个 刷 出 守护 进程 〈 那 时 称 为 baflush)， 但 这 导致 了 一 个 性 能 问题 : 


如 果 一 个 块 设备 队列 因为 过 多 的 街 决 回 写 操作 而 拥塞 , 那么 守护 进程 就 不 能 向 其 他 设备 的 队列 再 提供 
数据 。 这 些 队列 将 处 于 空 亲 状态， 空闲 对 蠕 假 来 说 是 好 东西 ， 但 对 有 工作 需要 完成 的 块 设备 来 说 ， 就 
不 那么 妙 了 。 可 以 通过 动态 创建 和 销毁 paflush 内 核 线程 来 解决 该 问题 ， 这 种 方法 可 同时 使 许多 队列 
















































































处 于 忙碌 状态 。 








17.3 ”启动 新 线程 
pdflush 机 制 由 两 个 主要 部 分 构成 ， 数 据 结 构 


数据 结构 定义 如 下 : 


mm/pdflush.c 












































struct pdflush work { 


}; 
照例 ， 该 数据 结构 定义 在 C 文 件 而 非 头 文件 中 ， 向 内 核 表 明 该 结构 只 供 内 部 代码 使 用 。 通 用 代码 
将 使 用 其 他 机 制 来 访问 内 核 的 同步 功能 ， 如 下 所 述 。 
口 who 是 一 个 指针 ， 指 向 内 核 线程 的 task_struct 实 例 ， 该 实例 用 于 在 进程 表 中 表示 特定 的 





口 when i went 


struct task_struct *who; /* 指 问 线 程 Lask_struct 实 例 */ 
voidq (*fn) (unsigned long);/* 回调 函数 */ 
unsigned long arg0; /* 传递 给 回调 函数 的 参数 */ 







































































蕴 述 线程 的 工作 ， 策 略 例 程 帮助 执行 工作 。 











struct list head list; /* 链表 元 素 ， 用 于 在 线程 空闲 时 ， 将 线程 置 于 pdaflush_1ist 链 表 上 */ 


unsigned long when i went_to_sleep: 





























pdflush 实 例 。 

































































口 几 个 paflush_work 的 实例 ， 可 以 使 用 1ist 链 表 元 素 ， 和 群集 到 一 个 标准 的 双 链 表 上 。 内 核 使 用 
全 局 变量 pdaflush_1ist (定义 在 mm/pdflush.c 中 ) 作为 该 链表 的 表 头 。 


























to_sleep 成 员 的 名 称 很 长 ， 该 成 员 存储 了 线程 上 一 次 进入 睡眠 的 时 间 。 该 值 可 














用 于 从 系统 删除 多 余 的 paflush 线 程 ( 即 在 内 存 中 已 经 有 一 段 比 较 长 的 时 间 处 于 空闲 状态 的 线 











程 )。 














口 fn 函数 指针 (连同 arg0) 是 该 结构 的 主干 。 它 指向 了 完成 实际 工作 的 函数 。 在 调用 该 函数 时 ， 














17.4 


pdaflush 用 作 内 核 线程 的 工作 过 程 。 在 创建 之 后 ，pdaflush 线 程 进 入 曙 
为 线程 指派 任务 ， 任 务 由 pdaflush_work 描 述 。 因 而 ，pdaflush 线 程 的 数目 











arg0 作 为 参数 传递 。 


























线程 初始 化 








通过 对 fn 使 用 不 同 的 函数 指针 ， 内 核能 够 将 各 种 同步 例 程 集成 到 paf1ush 框 架 中 ， 以 便 为 手头 的 
工作 选择 正确 的 例 程 。 





























EH 眼 ， 直 至 内 核 的 其 他 部 分 







































































须 与 要 执行 的 任务 的 数目 





17.4 000000 797 











匹配 。 创 建 的 线程 都 处 于 符 命 状态 ， 等 待 内核 分 配 任务 。 
图 17-3 中 的 代码 流程 图 给 出 了 paflush 的 工作 方式 。 

















下 sn 


添加 到 paflush_1ist 链 表 | 











设置 when_i_went_to_sleep | 











创建 /销毁 线程 
图 17-3 pdaflush 的 代码 流程 图 


创建 新 paflush 线 程 时 ， 其 起 始 例 程 为 paflush， 但 控制 流 随后 即 传递 到 _pdaflusha 。 
在 _pdflush 中 ，pdflush_work 实 例 的 工作 函数 设置 为 NOLL， 因 为 尚未 对 该 线程 指定 需要 完成 
的 有 具体 任务 。 全 局 计数 器 (nr_pdflush_threads) 也 必须 加 1， 因 为 一 个 新 pdaflush 线 程 已 经 增加 到 
系统 。 
该 线程 接 下 来 进入 无 限 循 环 ， 执 行 以 下 操作 。 
口 线程 的 pdflush_work 实 例 添加 到 全 局 链表 pdflush_1list (提示 : 内 核能 够 通过 who 成 员 来 确 



















































































































































































定 线程 )。 
口 when_i_went_to_sleep 设 置 为 当前 系统 时 间 ， 单 位 为 jiffies， 以 记录 线程 线程 开始 睡眠 的 
时 间 。 



































口 调用 schedule， 这 是 最 重要 的 操作 。 因 为 线程 的 状态 此 前 设置 为 TASK_INTERRUPTIBLE， 线 
程 现 在 将 进入 睡眠 ， 直 至 被 外 部 事件 唤醒 。 
如 果 内 核 需 要 一 个 工作 线程 ， 它 可 以 设置 全 局 链表 中 某 个 paflush_work 实 例 的 工作 函数 ， 并 
唤醒 对 应 的 线程 ， 该 线程 将 在 schedule 之 后 立即 恢复 工作 ， 但 现在 还 是 先 讨论 fn 工作 函数 。 
口 工作 函数 是 通过 保存 的 参数 调用 的 ， 这 样 它 可 以 着 手 进行 工作 。 
口 在 工作 函数 结束 时 ， 内 核 将 检查 工作 线程 是 否 太 多 或 太 少 。 如 果 已 经 有 1 秒 多 的 时 间 没 有 空闲 
工作 线程 ?>， 则 start_one_pdflush_thread 创 建 一 个 新 线程 。 如 果 睡 眠 时 间 最 长 的 线程 (在 
pdflush_list 链 表 末 尾 ) 已 经 睡眠 超过 1 秒 , 则 退出 无 限 循环 , 这 使 得 当前 线程 被 从 系统 删除 。 
在 这 种 情况 下 ， 除 了 锁 处 理 之 外 ， 唯 一 需要 的 清理 操作 就 是 对 nr_pdflush_threads 减 1， 因 
为 少 了 一 个 可 用 的 paflush 线 程 。 








































































































































































































































































































GD 在 pdaflush 中 ， 只 是 创建 一 个 paflush_work 的 实例 ， 将 一 个 指向 该 实例 的 指针 传递 给 __ paflush_work 作 为 参数 。 
这 是 防止 编译 器 对 该 变量 进行 优化 。 此 外 ， 进 程 的 优先 级 设置 为 0， 而 允许 执行 的 CPU 则 限制 为 授予 其 父 进程 
的 那些 。 

@ pdaflush_1list 链 表 上 一 次 变 为 空 的 时 间 ， 记 录 在 全 局 变量 last_empty_ jifs 中 。 
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17.5 ”执行 实际 工作 


pdflush_operation 为 pdflush 线 程 指 定 了 一 个 工作 函数 , 并 唤醒 该 线程 。 如 果 没有 可 用 的 线程 ， 
则 返回 -1。 和 否则 ， 从 链表 移 除 一 个 线程 并 唤醒 。 为 简化 曾 述 ， 我 们 已 经 省 略 了 代码 中 需要 进行 的 锁 
操作 : 

mm/pdflush.c 


int pdflush operation(void (*fn) (unsigned long), unsigned long arg0) 


{ 















































unsigned long flags; 
int ret= 0; 


if (list empty(&pdflush list)) { 
ret = -1; 

} else { 
struct pdflush work *pdf; 


pdf = list_ entry(pdflush list.next, struct pdflush work, list); 
list_ del init(&pdf->list); 
If (list empty(&pdflush list)) 
last_empty_jifs = jiffies; 
pdf->fn = fn; 
pdf->arg0 = arg0; 
wake_up_process (pdf->who); 
} 
return ret; 


} 

pdflush_operation 接 受 两 个 参数 ， 分 别 指定 了 工作 函数 及 其 参数 。 

如 果 pdflush_1ist 链 表 是 空 的 ， 没 有 可 唤醒 的 paftlush 守 护 进程 , 则 返回 一 个 错误 码 。 如 果 队 列 
中 有 一 个 睡眠 的 paflush 实 例 ， 则 从 链表 移 除 该 实例 ， 该 线程 对 内 核 的 其 他 部 分 都 不 再 可 用 。 工 作 函 
数 和 参数 的 值 都 是 通过 pqaflush_work 的 对 应 字段 指定 的 ， 然 后 立即 用 wake_up_process 唤 醒 线 程 。 
根据 paflush_work 中 的 who 成 员 ， 内 核 知 道 需要 唤醒 哪个 线程 。 

为 确保 总 有 足够 的 工作 线程 ， 内 核 在 从 paflush_1ist 链 表 移 除 当 前 实例 之 后 、 唤 醒 该 线程 之 前 ， 
检查 pdaflush_1ist 链 表 是 和 否 是 空 的。 如 果 是 空 的 ， 则 last_empty_Jjifs 将 设置 为 当前 系统 时 间 。 
线程 结束 时 ， 内 核 将 使 用 该 信息 来 检查 没有 空闲 线程 可 用 的 时 间 ， 如 果 超 过 1 秒 ， 将 如 上 文 所 述 那 村 
创建 一 个 新 线程 。 


17.6 ”周期 性 刷 出 


前 面 讲解 了 paflush 机 制 运作 的 框架 ， 这 里 描述 实际 的 同步 例 程 ， 这 些 例 程 负责 将 缓存 的 内 存 与 
相关 的 后 备 存储 器 同步 。 前 面 已 经 讲 过 ， 有 两 种 方案 可 用 ， 一 种 是 周期 性 的 ， 另 一 种 是 强制 的 。 下 面 
首先 讨论 周期 性 的 回 写 机 制 。 
在 较 早 的 内 核 版 本 中 ,使 用 一 个 用 户 态 应 用 程序 来 执行 周期 性 写 操作 。 该 应 用 程序 在 内 核 初 始 化 
时 启动 ， 每 隔 一 定时 间 调 用 一 个 系统 调用 来 回 写 脏 页 。 与 此 同时 ， 这 个 不 那么 优雅 的 过 程 被 一 个 更 为 
现代 的 方案 代替 ， 后 者 不 通过 用 户 态 迁 回 ， 因 而 不 仅 更 高 效 ， 而 且 更 为 优雅 。 
早期 同步 方法 的 名 称 是 kupdate。 该 名 称 会 作为 某 些 函 数 的 一 部 分 出 现 ， 通 常用 于 描述 刷 出 机 制 。 

周期 性 地 刷 出 脏 的 缓存 数据 需要 两 个 组 件 ， 借助 paflush 机 制 执 行 的 工作 函数 ， 以 及 定期 激活 该 
机 制 的 相关 代码 。 
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17.7 0000000 799 





17.7 相关 的 数据 结构 


mm/page-writeback.c 中 的 wb_kupdate 函 数 负责 刷 出 操作 的 技术 实现 。 它 基于 地 址 空间 概念 (在 
第 4 章 讨 论 )， 这 一 概念 建立 了 物理 内 存 与 文件 或 inode 和 底层 块 设备 之 间 的 关联 。 


17.7.1 页 状态 


wb_kupgdate 基 于 两 个 数据 结构 ， 二 者 控制 了 该 函数 的 运作 。 其 中 一 个 是 全 局 数组 vm_stat， 可 用 
于 查询 所 有 系统 内 存 页 的 状态 : 


mm/vmstat.c 
atomic_long_t vm_stat [NR_VM_ZONE_STAT_ITEMS] ; 


该 数组 保存 了 一 组 全 面 的 统计 信息 ， 用 于 描述 每 个 CPU 的 内 存 页 面 的 状态 。 因 而 ， 系 统 中 的 每 个 
CPU 都 对 应 该 结构 的 一 个 实例 。 各 个 实例 群集 在 一 个 数组 中 ， 以 简化 访问 。 


oo 


vm_stat 中 收集 了 下 列 统计 量 : 


<mmzone.h> 
enum zone_stat_item { 
/* 第 一 个 缓存 行 ， 前 128 字 节 【《 假 定 字 长 为 64 位 ) */ 
NR_FREE_PAGES, 
NR_INACTIVE, 
NR_ACTIVE, 
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NR_ ANON_PAGES, /* 映射 的 匿名 页 */ 
NR_FILE_ MAPPED, /* 页 缓存 中 的 页 ， 映 射 到 页 表 。 
只 从 进程 上 下 文 修改 */ 














NR_FILE_ PAGES, 














NR_FILE DIRTY., 
NR_WRITEBACK, 








/* 第 二 个 128 字 节 的 缓存 行 */ 
NR_SLAB_ RECLAIMABLE, 
NR_SLAB_ UNRECLAIMABLE, 


























NR_ PAGETABLE, /* 用 于 页 表 */ 
NR_UNSTABLE_NFS, /* NFS 非 稳定 页 */ 
NR_ BOUNCE 


NR_VMSCAN_WRITE, 
#ifdef CONFIG_ NUMA 
/* 忽略 : NUMA 相 关 的 统计 量 */ 





#endif 
NR_VM ZONE_STAT_ITEMS }; 


各 枚 举 项 的 语义 ， 很 容易 从 其 名 称 猜测 出 来 。NR_FILE_DIRTY 指 定 了 基于 文件 的 脏 页 的 数目 ， 
NR_WRITEBACK 表 示 当 前 正在 回 写 的 页 的 数目 。NR_PAGETABLE 存 储 了 用 于 存放 页 表 的 页 的 数目 ， 而 
NR_FILE_MAPPED 指 定 了 被 页 表 机 制 映 射 的 页 的 数目 (只 计算 基于 文件 的 页 ， 直 接 的 内 核 映 射 不 包含 
在 内 )。 最 后 ，NR_SLAB_RECLAIMABLE 利 NR_SLAB_UNRECLAIMABLE 表 示 用 于 第 3 章 描 述 的 slab 缓 存 的 页 
数目 〈 这 两 个 常数 也 用 于 slub 缓 存 )。 剩 余 的 项 各 有 其 用 途 ， 我 们 对 此 并 不 感 兴 趣 。 

请 注意 , 内 核 不 仅 维护 了 一 个 全 局 数组 来 收集 页 统计 信息 , 还 为 各 个 内 存 域 都 提供 了 同样 的 信 ， 


<mmzone.h> 
struct zone { 



























































































































































证 











的 信息 » 
它 可 以 提供 vm_stat 的 一 个 特定 字段 的 当前 值 : 





800 O170 0OUDO 
/* 内 存 域 统计 量 */ 
atomic_ long_t vm_stat[NR_ VM ZONE_STAT_ ITEMS]; 
} 




















<vmstat.h> 
unsigned long global page_state(enum zone_stat_item item) 




















维护 全 局 和 特定 于 内 存 域 的 数组 , 使 其 状态 能 够 反映 最 新 的 使 用 情况 , 是 内 存 管 理子 系统 的 工作 。 
我 们 目前 主要 关注 的 是 ， 这 些 信息 是 如 何 使 用 的 。 为 获得 整个 系统 状态 的 概述 ， 必 须 合 并 各 数组 项 中 
才能 获得 整个 系统 的 数据 , 而 不 是 特定 于 CPU 的 数据 。 内 核 提 供 了 辅助 函数 global_page_state， 
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17.7.2” 回 写 控制 


男 一 个 数据 结构 保存 了 用 于 控制 脏 页 回 写 的 各 种 参数 。 上 层 使 用 该 结构 ,将 如 何 进行 回 写 的 相关 
7-1 中 自 顶 向 下 )。 但 该 结构 也 可 以 用 来 反 向 传播 状态 信息 《〈 自 底 向 上 )。 


信 





息 传递 给 底层 图 1 











<writeback.h> 
/* 一 个 控制 结构 ， 告 知 回 写 代码 完成 何 种 工作 。*/ 

struct writeback control { 

struct backing_ dev_info *bdi; /* 如 果 不 是 NULL， 则 只 回 写 该 队列 */ 


}s 


Ei 


enum writeback_ sync modes sync_ mode; 




























































































unsigned long *older_than_this; /* 如 果 不 是 NULL, 则 只 回 写 变 脏 时 间 早 于 该 值 的 jnode */ 
long nr_to_ write; /* 回 写 该 属性 指定 数目 的 页 , 每 回 写 一 页 , 将 该 属性 值 减 1 */ 
long pages_skipped; /* 未 回 写 的 页 的 数目 */ 











loff_t range_ start; 
loff_t range_end; 



































unsigned nonblocking:1; /* 不 要 在 请 求 队列 上 阻塞 */ 
unsigned encountered_ congestion:1; /* 一 个 状态 输出 ， 表 示 队 列 满 */ 
unsigned for kupdate:1; /* kupdate 回 写 */ 

unsigned for_reclaim:1; /* 从 页 分 配器 调用 */ 

unsigned for_writepages:1; /* 这 是 一 个 writepages () 调 用 */ 
unsigned range_cyclic:1; /* range_start 是 循环 的 */ 











该 结构 在 第 16 
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草 何 





结构 成 员 的 语义 如 下 。 


口 pai 指向 一 个 类 型 为 packing_dev_info 的 结构 实例 ， 其 中 总 述 了 有 关 底 层 存 储 介质 的 信息 。 




















要 讨论 过 。 我 们 在 这 里 对 两 部 分 比较 感 兴趣 。 首 先 ， 该 结构 提供 了 一 个 变 














量 来 保存 回 写 队列 的 状态 〈 这 意味 着 ， 例 如 ， 如 果 写 请 求 太 多 ， 则 可 以 通知 调用 方 发 生 拥 塞 )， 
其 次 ， 它 允许 标记 出 基于 物理 内 存 的 文件 系统 ， 此 类 文件 系统 没有 【〔 块 设备 作为 ) 后 备 存储 
器 ， 回 写 操作 对 此 类 文件 系统 是 无 意义 的 。 

sync_mode 对 三 种 同步 模式 进行 区 分 : 











<writeback.h> 















































enum writeback_ sync modes { 


17.7 0000000 801 











WB_SYNC_NONE， /* 不 等 待 任何 东西 */ 
一 人 4 十 


WB_SYNC_ALL， ”/* 对 每 个 映射 都 进行 等 待 */ 
WB_SYNC_HOLD， /* 对 sys_sync()， 将 inode 置 于 sb_dirty */ 
































站 
为 同步 数据 ， 内 核 需要 向 底层 块 设 备 发 出 一 个 对 应 的 写 请求 。 本 质 上 ， 疝 块 设备 发 出 的 请 求 是 
异步 的 。 如 果 内 核 想 要 确保 数据 已 经 安全 地 到 达 了 设备 ， 它 需要 在 请 求 发 出 后 等 待 完成 。 对 
WwWB_SYNC_ALL 模 式 , 会 强制 要 求 进行 等 待 。 等待 回 写 完成 在 下 文 讨论 的 __sync_single_inode 
中 进行 。 如 图 17-1 所 示 ， 该 函数 位 于 整个 机 制 的 最 底层 ， 负 责 将 对 特定 inodqe 的 同步 委托 给 文 
伯 系 统 相 关 方法 。 所 有 因为 设置 了 wB_SYNC_ALL 而 在 inode 上 等 待 的 函数 ， 都 在 图 17-1 中 标记 
出 来 了 。 
请 注意 ， 设 置 了 wB_syNc_ALL 的 回 写 称 为 0]0DDDDD (dataintegrity writeback)。 在 此 模式 
下 ， 如 果 回 写 结束 后 立即 发 生 了 系统 骨 溃 ， 不 会 丢失 数据 ， 因 为 所 有 数据 都 已 经 与 底层 块 设 备 










































































































































































如 果 使 用 了 we_SsYNC_NONE， 内 核 将 发 送 请 求 ， 然 后 立即 继续 进行 剩余 的 同步 工作 。 该 模式 也 
称 为 DDDD (ftushing writeback)。 
WB_SYNC_HOLD 是 一 种 特殊 形式 ， 用 于 sync 系 统 调用 ， 其 工作 类 似 于 WB_SYNC_NONE。 二 者 之 间 
确切 的 差别 是 比较 微妙 的 ， 将 在 17.15 节 讨论 。 
口 在 内 核 进 行 回 写 时 ， 它 必须 确定 哪些 脏 的 缓存 数据 必须 与 后 备 存 储 器 同步 。 为 此 使 用 了 
older_than_this 和 nr_to_write 成 员 。 如 果 数 据 变 脏 的 时 间 已 经 超过 olger_than_this 指 
定 的 值 ， 那 么 将 回 写 。 
ee 本 nan 基 Eo 人 可可 
器 加 可 加 可 如 加 加 加 OO wg 
器 吕 可 加 如 ODOO0DIO0O0O00ODIOODOOOOVODIOODVUOUO 
nz Eo waleeg| og 人 ognggn 


口 nr_to_write 可 以 限制 应 该 回 写 的 页 的 最 大 数目 。 该 值 的 上 界 由 MAX_WRITEBACK_PAGES 给 出 ， 
通常 设置 为 1 024。 
口 如 果 选 中 一 些 页 进行 回 写 ， 那 么 由 底层 提供 的 函数 来 执行 所 需 的 操作 。 但 回 写 可 能 因 各 种 原 
因而 失败 ， 例 如 ， 页 可 能 被 内 核 的 其 他 部 分 锁定 。 在 回 写 过 程 中 ， 因 各 种 原因 跳 过 的 页 的 数 
目 ， 可 通过 计数 器 bages_skipped 报 告 给 高 层 。 
口 nonblocking 标 志 位 指定 了 回 写 队列 在 过 到 拥塞 时 是 否 阻塞 (拥塞 ,是 指 待 决 写 操作 的 数量 比 
实际 能 够 满足 的 写 操作 数目 要 多 )。 如 果 被 阻塞 ， 则 内 核 将 一 直 等 等 ， 直 到 队列 空闲 为止。 否 
则 ， 内 核 将 交 出 控制 权 。 写 操作 将 在 稍 后 恢复 。 
口 encountered_congestion 也 是 一 个 标志 位 , 通知 高 层 在 数据 回 写 期 间 发 生 了 拥塞 。 它 接受 的 
值 为 1 或 0。 
口 如 果 写 请 求 由 周期 性 机 制 发 出 ， 则 for_kupdated 设 置 为 1!。 否 则 ， 其 值 为 0。for_reclaim 和 
or_writepages 的 用 法 类 似 ， 如 果 回 写 操作 是 由 内 存 回收 或 ao_writepages 函 数 发 起 ， 则 分 
别 设 置 对 应 的 标志 位 。 
口 如 果 range_cyclic 设 置 为 0, 则 回 写 机 制 限于 对 range_start 和 range_end 指 定 的 范围 进行 操 
‘ 
娄 
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FE。 该 限制 是 对 回 写 操作 的 目标 映射 设置 的 。 
如 果 range_cyclic 设 置 为 !1， 则 内 核 可 能 多 次 遍历 与 映射 相关 的 页 ， 该 成 员 因 此 而 得 名 。 
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17.7.3 ”可 调 参 数 


内 核 支 持 通 过 参数 对 同步 操作 进行 微调 。 这 些 参数 可 以 由 管理 员 设 置 ， 以 帮助 内 核 评 估 系 统 的 使 用 性 
况 和 负荷 。 第 10 章 描述 的 sysct1 机 制 即 用 于 此 目的 ， 这 意味 着 proc 文 件 系统 成 为 了 操作 这 些 参 数 的 固有 
的 接口 ， 这 些 参 数位 于 /proc/sys/vm/。 有 如 下 4 个 参数 可 以 设置 ， 都 定义 在 mm/pagewriteback.c。" 

口 dirty_background_ratio 指 定 脏 页 的 百分比 ， 当 脏 页 比例 超出 该 闵 值 时 ，pqdflush 在 后 台 

始 周 期 性 的 刷 出 操作 。 默 认 值 为 10， 当 与 后 备 存储 器 相 比 ， 有 超过 10% 的 页 变 脏 时 ，pqdflush 
机 制 将 开始 运转 。 
口 vm_dirty_ratio〔 对 应 的 sysct1l 是 dirty_ratio) 指定 了 脏 页 (相对 于 非 高 端 内 存 域 ) 的 百 
分 比 ， 脏 页 比例 超出 该 阔 值 时 ， 将 开始 刷 出 。 默 认 值 是 40。 
为 何 将 高 端 内 存 排除 在 比例 计算 之 外 ? 实际 上 ， 在 2.6.20 之 前 的 内 核 版 本 是 不 区 分 高 端 和 普通 
内 存 的 。 但 如 果 高 端 内 存 和 低 端 内 存 的 比例 过 大 《〈 即 在 32 位 处 理 器 上 主 内 存 远 超 4GiB )， 在 回 
写 机 制 初始 化 时 ，qdirty_background_ratio 和 dirty_ratio 的 默认 值 需要 稍微 降低 一 些 。 

使 用 原 有 的 默认 值 将 导致 buffer_ head 实 例 的 数量 过 多 ， 这些 都 要 占用 宝贵 的 低 端 内 存 。 通 过 将 
高 端 内 存 排除 在 计算 之 外 ， 内 核 无 须 处 理 对 比例 的 回 缩 ， 一 定 程度 上 简化 了 工作 。 

口 dirty_ writeback_interval 定 义 了 周期 性 刷 出 例 程 两 次 调用 之 间 的 间隔 《对 应 的 sysct1 是 
dirty_writeback_centisecs )。 间 隔 的 单位 是 百 分 之 一 秒 ( 源 代码 中 也 称 作 厘 秒 ， 
centisecond )。 默 认 值 是 500， 相 当 于 两 次 调用 的 间隔 为 5 秒 。 

在 进行 大 量 写 操作 的 系统 上 ， 降 低 该 值 将 提高 性 能 ， 但 在 写 操 作 数 量 很 少 的 系统 上 ， 增 加 该 
值 只 能 带 来 很 少 的 性 能 增益 。 

口 一 页 可 以 保持 为 脏 状态 的 最 长 时 间 ， 由 dirty_expire_ interval 指 定 ( 对 应 的 sysct1l 是 
dirty_expire_centisecs)。 该 时 间 值 的 单位 仍然 是 百 分 之 一 秒 。 默 认 值 为 3000， 这 意味 着 
一 个 脏 页 在 写 回 之 前 ， 保 持 脏 状态 的 时 间 最 长 可 达 30 秒 。 


17.8 中央 控制 


周期 性 刷 出 操作 中 ， 关 键 性 的 一 个 组 件 是 定义 在 mm/page-writeback.c 中 的 wb_kupaate 过 程 。 
它 负 责 指派 底层 例 程 在 内 存 中 查找 脏 页 ， 并 将 其 与 底层 块 设备 同步 。 照 例 ， 我 们 的 描述 基于 如 图 17-4 
所 示 的 代码 流程 图 。 
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whb_kupdate 


global page state 
























writeback_ inodes 


用 塞 ? | congestion wait | 


重 置 回 写 定时 器 | 





























图 17-4”wb_kupdate 的 代码 流程 图 








GD 由 于 历史 原因 ，sysct1 的 名 称 与 变量 名 不 同 。 
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损失 。 这 也 是 首先 调 



































组 的 NR_FILE_DIRTY 元 素 中 。 


始 时 就 进行 同步 ， 
超级 块 数据 ， 将 导致 壳 及 文件 系统 各 处 的 一 致 4 
用 sync_supers 的 原因 
接 下 来 ， 从 页 缓存 将 “普通 ”的 脏 数据 写 回 








因为 这 对 











而 有 








生 错 误 ， 


















































果 证 文件 系统 的 完整 性 很 有 必要 。 不 正确 的 
在 大 多 数 情况 下 ， 都 可 能 时 
用 途 将 在 17.9 节 详细 描述 。 





致 部 分 数据 





。 内 核 调 用 global_page_state 函 数 ， 将 系统 中 所 有 
页 的 状态 信息 ， 都 获取 到 一 个 page_state 实 例 中 。 关 键 的 信息 项 是 脏 页 的 数目 ， 保 持 在 vm_stats 数 





该 函数 接 下 来 进入 一 个 循环 ， 重 复 执 行 其 中 的 代码 ， 直 至 系统 中 没有 脏 页 为 止 。 在 初始 化 一 个 
writeback_control 实 例 之 后 ， 函 数 开 始 发 起 对 MAX_WRITEBACK_PAGES 页 (通常 是 1 024) 的 非 阻 塞 




















加 | 与， 实际 的 回 写 










































































口 并 非 所 有 的 




















统 的 性 能 。 








口 实际 回 写 页 数 在 wb_kupdate 和 writeback_inodes 之 间 通 过 
之 后 ， 从 writeback_control 实 例 








writeback_inodes 调 


数 ， 因 为 这 些 页 不 再 是 














庄 的 。 





























位 ， 来 检测 拥 
17.10 节 详细 描述 了 内 核对 拥塞 的 定义 。 






































次 调用 该 函数 ， 以 保证 周期 性 的 后 台 刷 出 。 为 此 使 有 


庄 页 都 进行 回 写 ， 实 际 上 ， 
可 写 期 间 是 锁定 的 ， 脏 页 会 分 为 小 组 进行 处 理 





在 writeback_inodqes 结 束 时 ， 内 核 习 
如 果 发 生 队 列 拥塞 (内核 通 过 writeback_control 实 
塞 )， 将 调用 congestion_wait 了 水 数 。 函 数 将 一 直 等 到 























具体 实例 中 ， 该 

































































， 以 防 对 单个 inode 的 过 度 阻 


下 述 方式 进行 
的 nr_to_write 成 员 减 去 回 写 页 








writeback_inodes 完 成 ， 该 函数 将 通过 inode 取 得 的 数据 进行 回 写 。 
宛 长 ， 因 此 将 在 17.10 节 进行 非常 详细 的 单独 讨论 ， 但 这 里 将 列 出 几 个 要 点 ， 如 下 所 述 。 
可 写 的 页 数 限 于 MAX_WRITEBACK_PAGES。 





该 函数 相当 











因为 inode 在 




















E 复 该 循环 ， 直 至 系统 中 没有 脏 页 为 止 。 


E 时 器 通过 全 局 定时 器 wb_timer 
通常 ，wb_kupdate 函 数 两 次 调用 之 间 的 间 




















例 的 encountered_congestion 成 员 是 否 


用 塞 情况 减 经 ， 才 继续 进行 循环 。 


在 循环 结束 后 ，wb_kupdate 确 保 内 核 将 在 airty_writeback_interval 定 义 的 时 间 间 隔 之 后 再 
明了 第 15 章 中 讨论 过 的 低 分 辩 率 内 核定 时 器 ， 在 此 
(定义 在 mm/page_writeback.c) 实现 。 

隔 由 airty_ writeback_centisecs 指 定 。 但 如 果 





， 进 而 影响 到 系 


苇 输 : 每 次 





是 未 于 



























































wb_kupdqate 人 花费 的 时 间 比 airty_writeback_centisecs 指 定 的 时 间 更 长 ， 会 出 现 一 种 特殊 情况 。 在 


这 种 情况 下 ,将 推迟 
于 通 常情 况 ， 
下 一 个 调用 开始 的 时 





























间 间 隔 来 计算 的 。 








动 相关 的 定时 器 。wb_timer 变 量 的 初始 





的 ， 主 要 是 定时 器 到 期 时 调用 的 wb_timer_fn 回 调 函 数 。 逻 辑 上 ， 该 定时 器 的 到 
有 结束 时 都 会 重 置 ， 刚 才 已 经 描述 过 。 

















逝 而 不 断 改变 ， 在 每 个 wb_kupqate 调 





在 page_writeback_init 初 始 化 了 同步 


因为 这 里 的 间隔 不 是 按 两 个 连续 调用 的 





层 之 后 , 整个 机 制 就 
二 是 在 该 变量 声明 


























调 
该 操作 。 











情况 下 ， 该 函数 会 将 下 一 次 wb_timer_fn 调 用 
与 块 设备 同步 ， 即 使 在 pdaflush 子 系统 负荷 很 重 时 ， 也 是 如 此 。 








周期 性 调用 的 wb_timer_fn 函 数 ， 其 


只 有 一 种 情况 下 ，wb_timer_fn 函 数 








才 需 要 重 


下 一 个 wp_kupdate 调 用 的 时 间 ， 到 当前 wb_kupdate 调 
始 时 间 来 计算 的 ， 而 是 









































台 运 转 ， 内 核 在 该 函 


村 (mm/page-writeback.cd 
































































































































用 结束 之 后 1 秒 钟 。 
按照 第 一 个 调用 结束 到 


这 不 同 





数 中 第 一 次 启 
Ph) 静态 设置 


期 时 间 会 随 着 时 间 流 








结构 是 非常 简单 的 ， 它 只 包含 了 一 个 pdflush_operation 
用 ， 其 中 又 调用 了 wb_kupdate。 此 时 ， 重 新 初始 化 该 定时 器 是 不 必要 的 ， 因 为 wb_kupdate 会 进行 
定时 器 : 在 没有 pdflush 线 程 可 用 时 。 这 种 
: 述 1 秒 钟 。 这 确保 了 定 划 


调用 wibp_kupdate 将 缓存 数据 
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17.9 超级 块 同步 
超级 块 数据 通过 一 个 专用 函数 sync_supers 进 行 同步 ， 这 使 得 它 与 普通 的 同步 操作 
函数 及 其 他 与 超级 块 相关 的 函数 都 定义 在 fs/super.c。 其 代码 流程 图 如 图 17-5 所 示 。 


超级 块 是 脏 的 ? | 


L write_ super H+ write sb->s_op->write super | 


























[x 
SN 
SS 
类 
Ny 
































遍历 所 有 超级 块 


图 17-5 ”sync_supers 的 代码 流程 图 

可 想 第 8 章 的 内 容 ， 内 核 提 供 了 全 局 链表 super_blocks 来 保存 所 有 装载 文件 系统 的 super_block 
实例 。 如 图 17-$ 所 示 ，sync_supers 最 初 的 任务 就 是 过 历 所 有 超级 块 ， 并 根据 超级 块 结构 s_qirt 成 员 
来 检查 超级 块 是 否 是 脏 的 。 如 果 是 ， 则 通过 write_super 将 超级 块 数据 的 内 容 写 到 数据 媒体 。 
实际 的 写 入 操作 由 特定 于 超级 块 的 super_operations 结 构 所 包含 的 write_supez 方 法 完成 。 如 
果 该 函数 指针 未 设置 ， 则 该 文件 系统 不 需要 超级 块 同步 (例如 虚拟 的 和 基于 物理 内 存 的 文件 系统 )。 
例如 ，proc 文 件 系 统 就 使 用 了 一 个 NULL 指 针 。 当 然 ， 块 设备 上 的 普通 文件 系统 ， 如 Ext3 或 Reiserfs， 
都 提供 了 适当 的 方法 (例如 ext3_write_super) 来 与 块 层 通信 并 写 回 相 关 的 数据 。 
17.10 ”inode 同步 

writeback_inodes 通 过 遍历 系统 的 inode 对 安装 的 映射 进行 回 写 (为 简单 起 见 , 这 称 为 inode 回 写 ， 
但 事实 上 不 只 是 inode， 连 同 相关 的 脏 数 据 都 进行 了 回 写 )。 该 函数 肩负 着 主要 的 同步 工作 ， 因 为 大 多 
数 系统 数据 都 是 以 地 址 空间 映射 的 形式 提供 的 ， 均 利用 了 inode。 图 17-6 给 出 了 writeback_inoqes 的 
代码 流程 图 。 实 际 上 ， 该 函数 比 图 17-6 要 稍微 复杂 一 些 ， 因 为 还 需要 处 理 更 多 的 细节 和 和 边 角 情 况 。 我 
们 考虑 的 是 一 个 稍微 简化 的 版 本 ， 但 其 中 包含 了 inode 回 写 时 所 有 本 质 性 的 内 容 。 
sync_sb_inodes 
填写 IO 链表 
| 进行 检查 |] 
写 出 页 失败 ? 站 移动 到 s_airty 
达到 了 回 写 的 限制 ? 
达到 了 回 写 的 限制 ? 


图 17-6 ”writepback_inodes 的 代码 流程 图 
































































































































































































































































































































遍历 所 有 超级 块 











遍历 sb->s_io 
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该 函数 利用 了 第 8 章 讨论 的 数据 结构 ， 来 建立 超级 块 、inode 和 相关 数据 之 间 的 关联 。 
17.10.1 遍历 超级 块 
在 逐 inode 回 写 各 映射 时 ， 最 初 的 路 径 是 通过 系统 中 表示 已 装载 文件 系统 的 所 有 超级 块 实例 。 对 
每 个 超级 块 实例 都 会 调用 sync_sb_inoqes 以 回 写 超级 块 inode 数 据 ， 如 图 17-6 中 的 代码 流程 图 所 示 。 
在 以 下 两 种 情况 下 ， 对 超级 块 链表 的 过 历 会 结束 。 
() 已 经 顺序 扫描 了 所 有 超级 块 实例 。 内 核 已 经 到 达 链 表 末 尾 ， 因 而 已 经 完成 工作 。 

(2) writeback_control 实 例 中 指定 的 回 写 页 的 最 大 数目 已 经 达到 。 由 于 回 写 需要 获得 各 种 重要 
的 锁 ， 因 此 不 应 该 让 回 写 操作 干扰 系统 的 正常 运作 太 长 时 间 ， 以 便 内 核 的 其 他 部 分 能 够 恢复 对 相关 
inode 的 访问 。 

17.10.2 ”考察 超级 块 inode 
在 借助 于 超级 块 结构 确认 文件 系统 确实 包含 带 有 脏 数 据 的 inode 之 后 ， 内 核 将 工作 转交 给 
sync_sb_inodes， 该 函数 将 同步 脏 的 超级 块 inode。 代 码 流 程 图 在 图 17-6 给 出 。 
如 果 内 核 每 次 为 区 分 干净 和 脏 的 inode 时 ， 都 需要 遍历 文件 系统 inode 的 完整 列表 ， 那 就 需要 巨大 
的 工作 量 。 因 而 内 核 将 所 有 脏 inode 置 于 特定 于 超级 块 的 链表 super_pblock->s_dirty 上 ， 实 现 了 一 个 
代价 小 得 多 的 方案 。 请 注意 ， 该 链表 中 的 inode 是 按照 时 间 逆 序 排列 的 。inode 变 脏 的 时 间 越 靠 后 ， 它 
就 越 接近 链表 的 尾部 。 
为 对 这 些 inode 进 行 同 步 ， 还 需要 两 个 链表 头 。super_block 结 构 的 相关 部 分 如 下 : 


<fs.h> 
struct Super_block { 





































































































































































































struct list_head s_dirty; /* 脏 ijnode 的 链表 */ 
struct list_head s_io; /* 等 待 回 写 */ 
struct list_head s_more_io; /* 等 待 回 写 ， 另 一 个 链表 */ 


} 

该 超级 块 所 属 文 件 系统 中 所 有 脏 inode 都 保存 在 s_airty 链 表 中 ， 对 于 同步 机 制 来 说 ， 所 需 的 数据 
实际 上 都 是 现成 的 。VFS 层 的 相关 代码 会 自动 更 新 该 链表 。s_io 链 表 保 存 了 同步 代码 当前 考虑 回 写 的 
所 有 inode。 

s_more_io 包 含 那些 已 经 被 选中 进行 同步 的 inode， 也 置 于 s_io 链 表 中 , 但 不 能 一 次 处 理 完毕 。 看 
起 来 最 简单 的 解决 方案 是 由 内 核 将 这 些 inode 放 回 到 s_io 链 表 ， 但 这 可 能 导致 新 近 变 脏 的 inode 无 法 得 
到 同步 处 理 ， 或 导致 锁 方 面 的 问题 ， 因 此 又 引入 了 一 个 链表 。 所 有 将 inode 置 于 s_io 或 s_more_io 链 表 
上 的 函数 ， 都 在 图 17-1 中 已 经 标明 。 

sync_sb_inodes 的 第 一 个 任务 是 填充 s_io 链 表 。 必 须 区 分 如 下 两 种 情况 。 

(1) 如 果 同 步 请 求 不 是 源 于 周期 性 机 制 ， 那 么 将 脏 链 表 上 所 有 的 inode 都 放置 到 s_io 链 表 中 。 如 果 
s_more_io 链 表 上 有 inode， 则 将 其 置 于 s_io 链 表 的 末尾 。 内 核 提供 了 辅助 函数 queue_io 来 执行 这 两 
个 链表 操作 。 这 种 行为 确保 前 一 次 同步 剩余 的 inode 仍 然 能 够 得 到 处 理 ， 但 将 优先 考虑 新 近 变 脏 的 
inode。 这 样 ， 即 使 有 比较 大 的 脏 文件 存在 ， 也 不 会 导致 小 的 脏 文件 不 能 得 到 同步 处 理 。 

(2) 如 果 同 步 操作 由 周期 性 机 制 wb_kupdate 触 发 ， 仅 当 s_io 链 表 为 空 时 ， 才 补充 额外 的 脏 inode。 
和 否则， 内核 将 等 待 ， 直 至 s_io 中 所 有 inode 的 回 写 操作 都 完成 为 止 。 对 于 周期 性 机 制 来 说 ， 没 有 什么 
特别 的 压力 要 求 其 在 尽 可 能 短 的 时 间 内 回 写 尽 可 能 多 的 inode。 相 反 ， 更 重要 的 是 ， 稳 健 地 写 出 一 定数 
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目的 inode。 

如 果 回 写 控 制 参数 指定 了 older_than_this 条 件 ， 那 么 在 标记 为 脏 的 inode 中 ， 只 有 变 脏 超过 一 
定时 间 的 那些 才 纳 入 同步 处 理 。 如 果 该 成 员 中 保存 的 时 间 早 于 映射 的 dirtieg_when 成 员 中 的 时 间 值 ， 
那么 同步 的 必要 条 件 不 满足 ， 内 核 不 会 将 该 inode 从 脏 链表 移动 到 s_io 链 表 。 

在 选择 了 s_io 链 表 的 成 员 之 后 ， 内 核 开 始 遍历 各 链表 元 素 。 

在 实际 回 写 之 前 ， 会 进行 一 些 检 查 ， 以 确认 相关 的 inode 适 合 进行 同步 : 

口 纯粹 基于 内 存 的 文件 系统 如 RAM 磁 盘 ， 或 伪 文 件 系统 或 纯粹 的 虚拟 文件 系统 ， 都 不 需要 与 底 
层 块 设备 同步 。 这 通过 在 相关 文件 系统 的 映射 所 属 的 backing_dev_info 实 例 中 ， 设 置 
DI_CAP_NO_WRITEBACK 来 表示 。 如 果 遇 到 此 类 inode， 可 以 立即 放弃 处 理 。 
日 有 一 个 文件 系统 ， 其 元 数据 是 纯粹 基于 内 存 的 , 没有 物理 上 的 后 备 存储 器 ,但 该 文件 系统 的 
inode 不 能 跳 过 : 块 设备 伪 文 件 系 统 bdev。 回 想 第 10 章 的 内 容 ，bdev 用 于 处 理 对 裸 块 设备 或 其 
中 分 区 的 访问 。 对 每 个 分 区 都 提供 了 一 个 inode， 对 裸 设 备 的 访问 通过 该 inode 处 理 。 尽 管 inode 
的 元 数据 在 内 存 中 是 重要 的 , 但 持久 存储 是 没有 意义 的 ,因为 它们 只 是 用 于 实现 一 个 统一 的 抽 

象 机 制 。 但 这 并 不 意味 着 块 设备 的 内 容 不 需要 同步 。 事 实 上 完全 相反 。 对 裸 设备 的 访问 照例 由 
页 缓存 进行 缓冲 ， 任 何 修改 都 会 反映 到 基数 树 数 据 结构 中 。 在 修改 块 设备 的 内 容 时 ， 数 据 会 通 
过 页 缓存 。 因 而 ， 相 关 的 页 必须 像 页 组 在 中 其 他 页 一 样 ， 定 期 与 底层 便 件 同步 。 
块 设备 伪 文 件 系统 bdaev 因 而 并 不 设置 BDI_CAP_NO_WRITEBACK。 但 相关 的 super_operations 
中 并 不 包含 write_inode 方 法 ， 因 此 不 进行 元 数据 同步 。 另 一 方面 ， 其 数据 同步 的 运行 类 似 于 
任何 其 他 文件 系统 。 
口 如 果 同 步 队 列 发 生 拥 塞 (packing_dev_info 实 例 的 status 字 上 段 的 BDI_write_congested 
标志 位 置 位 而 且 writeback_control 中 选中 了 非 阻 寨 回 写 ， 那么 需要 问 更 高 层 报告 拥 
塞 。 这 是 通过 将 writeback_control 实 例 中 sncountered_congestion 字 段 设 置 为 1 来 完 
成 的 。 
如 果 当 前 inode 属 于 一 个 块 设备 ， 那 么 将 使 用 辅助 函数 *equeue_io 将 该 inode 从 s_io 移 动 到 
s_more_io。 同 一 块 设备 的 不 同 inode 可 能 由 不 同 的 队列 处 理 , 例如 , 在 将 多 个 物理 设备 合并 为 
一 个 逻辑 设备 时 。 内 核 因 而 会 继续 处 理 s_io 链 表 中 其 他 的 inode， 以 期 它们 属于 其 他 未 发 生 拥 
塞 的 队列 。 
但 如 果 当 前 inode 源 自 一 个 普通 文件 系统 ， 那 么 可 以 假定 其 他 inode 也 是 由 同一 队列 处 理 。 由 于 
该 队列 已 经 拥 蹇 ， 继 续 同 步 其 他 的 inode 是 没有 意义 的 ， 因 此 将 放弃 循环 。 未 处 理 的 inode 将 保 
持 在 s_io 链 表 中 ， 在 下 一 次 调用 sync_sb_inodes 时 处 理 。 
口 可 以 通过 writeback_control 指 示 pdaflush 专 注 于 某 一 队列 。 如 果 遇 到 了 一 个 使 用 不 同 队 列 的 
普通 文件 系统 inode， 则 可 以 放弃 处 理 。 如 果 该 inode 表 示 一 个 块 设备 ， 则 跳 过 该 inode， 去 处 理 
s_io 链 表 中 的 下 一 个 inode， 原 因 与 写 操作 中 映射 的 情形 相同 。 
口 在 sync_sb_inodes 开 始 时 , 将 以 jiffies 为 单位 的 当前 系统 时 间 保 存在 一 个 局 部 变量 中 。 内 核 现 
在 将 要 检查 当前 处 理 的 inode 被 标记 为 脏 的 时 间 , 是 否 在 sync_sb_inodes 函 数 开始 执行 时 间 之 
后 。 如 果 是 ， 则 完全 放弃 同步 操作 。 未 处 理 的 inode 仍 然 保 留 在 s_io 中 。 
口 还 有 一 种 情况 会 导致 sync_sb_inodes 绪 束 。 如 果 一 个 paflush 线 程 已 经 处 于 回 写 当前 被 处 理 
队列 的 过 程 中 (由 backing_dev_info 的 status 成 员 的 BDI_pdflush 标 志 位 表示 )， 则 当前 线 
程 会 让 正 进 行 处 理 的 paflush 线 程 自行 其 是 。 
在 内 核 确认 上 述 条 件 都 满足 之 前 ， 是 不 会 发 起 inode 回 写 的 。 如 图 17-6 中 的 代码 流程 图 所 示 , inode 
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是 使 用 _writeback_single_inode 回 写 的 ， 下 文 将 详细 介绍 该 函数 。 可 能 发 生 这 样 的 情况 是 在 应 
该 回 写 的 所 有 页 中 ， 可 能 某 些 页 的 回 写 操 作 没有 成 功 ， 例 如 ， 页 可 能 被 内 核 的 其 他 部 分 锁定 ， 或 者 ， 
网 络 文件 系统 的 连接 可 能 是 不 可 用 的 。 在 这 种 情况 下 ， 该 inode 将 再 次 移 回 s_qirty 链 表 ， 如 果 inode 
在 回 写 时 被 再 次 弄 脏 ， 那 么 将 需要 更 新 dirtieqd_when 字 段 。 在 接 下 来 某 一 次 运行 同步 时 ， 内 核 将 自 
动 重 试 同步 该 inode 的 数据 。 此 外 ， 内 核 还 需要 确保 s_qirty 上 的 所 有 inode 维 持 了 时 间 首 序 。 辅 助 函数 
redirty_tail 可 对 此 进行 维护 。 

上 述 处 理 进程 一 直 重 复 下 去 ， 直 人 至 下 列 两 个 条 件 之 一 得 到 满足 。 

(1) 该 超级 块 的 所 有 脏 inode 都 已 经 回 写 。 

(2) 达到 了 页 同步 的 最 大 数目 《在 nr_to_write 指 定 )。 为 文 持 上 文 描述 的 逐 单 元 同步 机 制 ， 这 是 
必须 的 。s_io 中 剩余 的 inode 将 在 下 一 次 调用 sync_sb_inodqes 时 处 理 。 


17.10.3 ” 回 写 单个 inode 

如 上 所 述 ， 内 核 将 同步 与 一 个 inode 相 关联 数据 的 任务 委托 给 _writeback_single_inode。 对 应 
的 代码 流程 图 在 图 17-7 给 出 。 
要 进行 数据 完整 性 回 写 (设置 了 wc_srec_ ALz) ?|=[ 在 inode 上 等 竺 


否 




























































































































































































































































































将 inode 移 动 到 s_more_io 链 表 


do_writepages 








__ sync_ single_inode 








图 17-7 _ writeback_single_inode 的 代码 流程 图 


该 函数 本 质 上 就 是 ”sync_single_inode 的 分 配器 , 但 负 有 重任 , 需要 区 分 是 要 进行 数据 完整 性 
写 ， 还 是 普通 回 写 。 这 会 影响 对 被 锁定 inode 的 处 理 方式 。 
inode 数 据 结 构 中 ， 如 果 i_state 成 员 的 I_LoCK 标 志 位 置 位 ， 即 表示 该 inode 正 在 由 内 核 的 另 一 
部 分 进行 同步 ， 因 而 目前 不 能 在 当前 代码 路 径 中 进行 修改 。 如 果 当 前 是 在 进行 普通 回 写 ， 这 不 算 什 
么 问题 : 内 核 只 是 跳 过 该 inode, 并 将 其 放置 到 s_more_io 链 表 上 , 这 保证 了 稍 后 会 重新 考虑 该 inode。 
在 返回 到 调用 者 之 前 ，do_writepages 用 于 将 与 该 inode 有 关 的 一 些 数据 写 出 ， 因 为 这 样 没有 什么 
害处 。? 
但 如 果 进 行 的 是 数据 完整 性 回 写 ， 情 况 就 更 加 复杂 。 在 这 种 情况 下 ， 内 核 不 会 跳 过 该 inode， 而 
是 建立 一 个 等 待 队列 〈 人 参见 第 14 章 )， 一 直 等 到 该 inode 再 次 可 用 为 止 ， 即 等 到 I_SsYNc 标 志 位 被 清除 。 
注意 ， 就 我 们 所 知 的 信息 而 言 ， 不 足以 了 解 内 核 的 另 一 部 分 是 否 同步 了 该 inode。 这 可 能 是 一 次 普通 的 
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@ 实际 上 上， 该 调用 也 没有 任何 好 处 ， 将 在 内 核 版 本 2.6.25 中 删除 ， 该 版 本 在 本 书 撰写 时 仍 处 于 开发 中 。 由 于 
sync_single_inodes 中 也 调用 了 do_writepages， 因 而 前 述 调 用 是 多 余 的 。 
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可 写 ， 并 不 能 保证 脏 数据 已 经 实际 写 入 到 磁盘 。 反 过 来 ，wB_SsYNC_ALIL 的 语义 就 是 另外 一 回 事 : 在 当 
前 一 轮 的 同步 操作 完成 时 ， 内 核 必 须 确 保 所 有 的 数据 都 已 经 同步 ， 因 而 在 inode 上 等 待 是 必须 的 。 

在 inode 变 得 可 用 后 ， 工 作 转 移 到 ”sync_single_inode。 该 函数 将 与 inode 相 关 的 数据 和 inode 的 
元 数据 写 回 到 块 设备 ， 此 函数 涉及 颇 广 。 图 17-8 给 出 了 其 代码 流程 图 。 



















































































__ sync_ single_inode 


锁定 inode 


do_writepages 
a_ops->do_writepages 或 generic write pages 
write_inode 六 一: s_op->write_ inode | 


设置 了 wB_SYNC_ALL? 广 一 > filemap_fdatawait | 


解锁 inode 














将 inode 放 置 到 apt 链 表 上 | 


inode_sync_complete md wake_up_inode | 


图 17-8 sync_single_inode 的 代码 流程 图 


























(1) 首先 ， 必 须 通 过 设置 inode 结 构 状 态 字 段 〈 即 1_state) 的 I_LOCK 标 志 位 ， 来 锁定 inode。 这 防 
止 了 其 他 内 核 线程 在 此 期 间 对 该 inode 进 行 处 理 。 

(2) 对 一 个 inode 的 同步 由 两 部 分 组 成 : 数据 同步 和 元 数据 同步 。 

对 数据 的 实际 写 操 作 ee id 该 函数 调用 了 对 应 的 address_space_operations 
结构 的 writepages 方 法 〈 如 果 该 方法 存在 ， 不 是 NULL 指 针 )， 例 如 ， 对 Ext3 文 件 系统 就 调用 了 
ext3_writepages 方 法 。 

如 果 该 方法 不 存在 ， 则 内 核 调 用 generic_writepages 函 数 ， 该 函数 将 找到 映射 的 所 有 脏 页 ， 并 
使 用 地 址 空间 操作 的 writepage 方 法 〈 请 注意 ， 与 writepages 不 同 ， 该 方法 名 称 的 末尾 没有 s) 依次 
将 各 个 脏 页 写 回 ， 如 果 writepage 方 法 也 不 存在 ， 则 调用 mpage_writepage。 

(3) write_inode 将 管理 inode 本 吴 所 需 的 元 数据 写 回 。 该 函数 并 不 复杂 ; 它 只 检查 与 该 inode 实 例 
相关 的 超级 块 操作 中 是 否 包含 write_inode 方 法 〈 如 块 设备 文件 系统 没有 提供 )。 如 果 存 在 ， 则 调用 
该 方法 ， 找 到 相关 的 数据 并 通过 块 层 写 回 。 
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请 注意 ， 如 果 I_DIRTY_SYNC 和 I_DIRTY_DATASYNC 都 没有 置 位 ， 则 跳 过 对 write_inode 的 调用 ， 
大 为 这 表示 只 需要 回 写 数据 ， 不 需要 回 写 元 数据 。 
(4) 如 果 当 前 同步 的 目的 在 于 保证 数据 完整 性 ， 即 设置 了 we_SsYNC_ALL， 那 么 将 使 用 filemap_ 
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fqatawait 来 等 待 所 有 待 决 写 操作 (通常 是 异步 处 理 的 ) 完成 。 该 函数 以 页 为 单位 等 待 写 操作 完成 。 
当前 即将 回 写 到 后 备 存储 器 的 页 会 设置 PG_writeback 状 态 位 ， 在 负责 回 写 的 块 层 代码 完成 写 操作 之 
后 ， 会 自动 清除 该 状态 位 。 因 而 ， 同 步 代 码 只 需 等 待 该 状态 位 清除 即 可 。 
上 述 步骤 完成 了 inode 同 步 ， 至 少 从 文件 系统 的 角度 来 说 是 这 样 〈 很 自然 ， 在 没有 调用 
filemap_fdatawait 等 候 结 果 之 前 ， 块 层 还 有 一 些 工 作 需 要 完成 )， 但 内 核 的 层次 结构 意味 着 剩余 的 
工作 与 我 们 关系 不 大 了 。inode 现 在 需要 被 放 回 到 正确 的 链表 中 ， 如 果 inode 状 态 因 为 同步 而 发 生 改 变 ， 
内 核 必须 更 新 inode 状 态 。inode 可 能 插入 到 4 个 链表 中 。 
(1) 如 果 inode 数 据 在 此 期 间 再 次 变 脏 ( 即 如 果 i_state 成 员 的 I_DIRTY 标 志 位 置 位 )，inode 将 添加 
到 超级 块 的 s_qirty 链 表 。 
如 果 有 映射 的 脏 数据 未 能 完全 写 回 ， 也 会 将 inode 置 于 该 链表 中 ， 这 是 因为 ， 举 例 来 说 ， 回 写 控制 
结构 中 指定 的 页 数 太 小 , 无 法 次 处 理 所 有 的 脏 页 。 在 这 种 情况 下 , inode 状 态 设置 为 L_DIRry_pRGas， 
这 样 在 下 一 次 调用 _sync_single_inode 时 会 跳 过 对 元 数据 的 同步 ， 元 数据 这 一 次 刚刚 回 写 完毕 ， 
原封 未 动 。 
(2) 如 果 映 射 的 数据 未 能 全 部 回 写 , 而 pdflush 是 从 wb_kupdate 调 用 的 , 则 将 inode 置 于 s_more_io 
链表 ， 在 后 续 的 同步 操作 中 处 理 。 
如 果 数 据 未 能 全 部 回 写 ， 而 paflush 不 是 从 wb_kupaate 调 用 的 ， 那 么 inode 将 放 回 s_qirty 链 表 。 
这 避免 了 一 个 大 的 脏 文件 在 不 能 完全 回 写 的 情况 下 ， 致 使 其 他 竺 处 理 文 件 长 时 间或 无 限期 挂 起 。 
redirty_tail 负 责 维 护 s_qirty 链 表 上 的 inode， 使 之 保持 时 间 逆 序 。 
(3) 如 果 inode 访 问 计 数 器 〈i_count) 的 值 大 于 1， 内 核 将 其 插入 到 全 局 的 inode_in_use 链 表 ， 
为 该 inode 仍 然 处 于 使 用 状态 。 
(4) 如 果 访 问 计 数 器 降低 到 0， 则 将 该 node 置 于 保存 未 使 用 inode 实 例 的 全 局 链表 中 (inode_ 
unused)。 
在 上 述 所 有 情形 中 ， 都 将 inode 的 i_1ist 成 员 用 作 链 表 元 素 。 
最 后 一 步 是 通过 分 配器 inode_sync_complete 调 用 wake_up_inode。 该 函数 将 唤醒 在 inode 的 等 
待 队 列 上 等 待 回 写 完成 的 进程。 因为 当前 线程 不 再 该 inode〈 因 而 inode 不 再 被 锁定 )， 调 度 器 将 选 
择 其 中 一 个 进程 运行 ,来 处 理 该 inode。 如 果 数 据 已 经 完全 同步 ， 该 进程 没什么 可 做 的 。 如 果 还 有 脏 页 
需要 同步 ， 该 进程 将 继续 同步 操作 。 


17.11 拥塞 


我 已 经 几 次 使 用 了 术语 0 D (congestion)， 但 没有 确切 定义 其 语义 。 在 直觉 上 该 术语 不 难 理 解 ， 
在 某 个 内 核 块 设备 队列 负荷 了 过 多 的 读 / 写 操作 时 ， 向 队列 增加 更 多 与 蕉 设备 通信 的 请 求 是 没有 意义 
的 。 在 提交 新 的 读 / 写 请 求 之 前 ， 最 好 等 待 一 段 时 间 ， 使 得 一 定数 目的 请 求 被 处 理 完成 ， 而 队列 能 变 得 
短 一 些 s 

接 下 来 ， 将 讲述 内 核 在 技术 层次 上 对 该 定义 的 实现 。 
17.11.1 数据 结构 

实现 0 0 方法 需要 两 个 等 待 队列 。 其 定义 如 下 : 

mm/backing-dev.c 

static wait_ queue head t congestion waqh[2] = 


{ 
WAIT QUEUE HEAD_ INITIALIZER (congestion waqh[0]), 
WAIT_ QUEUE HEAD_ INITIALIZER (congestion waqh[1]) 
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内 核 提 供 了 两 个 队列 , 一 个 用 于 输入 , 男 一 个 用 于 输出 ,<fs .n> 中 定义 了 两 个 预 处 理 器 常数 (READ 
和 wRITE) 来 访问 数组 元 素 ， 在 不 直接 使 用 数组 索引 的 情况 下 ， 明 确 区 分 这 两 个 队列 。 
吕 辐 加 0 
器 加 二 吓 000000o0o00on 
器 辐 辐 轩 加 硬 轩 硬 吕 肝癌 有 辐 
请 注意 ， 上 述 两 个 队列 不 能 直接 用 标准 的 等 待 队 列 方法 来 操作 。 相 反 ， 内 核 为 此 提供 了 若干 辅助 
函数 ， 声 明 在 <backing-aqev.h> 中 ， 下 文 的 讨论 将 涵盖 这 些 函 数 。 
17.11.2” 阅 值 
内 核 在 何 时 认为 一 个 请 求 队列 是 拥塞 的 ， 何 时 可 以 “解除 警报 ”? 答案 简单 得 令 人 惊讶 ， 只 需要 
进行 一 个 简单 的 检查 ， 即 可 对 特定 的 请 求 队列 判断 请 求 的 数目 是 否 超出 了 最 小 值 和 最 大 值 〈 或 冰 值 )。 
内 核对 此 并 不 使 用 固定 的 常数 。 相 反 ， 它 根据 系统 主 存储 器 来 定义 这 些 限 制 值 ， 因 为 阻塞 请 求 的 
数目 是 随 着 主 存储 器 大 小 而 变化 的 。 
可 想 第 6 章 的 内 容 ， 每 个 块 设备 都 有 一 个 请 求 队列 ， struct request_queue 定 义 。 我 们 感 兴 





























趣 的 一 些 字段 ， 如 下 所 示 : 
<blkdev.h> 
struct request_queue 


{ 




























































































































































































unsigned long nr_requests; /* 请 求 的 最 大 数目 */ 
unsigned int nr_congestion on: 
unsigned int nr_ congestion off; 
unsigned int nr batching; 
} 
nr_requests 成 员 用 于 定义 每 个 队列 中 request 结 构 的 最 大 数目 。 通 常 ， 该 数目 设置 为 BLKDEV_ 
MAX_RQ， 其 值 为 128， 但 可 以 使 用 /sys/block/<device>/queue/nr_requests 修 改 。 请 求 数 目的 下 
界 由 BLKDEV_MIN_RO 给 出 ， 其 值 为 4。 
口 nr_congestion_on 表 示 队 列 请 求 数 目 达 到 拥塞 的 闪 值 。 发 生 拥 塞 时 ， 空 亲 *equest 结 构 的 数 
目 必 定 小 于 该 值 。 
口 nr_congestion_off (请 注意 “off”) 也 指定 了 一 个 阔 值 ， 该 阅 值 表示 队列 不 再 被 认为 拥塞 。 





































































































































































































后 续 内 核 版 本 对 






































的 一 个 术语 )， 





当 衬 闲 *equest 结 构 的 数目 多 于 该 值 时 ， 内 核 认 为 该 队列 不 是 拥塞 的 。 

dueue_congestion_on_threshold 和 aqueue_congestion_off_thresholdq 了 国 数 用 于 读 取 当前 的 
阔 值 。 尽 管 这 两 个 函数 都 很 简单 ， 但 仍然 必须 使 用 ， 而 不 能 直接 读 取 相应 的 值 。 如 果 
闵 值 的 实现 进行 修改 ， 用 户 仍然 能 够 使 用 同样 的 接口 ， 而 无 须 修改 。 

拥塞 闷 值 由 blk_congestion_threshold 计 算 : 

block/ll_rw_blk.c 

static void blk queue congestion threshold(struct request queue *q) 

图 17-9 显 示 了 对 给 定 长 度 的 请 求 队列 计算 的 拥塞 浆 值 。congestion_on 和 congestion_off 的 1 
稍 有 不 同 。 这 种 微小 的 差别 (内 核 源 代码 中 称 之 为 hysteresis， 即 滞后 ， 从 物理 学 借 
在 空 闪 请 求 的 数目 接近 拥塞 闵 值 时 ， 可 防止 队列 不 断 在 两 个 状态 之 间 切 换 。 
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congestion_on 
congestion_off ------- 
nr_requests .……-…: 


200 上 


150 上 


100 上 








50 Pa | | | 1 | | | 1 1 
60 80 100 120 140 160 180 200 220 240 260 
nr_requests 
图 17-9 拥塞 现象 出 现 和 消失 时 ， 空 闲 请 求 数目 的 阔 值 。 阔 值 显 然 总 是 小 于 队列 中 最 大 

可 容纳 的 请 求 数 


17.11.3 ”拥塞 状态 的 设置 和 清除 


内 核 提 供 了 两 个 标准 函数 (声明 在 <blkgev.h> 中 ) 来 设置 和 清除 的 队列 的 拥塞 状态 ， 分 别 是 
blk_set_queue congested 和 lblk_clear_queue_congested。 两 个 函数 都 会 获得 所 述 请 求 队列 的 
backing_dev_info， 然 后 分 别 将 工作 移交 给 set_bqdi_congested 或 clear_bdi_congested， 后 两 个 
函数 都 定义 在 mm/backing-dev. cq 中。 

为 修改 该 状态 需要 操作 两 个 数据 结构 。 首 先 ， 必 须 修改 块 设备 的 请 求 队列 (从 第 6 章 ， 读 者 已 经 
熟悉 了 相关 的 request_queue 数 据 结 构 )， 其 次 ， 必 须 注意 维 护 全 局 拥塞 数 组 (congestion_wqh)。 

blk_set_queue_congested 用 于 将 一 个 请 求 队列 标记 为 拥塞 。 值得 注意 的 是 ， 它 只 在 内 核 中 的 
一 处 调用 ， 即 get_request。" 第 6 章 讨论 过 ，get_request 的 作用 是 为 一 个 队列 分 配 一 个 request 实 
例 ， 或 从 适当 的 缓存 取出 一 个 reauest 实 例 。 这 是 检查 拥塞 的 理想 位 置 。 如 果 空 亲 *equest 实 例 的 数 
目 低 于 阔 值 ，set_queue_congesteqd 通 知 其 余 代码 已 经 发 生 了 拥塞 。 

set_bqi_congesteq 的 实现 非常 简单 。 只 需要 设置 请 求 队列 中 的 一 个 比特 位 ， 当 然 ， 拥 赛 的 方向 
不 同 ， 设 置 的 比特 位 也 是 不 同 的 。 

block/backing-dev.c 

void set_ bdi congested(struct backing dev_info *bdi, int rw) 


{ 
























































































































































































































































































































































Q@ 这 是 不 完全 准确 的 ， 也 可 以 从 aueue_request_store 中 调用 blk_set_queue_congested。 但 该 代码 路 径 只 在 系统 
管理 员 通 过 sysfs 改 变 请 求 队列 的 nr_requests 字 段 时 才 会 被 激活 ， 这 里 不 会 进一步 讨论 这 种 可 能 性 。 
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enum bdi_state bit; 


bit = (rw == WRITE) ? BDI_write congested : BDI_read congested; 
set_bit(bit, &bdi->state); 
} 


但 内 核 也 负责 将 在 拥塞 队列 上 等 待 的 进程 添加 到 congestion_wqh 等 待 队 列 。 稍 后 会 描述 这 是 如 
何 完成 的 。 

用 于 清除 队列 拥塞 状态 的 函数 是 clear_queue_congested， 也 比较 简单 。 同 样 ， 它 也 只 在 内 核 
中 一 处 使用， 由 _freeqd_request 调 用 ， 该 函数 位 于 发 源 于 blk_put_request 的 代码 路 径 中 ， 该 代码 
路 径 负 责 将 不 再 需要 的 request 实 例 返 还 给 内 核 缓存 。 此 时 ， 很 容易 检查 空 闪 request 实 例 的 数目 是 
否 已 经 超出 了 可 以 清除 拥塞 状态 的 阔 值 。 

在 指定 方向 的 拥塞 标志 位 已 经 清除 之 后 ， 在 congestion_wqh 队 列 上 等 竺 进行 IO 操 作 的 进程 将 
第 14 章 描述 的 wake_up 函 数 唤 醒 。 回 想 前 文 ，clear_queue_congestedq 只 是 clear_bqi_congested 
的 一 个 前 端 ; 

block/ll_rw_blk.c 


void clear bdi congested(struct backing dev_info *bdi, int rw) 


{ 






























































































































































enum bdi_state bit; 
wait_ queue head t *wqh = &congestion waqhl[rw]; 


bit = (rw == WRITE) ? BDI_write congested : BDI_read congested; 
clear_bit(bit, &bdi->state); 


if (waitqueue active (waqh)) 
wake_up (waqh); 
} 


17.11.4 在 拥塞 队列 上 等 待 


当然 ， 将 请 求 队列 标记 为 拥塞 并 在 情况 好 转 时 清除 拥塞 状态 ， 是 没什么 用 处 的 ， 内 核 必 须 提 供 在 
塞 的 请 求 队列 上 等 待 直至 队列 再 次 空闲 的 机 制 。 读 者 已 经 看 到 ， 内 核 为 此 采用 了 一 个 等 竺 队列 ， 因 
比 还 需要 讨论 如 何 将 进程 添加 到 该 等 待 队列 。 

内 核 为 此 使 用 了 congestion wait 函数 。 它 在 拥塞 发 生 时 将 一 个 进程 添加 到 congestion_waqh 等 
待 队列 。 该 函数 需要 两 个 参数 ， 数 据 流 的 方向 〈 读 或 写 操作 ) 以 及 一 个 超时 时 间 ， 在 经 过 超时 时 间 指 
定 的 时 间 间 隔 之 后 ， 总 是 会 唤醒 进程 ， 即 使 队列 仍然 是 拥塞 的 。 这 个 超时 设置 用 于 防止 出 现 长 时 间 的 
停 清 ， 上 毕竟， 队列 可 能 拥塞 比较 长 的 时 间 。 


mm/backing-dev.c 
long congestion wait(int rw, long timeout) 


{ 























tr 
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long ret; 
DEFINE_WAIT (wait); 
wait_ queue head t *wqh = &congestion wqhlrw]; 


prepare_to wait (waqh, &wait, TASK_ _ UNINTERRUPTIBLE); 
ret = io_schedule_ timeout (timeout); 

finish wait (waqh, &wait); 

return ret; 








QD 这 里 也 忽略 了 系统 管理 员 可 能 修改 队列 的 nr_requests 设 置 的 可 能 性 。 
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在 必要 的 数据 结构 初始 化 后 ，congestion : wie 用 一 些 函 数 : 

口 prepare_to_wait 与 超时 设置 联 用 ， 等 待 请 求 队列 拥塞 状态 的 消除 。 它 将 进程 置 于 
TASK_UNINTERRUPTIBLE 状 态 ， 并 将 其 放置 到 适当 的 等 待 队 列 上 。 

口 io_schedule_timeout 使 用 第 15 章 描述 的 资源 ， 实 现 所 要 的 超时 时 间 设 置 。 控 制 权 将 转移 到 

其 他 进程 ， 直 至 超时 设置 到 期 。 

在 超时 到 期 时 〈 对 于 后 台 同 步 ， 超 时 设置 为 1] 秒 钟 )， 将 调用 finish_wait 将 进程 从 等 待 队列 移 

除 ， 以 继续 工作 。 


17.12 ”强制 回 写 


在 系统 负荷 不 高 时 ， 上 述 以 后 台 活 动 来 回 写 内 存 页 的 机 制 工作 得 很 好 。 内 核能 够 确保 脏 页 的 数 
一 定 不 会 失去 控制 ， 并 且 在 物理 内 存 和 底层 块 设备 之 间 ， 数 据 可 以 充分 交换 。 但 是 ， 如 果 某 些 进 程 的 
绥 存 数据 快速 变 脏 ， 致 使 需要 比 普通 方法 更 多 的 同步 操作 时 ， 和 情况 就 会 发 生 改变 。 
在 内 核 接收 到 对 内 存 的 紧急 请 求 ， 而 同时 因为 有 大 量 脏 页 而 不 能 满足 该 请 求 时 ， 内 核 必 须 设法 
快 将 脏 页 的 内 容 传输 到 块 设备 ， 以 尽快 释放 物理 内 存 用 于 其 他 目的 。 在 这 种 情况 下 ， 使 用 的 方法 与 后 
台 刷 出 数据 所 用 的 方法 是 相同 的 ， 但 同步 操作 不 是 由 周期 性 过 程 发 起 ， 而 是 由 内 核 显 式 触 发 ， 换 句 话 
说 ， 这 种 回 写 是 “强制 ”的 。 
这 种 立即 式 同步 请 求 不 仅 可 能 由 内 核发 起 ,也 可 能 来 自 于 用 户 空 间 。 我们 熟悉 的 sync 命 令 (和 对 
应 的 sync 系 统 调用 ) 通知 内 核 将 所 有 脏 数据 刷 出 到 块 设 备 。 内 核 为 此 还 提供 了 其 他 系统 调用 ， 将 在 
17.14 节 描述 。 
同步 是 基于 wakeup_pdflush 的 ， 该 函数 实现 在 mm/page-writeback.c 中 。 刷 出 页 的 数目 作为 参 
数 传递 给 函数 : 
mm/page-writeback.c 


int wakeup_pdflush(long nr_pages) 
{ 
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if (nr_pages == 0) 

nr_pages = global page_state(NR _ FILE DIRTY) + 
global_page_state (NR _ UNSTABLE NFS); 

return pdflush operation(background writeout, nr_pages); 


} 

如 果 传 递 了 参数 0， 即 没有 明确 指定 回 写 页 的 数目 ， 内 核 将 调用 global_page_state 来 确定 整个 
系统 范围 内 (基于 文件 的 ) 脏 页 数目 。 接 下 来 激活 一 个 pdaflush 线 程 , 但 这 一 次 使 用 的 是 backgroung_ 
writeout 函 数 ， 而 不 是 wb_kupdate。 尺 管 前 者 的 名 称 包括 了 background 字 样 ， 但 它 与 直观 意义 不 同 ， 
并 非 用 于 在 后 台 执 行 同步 ， 后 台 的 同步 操作 是 由 wb_kupdate 完 成 的 。 但 background_writeout 并 不 
显 式 等 待 页 回 写 到 后 备 存储 器 的 完成 ， 而 只 是 发 起 一 个 对 应 的 请 求 ， 因 而 background 的 说 法 也 是 正确 
的 。 与 此 相反 ， 在 进行 数据 完整 性 同步 时 《在 请 求 发 源 于 一 个 系统 调用 时 ， 通 种 就 是 这 样 )， 内 核 必 
须 一 直 等 到 发 出 的 号 请 求 完成 为 止 。 这 种 做 法 ， 当 然 不 能 再 称 为 后 合同 步 。 

如 前 所 述 ， 就 同步 的 技术 方面 而 言 ， 同 步 到 底 是 由 周期 忻 机 制 发 起 ， 还 是 来 自 于 显 式 请 求 ， 在 本 
质 上 都 是 不 相关 的 。 在 background_writepages 和 wb_kupdate 之 间 ， 只 在 细节 上 有 以 下 的 微小 差别 。 

口 packground_writepages 不 要 求 页 在 回 写 之 前 已 经 脏 了 一 定时 间 。 在 技术 上 ， 这 意味 着 回 写 

控制 结构 的 older_than_this 成 员 将 设置 为 NULL。 
口 packgroungd_writepages 中 不 会 同步 超级 块 ， 因 为 缺少 了 对 应 的 sync_supers 调 用 。 
口 没有 设置 定时 器 来 周期 性 地 重启 回 写 机 制 。 
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更 重要 的 是 ， 在 内 核 中 发 起 刷 出 操作 的 位 置 。 很 有 趣 ，wakeup_paflush 仪 在 内 核 源 代码 中 两 个 








































































































































































































地 方 以 非 0 参数 调用 ， 如 下 所 述 。 
(1) 在 free_more_memory 中 ， 在 内 存 不 足以 生成 页 缓存 时 ， 总 会 使 用 该 函数 。 在 这 种 情况 下 ， 使 
的 参数 是 固定 值 1024。 

(2) 在 try_to_free_pages 中 ， 即 第 18 章 讨论 的 页 面 回收 ， 采 用 了 wakeup_pdflush 方 法 ， 来回 写 
扫描 缓存 时 认为 多 余 的 页 中 的 脏 数据 。( 在 使 用 膝 上 模式 时 ，try_to_free_pages 也 会 以 0 参数 调用 
wakeup_pdqflush， 人 参见 17.13 节 。) 

所 有 其 他 调用 都 回 写 所 有 脏 页 ， 即 对 页 数 没 有 最 大 限制 。 

可 以 理解 ， 回 写 所 有 脏 页 是 代价 很 高 、 很 耗 时 的 操作 ， 因 而 其 使 用 应 该 非常 谨慎 ， 在 内 核 中 只 用 
于 下 述 少量 情况 。 

口 在 sync 系 统 调用 明确 请 求 同 步 脏 数据 时 。 

口 在 紧急 同步 时 ， 或 使 用 magic system request key 请 求 紧 急 重 新 装载 时 。 

口 palance_dirty_pages 通 知 background_writeout 尺 可 能 多 回 写 一 些 页 。 在 文件 系统 (或 内 

核 的 其 他 部 分 ) 在 一 个 映射 上 产生 脏 页 时 , VFS 层 将 调用 该 函数 。 如果 系统 中 脏 页 的 数目 过 大 ， 
那么 将 使 用 packgroung_writeout 开 始 同 步 。 与 上 文 讨论 的 所 有 这 些 情形 都 不 同 ，pdflush 
线程 不 会 对 系统 的 所 有 请 求 队列 进行 操作 。 只 有 脏 页 所 属 的 后 备 存储 器 设备 的 队列 ， 才 会 得 
到 考虑 。 

17.13 ” 膝 上 模式 

笔记 本 计算 机 的 用 户 倾向 于 尽 可 能 降低 机 器 的 耗 电量 , 这 是 因为 在 需要 使 用 笔记 本 计算 机 远离 电 
源 插座 完成 一 些 真正 重要 的 任务 时 ， 如 果实 际 上 需要 n+k(k>0) 个 时 间 单 位 ， 那 么 笔记 本 计算 机 的 
电池 很 自然 地 倾向 于 提供 n 个 时 间 单 位 的 电力 。 在 有 些 情况 下 ，paflush 是 可 以 发 挥 作用 的 。 对 当今 的 
人 硬件 来 说 ， 人 硬盘 在 物理 上 确实 是 由 一 些 “ 盘 ”实现 的 ， 以 固态 元 件 实现 的 蔡 代 方案 已 经 出 现 了 ， 但 尚 
未 达到 广泛 应 用 的 程度 。 人 硬盘 的 运作 必然 需要 旋转 。 这 会 销毁 电力 ， 在 不 需要 使 用 硬盘 时 ， 降 低 旋转 
速度 有 助 于 减少 耗 电量 。 

与 匀速 运转 的 磁盘 相 比 ， 加 速 旋转 的 硬盘 更 糟糕 ， 因 为 这 需要 更 多 能 量 。 因 而 ， 优 化 内 核 有 如 下 
两 方面 。 

(1) 使 硬盘 尽 可 能 低速 旋转 。 这 可 以 通过 将 写 操作 延迟 更 长 的 时 间 来 做 到 。 





(2) 在 磁盘 旋转 加 速 不 可 避免 的 情况 下 ， 执 行 所 有 竺 决 的 写 操作 ， 即 使 在 普通 情况 下 ， 这 些 









































仍然 要 继续 延迟 。” 这 有 助 于 防止 硬盘 来 回升 高 /降低 





旋转 速度 。 




















操作 











本 质 上 ， 人 磁盘 操作 是 狸 发 执行 的 ， 如 果 必 须 从 设备 读 取 数 据 ， 那 么 所 
因为 无 论 如 何 设 备 现在 已 经 激活 了 。 
目标 ， 内 核 提 供 了 一 种 口 
局 变量 laptop_mode 充 当 一 个 逻辑 标 











为 了 实现 这 些 














据 供电 是 否 来 自 于 电池 ， 使 用 该 


mode 





床上 模式 对 同步 代码 的 改变 书 
口 使 


























GD 读 操 作 要 求 磁盘 处 于 运转 状态 ， 因 此 ， 除 了 避免 无 


.txt 提 供 了 一 些 有 关 该 技术 











标 
文件 来 启 


MnN， 




















表示 当前 膝 上 模式 是 否 激 活 。 例 如 ， 


局 \， 


或 禁用 膝 上 模式 。 请 注 











的 文档 。 


少 。 








了 一 个 新 的 pdflush] 











上 DOD， 可 以 通过 /proc/sys/vm/laptop_mode 激 活 。 


符 决 写 操作 都 可 以 执行 ， 


办 




















用 户 


寻 守 护 进 程 可 以 根 


Documentation/laptop- 


[ 作 例 程 : laptop_flush 只 调用 sys_sync 来 同步 系统 中 所 有 的 脏 数 




















] 的 读 操作 ， 实 在 没什么 可 做 的 。 
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据 《〈《 效 果 与 调用 sync 系 统 调用 相同 )。 因 为 这 将 产生 大 量 磁盘 IO， 所 以 仅 当 我 们 知道 磁盘 处 
于 活动 状态 时 ， 才 有 必要 激活 该 线程 。 
在 处 理 请 求 时 ， 块 设备 使 用 标准 函数 end_that_request_last 表 示 一 系列 请 求 中 的 最 后 一 个 
已 经 提交 。 由 于 这 确保 了 磁盘 已 经 处 于 运转 状态 ， 该 函数 又 调用 了 1laptop_io_completion， 后 
者 安装 了 一 个 定时 器 laptop_mode_wb_timer， 从 现在 起 1 秒 钟 后 将 执行 1aptop_timer_fn。 
laptop_timer_fn 用 1aptop_flush 作 为 工作 函数 来 启动 pdaflush 线 程 。 这 导致 paflush 将 执 
行 一 个 系统 范围 内 的 完全 同步 。 
口 回想 上 文 ， 如 果 脏 页 在 内 存 中 比例 过 高 ， 则 balance_qirty_pages 激 活 一 个 pdaflush 线 程 。 
但 在 膝 上 模式 中 ， 只 要 写 了 一 些 数 据 ， 就 会 启动 pdflush。 
口 try_to_free_pages 也 稍 有 修改 。 如 果 该 例 程 决定 使 用 一 个 paflush 线 程 , 那么 回 写 的 页 数 是 
不 受 限 制 的 。 如 果 磁 盘 需 要 加 快 旋转 ， 这 样 做 是 有 意义 的 ， 这 种 情况 下 应 该 触发 更 多 的 1/O。 
最 后 请 注意 ， 如 果 将 /proc/sys/vm/dirty_writeback_centisec 和 /proc/sys/vm/dirty_ 
expire_centisec 设 置 为 比较 大 的 值 , 膝 上 模式 会 受益 。 这 将 导致 号 操作 比 善 通 情况 下 延迟 更 长 时 间 。 
在 写 操 作 最 后 发 生 时 ， 在 上 文 所 述 的 膝 上 模式 中 所 进行 的 改动 ， 会 自动 确保 磁盘 恢复 运转 。 


17.14 用 于 同步 控制 的 系统 调用 


可 以 从 用 户 空 间 通 过 各 种 系统 调用 来 启用 内 核 同 步 机 制 , 以 确保 内 存 和 块 设备 之 间 ( 完 全 或 部 分 ) 
的 数据 完整 性 。 有 如 下 3 个 基本 选项 可 用 。 

(1) 使 用 sync 系 统 调用 刷 出 整个 缓存 内 容 。 在 某 些 情况 下 ， 这 可 能 非常 耗 时 。 

(2) 各 个 文件 的 内 容 〈 以 及 相关 inode 的 元 数据 ) 可 以 被 传输 到 底层 的 块 设备 。 内 核 为 此 提供 了 
fsync 和 fdqatasync 系 统 调 用 。 尽 管 sync 通 常 与 上 文 提 到 的 系统 工具 sync 联 合 使 用 ， 但 fsync 和 
fdatasync 则 专用 于 特定 的 应 用 程序 , 因为 刷 出 的 文件 是 通过 特定 于 进程 的 文件 描述 符 ( 在 第 8 章 介 绍 ) 
来 选择 的 。 因 而 ， 没 有 一 个 通用 的 用 户 空间 工具 可 以 回 写 特定 的 文件 。 

(3) msync 用 于 同步 内 存 映射 。 


17.15 ”完全 同步 


按 内 核 惯例 ，sync 系 统 调用 在 sys_sync 中 实现 。 其 代码 位 于 fs/buffer.c 文 件 ， 相 关 的 代码 流 
程 图 在 图 17-10 给 出 。 
该 例 程 的 结构 非常 简单 ， 由 wakeup_pdflush 开 始 的 一 串 函 数 调 用 (通过 do_sync) 组 成 ， 
wakeup_pdflush 的 调用 参数 为 0。 如 上 文 所 述 ， 这 将 导致 回 写 系统 中 所 有 的 脏 页 。 
下 一 步 是 通过 sync_inodqes 同 步 inode 的 元 数据 。 这 是 我 们 第 一 次 遇 到 这 个 回 写 所 有 inode 的 过 程 。 
我 们 在 下 文 将 仔细 考察 该 函数 。 

sync_supers 通 历 super_blocks 链 表 中 的 所 有 超级 块 ， 如 果 super_block->write_super 例 程 
存在 ， 则 调用 之 。 这 会 导致 将 特定 于 超级 块 的 信息 写 回 到 对 应 的 各 文件 系统 。 

sync_filesystems 通 过 再 次 过 历 super_blocks 链 表 并 对 每 个 以 读 / 号 模式 装载 并 提供 了 
sync_fs 方 法 的 文件 系统 调用 sync_fs 例 程 ， 来 同步 装载 的 各 文件 系统 。 仅 在 通过 系统 调用 请 求 显 式 
同步 时 ， 才 会 调用 该 方法 ， 它 向 各 文件 系统 提供 了 挂钩 到 进程 中 的 能 力 。 例 如 ，Ext3 文 件 系统 就 利用 
了 该 时 机 ， 对 当前 所 有 运行 的 事务 起 动 了 一 个 提交 (commit) 操作 。 

如 图 17-10 所 示 ，sync_inoqes 和 sync_filesystems 会 调用 两 次 ， 首 先 用 参数 0， 然 后 用 参数 1。 
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816 UL0 0D0OD00 
该 参数 指定 了 函数 是 要 等 待 写 操作 结束 〈1)， 还 是 异步 执行 0)。 将 操作 分 为 两 遍 ， 使 得 写 操作 可 以 
在 第 一 过 发 起 。 这 将 触发 与 inode 相 关 的 脏 页 的 同步 操作 ， 并 使 用 write_inogde 同 步 元 数据 。 但 具体 的 
文件 系统 可 能 选择 只 将 包含 元 数据 的 缓冲 区 或 页 标记 为 脏 ， 而 不 向 块 设备 发 生 写 请 求 。 由 于 sync_ 
inodes 将 裔 历 所 有 脏 inode， 各 个 inode 元 数据 的 修改 可 能 只 有 一 点 数据 ， 但 累积 起 来 ， 就 形成 了 比较 
大 量 的 脏 数 据 。 





图 17-10 
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sys_sync 的 代码 流程 
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因而 ， 出 于 以 下 两 个 原因 ， 前 











(2) 内 核 
WB_SYNC_AT 
这 种 两 遍 
要 等 等 所 有 已 
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第 二 裔 处 理 

(1) write_inode 调 用 标记 为 脏 的 页 需要 写 
据 的 改变 无 须 一 点 一 点 处 理 ， 这 种 方法 提高 了 写 
现在 显 式 等 待 已 经 触发 的 所 有 写 操 作 完成 ， 这 是 可 


里 的 行为 模式 ， 要 求 对 sync_sb_inodes 进 行 
经 提交 的 页 写 入 完成 。 这 包括 了 在 第 一 裔 
的 概述 在 这 里 可 能 有 帮助 )， 对 应 的 等 待 操作 是 在 _ 
的 3 个 链表 s_qirty、s_io 和 s_more_io 中 的 某 
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操作 的 性 能 。 











以 保证 的 ， 
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其间 提交 的 页 。 





















































项 修改 ， 此 前 尚未 讨 
想 我 们 此 前 的 考虑 
的 。 但 在 调用 


sync_single_ inode 中 发 虽 


伺 盘 (与 裸 块 设备 的 同步 确保 了 这 一 点 )。 由 于 


因为 第 三 遍 处 理 i 
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论 到 。 第 二 裔 需 
图 17-1 



















































































sync_sb_inodes 时 ， 该 函数 只 能 看 到 inode 位 于 超级 块 
一 个 之 上 。 如 果 在 第 一 遍 处理 即 用 wB_sSYNC_NONE 调 用 sync_sb_inodes， 那么 inode 就 不 会 再 处 于 这 些 
链表 上 ， 这 导致 无 法 进行 等 符 。 

为 此 ， 内 核 专门 引入 了 回 写 模式 wB_sYNC_HOLD。 它 几乎 等 同 于 wB_sYNC_NONE。 重 要 区 别 在 于 ， 
在 sync_sb_inodes 中 不 会 将 已 经 同步 的 inode 从 s_io 移 除 ， 而 是 放 回 到 s_qirty 链 表 上 。 这 样 ， 在 第 
二 裔 处 理 时 ， 这 些 inode 仍 然 是 可 以 访问 的 ， 并 能 够 进行 等 待 。 但 块 层 在 两 遍 处 理 之 间 即 可 开始 写 出 
数据 。 

在 sync 系 统 调用 期 间 ， 对 函数 的 元 余 调 用 会 额外 消耗 一 定量 的 CPU 时 间 。 但 与 缓慢 的 IO 操作 所 
需 的 CPU 时 间 相 比 ， 这 是 可 以 忽略 的 ， 因 而 是 完全 可 接受 的 。 
17.15.1 inode 的 同步 

sync_inodes 会 同步 所 有 脏 inode。 其 代码 流程 图 在 图 17-11 给 出 。 
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sync_inodes 


set_sb_ syncing(0) 


































遍历 用 户 层 装 载 的 所 有 
文件 系统 的 超级 块 





sync_inodes_sb (wait=1) | 
sync_blockdev | 


图 17-11 sync_inodqes 的 代码 流程 图 





























sys_sync 是 一 个 DD ， 真 正 的 同步 工作 在 __sync_inodes 中 进行 。 在 调用 __sync_inodes 之 前 ， 
对 所 有 超级 块 ， 内 核 都 使 用 set_sb_syncing 将 struct super_block 的 s_syncing 成 员 设置 为 0。 这 
有 助 于 避免 从 多 个 地 方 对 超级 块 进行 同步 。 

__sync_inodes 函 数 将 裔 历 所 有 超级 块 ， 并 对 每 个 超级 块 调 用 儿 个 方法 。 该 函数 有 一 个 参数 : 


fs/fs-writeback.c 
static void __sync_ inodes (int wait) 


wait 是 一 个 布尔 变量 , 用 于 决定 内 核 是 否 应 该 等 得 写 操作 完成 。 回想 上 文 所 述 , 这 种 行为 对 sync 
系统 调用 是 必 不 可 少 的 。 

以 下 是 _sync_inodes 所 完成 的 任务 。 

口 如 果 超 级 块 当前 正在 由 内 核 的 另 一 部 分 进行 同步 〈 即 struct super_block 的 s_syncing 设 置 
为 1)， 则 跳 过 该 超级 块 。 和 否则， 将 s_syncing 设 置 为 1， 向 内 核 的 其 他 部 分 表示 ， 该 超级 块 当 
前 正在 进行 同步 。 

口 sync_inodes_sb 同 步 与 超级 块 相关 的 所 有 脏 inode。 它 使 用 get_page_state 查 询 当 前 页 状态 ， 
然后 创建 一 个 writepack_control 实 例 。 其 中 ，nr_to_write 的 值 ( 写 入 页 的 最 大 数目 ) 如 
下 设置 : 
fs/fs-writeback.c 


unsigned long nr_ dirty = global page state (NR _ FILE DIRTY); 
unsigned long nr_ unstable = global page_ state (NR UNSTABLE NFS); 
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wbc .nr_ to write = nr dirty + nr_unstable + 

(inodes_stat.nr_inodes -inodes_stat.nr unused) + 

nr_dirty + nr_unstable; 

wbc.nr_to_write += wbc.nr_to_write / 2; /* 额外 增加 一 些 ， 以 求 得 好 运 */ 


计算 出 的 值 应 该 足以 涵盖 系统 中 所 有 的 脏 页 , 但 又 额外 增加 了 50%。 这 确保 了 该 inode 的 所 有 脏 
页 都 绝对 能 够 进行 回 写 ， 还 避免 了 一 些 在 不 限制 写 出 页 数目 的 情况 下 可 能 出 现 的 并 发 问题 。 
接 下 来 ,将 调用 我 们 熟悉 的 sync_sb_inodes 函 数 , 该 函数 将 调用 各 种 文件 系统 的 底层 同步 例 程 
口 大 多 数 文件 系统 的 底层 同步 例 程 只 是 将 缓冲 区 或 页 标记 为 脏 ， 但 并 不 进行 实际 的 回 写 。 为 此 ， 
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内 核 接 下 来 调用 sync_blockqev， 来 同步 文件 系统 所 在 块 设备 上 的 所 有 了 映射 《在 这 一 步 ， 内 
核 并 不 局 限于 某 个 特定 的 文件 系统 )。 这 确保 了 数据 实际 写 回 到 块 设备 。 


17.15.2 单个 文件 的 同步 


也 可 以 同步 单个 文件 的 内 容 ， 这 是 不 需要 同步 系统 中 所 有 数据 的 。 该 选项 由 应 用 程序 使 用 ， 以 确 
保 它们 在 内 存 中 修改 的 数据 总 是 写 回 到 适当 的 块 设备 。 因 为 普通 的 写 访问 操作 总 是 先进 入 缓存 ， 该 选 
项 为 真正 重要 的 数据 提供 了 额外 的 安全 性 (当然 ， 另 一 种 选择 是 使 用 直接 1/O 操 作 ， 绕 过 缓存 )。 

如 上 所 述 ， 有 如 下 几 个 系统 调用 可 用 于 此 。 

(1) fsync 同 步 一 个 文件 的 内 容 ， 并 将 与 文件 的 imode 相 关 的 元 数据 写 回 到 块 设备 。 

(2) fdqatasync 仅 回 写 数据 内 容 ， 忽 略 元 数据 。 

(3) sync_file_range 是 一 个 相对 较 新 的 系统 调用 ， 在 内 核 版 本 2.6.16 引 入 。 它 可 以 对 打开 文件 中 
精确 定义 的 部 分 进行 受 控 同步 。 本 质 上 ， 其 实现 将 选择 目标 内 存 页 进行 回 写 ， 可 能 会 等 待 结果 。 由 于 
这 与 上 述 系统 调用 采用 的 方法 没有 太 多 不 同 ， 所 以 这 里 不 会 详细 讨论 sync_file_range。 

fsync 和 fdatasync 的 实现 只 有 一 处 不 同 〈 更 精确 地 说 ， 只 有 一 个 字符 不 同 ): 

fs/sync.c 

asmlinkage long sys_fsync(unsigned int fd) 


{ 
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return _ do _ fsync(fd, 0); 
} 


asmlinkage long sys_fdatasync (unsigned int fd) 


return do feyne{lfd, 1):; 








} 

公共 的 子 函 数 _qo_fsync 的 代码 流程 图 在 图 17-12 给 出 。 
获得 文件 描述 符 
图 17-12”__qo_sync 的 代码 流程 图 


单个 文件 的 同步 相对 简单 。fget 用 
如 下 3 个 函数 。 
(1) filemap fdatawrite (通过 迁 回 到 filemap fdatawrite 和 filemap_ fdatawrite 









































于 根据 文件 描述 符 找到 适当 的 file 实 例 ， 然 后 将 工作 委托 给 
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range) 首先 创建 一 个 writeback_control 实 例 ， 其 nr_to_write 值 〈 刷 出 页 的 最 大 数目 ) 设置 为 映 
射 中 页 数 的 两 倍 ， 以 确保 能 够 回 写 所 有 页 。 然 后 ， 使 用 我 们 熟悉 的 ao_writepages 方 法 ， 调 用 文件 所 
在 的 文件 系统 底层 的 写 例 程 。 
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(2) 使 用 文件 的 file_operations 结 构 , 找到 特定 于 文件 系统 的 fsync 函 数 , 然后 调用 该 函数 来 回 
写 缓存 的 文件 数据 。 这 也 是 fsync 和 fdatasync 的 不 同 之 处 ，file_operations 的 fsync 方 法 有 一 个 参 
数 , 指定 是 只 刷 出 普通 的 缓存 数据 , 还 是 连同 元 数据 一 同 刷 出 。 该 参数 对 fsync 设 置 为 0, 对 fdatasync 
设置 为 1。 
(3) 接 下 来 ,调用 filemap_fqatawait 等 待 在 filemap_fdqatawrite 中 发 起 的 写 操作 结束 ， 然 后 同 
步 操 作 即 告 完成 。 这 确保 了 异步 写 操作 对 用 户 应 用 程序 表现 为 同步 语义 ， 因 为 该 系统 调用 直到 在 块 层 
和 文件 系统 层 的 层次 上 完成 指定 数据 的 回 写 后 ， 才 将 控制 返回 给 用 户 空间 。 

大 多 数 文件 系统 对 file_operations->fsync 提 供 的 方法 都 非常 相似 。 图 17-13 给 出 了 一 个 通用 方 
法 的 代码 流程 图 。 


{fs}_sync_ file 


sync_ mapping_ buffers 


fsync_buffers_list 


llrw block | 


osync_buffers_list 






































































































































































设置 了 datasync， 而 且 inode 的 i_state 
成 员 的 I_DIRTY_DATASYNC 标 志 位 置 位 ? 





{fs}_sync_inode 











守 














图 17-13”f_op->fsync 的 代码 流程 














该 代码 执行 如 下 两 个 任务 。 

(1) sync_mapping_buffers 将 mapping 实 例 的 private_1ist 中 所 有 私有 的 inode 缓 冲 区 写 回 。 这 
些 通常 用 于 保存 间接 块 或 其 他 文件 系统 内 部 数据 ,它们 不 是 inode 管 理 数据 的 一 部 分 ， 而 用 于 管理 数据 
自身 。 
该 函数 将 工作 委托 给 给 fsync_mapping_buffers， 该 函数 遍历 所 有 的 缓冲 区 。 缓 冲 区 数据 通过 
11_rw_block 函 数 写 到 块 层 ， 读 者 在 第 6 章 应 该 已 经 熟悉 了 该 函数 。 借 助 于 osync_buffers_1ist， 内 
核 接 下 来 一 直 等 到 写 操作 完成 〈 块 层 也 会 对 写 访问 进行 缓冲 )， 然 后 确保 sync_buffers_list 之 外 的 
元 数据 的 同步 表现 为 一 个 同步 操作 。 

(2) fs_sync_inodqe 回 写 inode 的 管理 数据 《〈 即 直接 保存 在 特定 于 文件 系统 的 inode 结 构 中 的 数 
据 )。 注 意 ， 调 用 该 方法 时 ，fsync 的 datasync 参 数 必须 设置 为 0。 这 是 fdatasync 和 fsync 的 唯一 
区 别 。 

inode 管 理 数据 的 回 写 是 特定 于 文件 系统 的 ， 请 参见 第 9 章 。 


17.15.3 ”内 存 映 射 的 同步 
内 核 提 供 了 在 sys_msync 中 实现 的 msync 系 统 调用 ， 以 便 同 步 内 存 映 射 的 部 分 或 全 部 数据 : 


mm/msync.c 
asmlinkage long sys_msync (unsigned long start, size t len, int flags) 


start 和 1en 选 择 了 进程 的 用 户 地 址 空间 中 的 一 个 区 域 ， 其 中 映射 的 数据 将 与 底层 的 文件 同步 。 
该 系统 调用 的 实现 非常 简单 。 按 手册 页 msync (2) 给 出 的 文档 ， 该 系统 调用 本 质 上 分 为 两 种 模式 。 
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如 果 标 志 中 设置 了 MSs_sYyNc， 那么 脏 页 将 同步 写 出 到 磁盘 ， 而 MS_ASYNC 标 志 则 用 于 将 脏 数据 的 回 写 调 





度 到 稍 后 执行 。 
好 消息 是 ， 对 MS_ASYNC 几 乎 不 需要 做 什么 工作 ! 由 于 内 核 将 跟踪 脏 页 的 状态 ， 无 论 如 
某 些 时 候 ， 脏 页 都 被 本 章 描述 的 机 制 同步 到 块 设 备 。 

在 设置 了 MS_sYNC 时 ， 需 要 的 工作 会 多 一 些 ， 而 图 17-14 中 的 代码 流程 图 考虑 了 这 种 情形 。 


sys_msync 
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遍历 所 有 的 


vm area 


图 17-14 ”sys_msync 在 设置 了 MS_SYNC 标 志 时 的 代码 流程 图 


fing_vma 查 找 选 定 











[| 




















可 ， 在 





或 中 的 第 一 个 vm_area 实 例 。vm_area->vm_file 是 一 个 指向 file 实 例 的 指 


针 ， 它 是 映射 数据 的 来 源 〈 这 已 经 在 第 4 章 讨 论 过 )。 因 而 ， 可 使 用 ao_fsync 来 同步 文件 ， 如 上 文 所 述 。 
该 方法 会 对 目标 区 域 中 的 所 有 区 间 重 复 使 用 。 这 是 可 能 的 ， 因 为 各 个 区 间 通 过 vm_area->next 连 













































































接 起 来 ， 如 第 4 章 所 述 。 
17.16 “小 结 

数据 在 块 设备 上 持久 存储 ， 但 在 物理 内 存 中 进行 修改 。 这 使 得 有 必 
介绍 了 相应 的 方法 。 有 几 个 系统 调用 可 以 显 式 请 求 将 内 存 的 一 部 分 回 写 到 磁盘 。 此 外 ， 内 核 使 


来 周期 性 地 执行 同一 工作 ， 以 确保 不 会 有 太 多 修改 过 的 数据 存在 于 物理 内 存 中 。 尽 管 保持 磁盘 
件 好 事情 ， 但 内 核 需要 确保 回 写 的 数据 量 不 超出 磁盘 处 理 能 力 的 限制 ， 本 章 就 针对 这 一 问题 讨 

































































































































































要 定期 同步 二 者 的 内 容 ， 本 章 


用 线程 
忙碌 是 
论 了 用 














于 避免 块 层 拥 塞 的 技术 。 男 外 ， 在 缺乏 电力 的 系统 上 出 现 的 问题 可 能 需要 一 些 修 正 ， 本 章 讲 述 
模式 对 相关 策略 的 修改 。 
到 现在 为 止 ,， 本 书 已 经 介绍 了 数据 在 块 设备 和 物理 内 存 之 间 双 向 传输 的 所 有 技术 细节 。 尚 




































































了 膝 上 


未 讨论 


的 是 ， 在 内 核 缺 少 内存 时 ， 如 何 决定 从 物理 内 存 选 择 哪 些 页 进行 同步 或 丢弃 ， 这 是 第 18 章 的 主题 。 











页 面 回 收 和 页 父 换 









































6 满足 用 户 的 需求 ， 或 一 直 满 足 内 存 密集 型 应 用 程序 的 需求 ， 无 论 计算 机 上 可 用 的 物理 内 存 
有 多 少 ， 都 是 不 够 的 。 因 而 ， 内 核 将 很 少 使 用 的 部 分 内 存 换 出 到 块 设备 ， 这 相当 于 提供 了 
更 多 的 主 内 存 。 这 种 机 制 称 为 0 口 口 口 swappingD 或 0 0 0 pagingD， 由 内 核实 现 ， 它 对 应 用 程序 是 透 
明 的 ,但 页 交换 不 是 从 内 存 逐 出 页 的 唯一 机 制 。 如 果 一 个 很 少 使 用 的 页 的 后 备 存储 器 是 一 个 块 设备 ( 例 
如 ， 文 件 的 内 存 映 射 )， 那 么 就 无 须 换 出 被 修改 的 页 ， 而 是 可 以 直接 与 块 设备 0D 口 。 腾 出 的 页 帧 可 以 
重用 ， 如 果 再 次 需要 该 数据 ， 可 以 从 来 源 重 新 建立 该 页 。 如 果 页 的 后 备 存储 器 是 一 个 文件 ， 但 不 能 在 
存 中 修改 〈 例 如 ， 二 进 制 可 执行 文件 的 数据 )， 那 么 在 当前 不 需要 的 情况 下 ， 可 以 直接 0 D 该 页 。 
这 三 种 技术 ， 连 同 选择 很 少 使 用 页 的 策略 ， 统 称 为 0 DDU D 《page reclaim)。 请 注意 ， 分 配给 核心 内 
核 〈“ 即 并 非 用 于 缓存 ) 的 页 是 不 能 回收 的 ， 因 为 这 种 做 法 带 来 的 复杂 性 的 增加 ， 将 超出 其 好 处 。 
页 面 回收 是 内 核 与 缓存 相关 的 一 项 基本 决策 的 基石 。 缓 存 的 长 度 从 来 都 不 是 固定 的 ， 可 以 根据 需 
首长 。 其 背后 的 原理 很 简单 : 没有 使 用 的 物理 内 存 ， 与 其 浪费 ， 还 不 如 用 来 缓 在 一 些 数据 。 但 如 果 
重要 的 任务 需要 被 缓存 占用 的 内 存 ， 内 核 将 回收 内 存 以 支持 这 些 需 求 。 本 章 将 描述 页 交换 和 页 面 
回收 的 实现 。 


18.1 概述 


前 一 章 描述 了 数据 与 底层 块 设备 的 同步 , 这 能 够 缓解 内 核 在 可 用 物理 内 存 达 到 极限 时 所 面临 的 态 
势 。 将 缓存 的 数据 回 写 ， 可 以 释放 一 些 内 存 页 ， 以 便 将 物理 内 存 用 于 更 重要 的 功能 。 所 涉及 的 数据 可 
以 在 需要 时 从 块 设备 再 次 读 取 ， 虽 然 会 花费 时 间 ， 但 不 会 丢失 信息 。 
很 自然 ， 该 过 程 也 有 其 局 限 性 。 在 某 些 时 候 ， 会 遇 到 这 样 的 情况 ， 绥 存 和 缓冲 区 都 不 能 再 收缩 。 
另外 ， 数 据 同步 对 动态 产生 的 内 存 页 是 不 适用 的 ， 因 为 这 种 页 没有 后 备 存 储 器 。 
因为 在 通常 的 系统 中 《除了 一 些 仍 入 式 系统 或 手持 PC) 硬盘 容量 比 物 理 内 存 空间 大 很 多 ， 内 核 
连同 处 理 器 (处 理 器 管理 的 虚拟 地 址 空间 比 实际 存在 的 物理 内 存 要 大 很 多 ) 可 以 征用 部 分 磁盘 ， 用 作 
内 存 的 扩展 。 由 于 人 硬盘 比 物理 内 存 慢 很 多 ， 页 交换 只 是 一 种 紧急 情况 下 的 备用 方案 ， 它 使 得 系统 可 以 
运行 ， 但 速度 会 降低 很 多 。 

品 D ‘swapping) 最 初 是 指 换 出 整个 进程 ， 包 括 其 所 有 的 数据 、 代 码 等 ， 而 不 像 现在 这 样 ， 将 进 
程 数 据 选择 性 地 逐 页 换 出 到 二 级 存储 。UNIX 的 早期 版 本 采用 了 换 出 整个 进程 的 策略 ， 在 某 些 情况 下 
这 可 能 是 合适 的 ， 但 现在 看 来 这 种 行为 是 不 可 想象 的 。 这 种 策略 所 导致 的 上 下 文 切 换 期 间 的 延迟 ， 使 
得 交互 性 工作 反应 缓慢 ， 令 人 难以 容忍 。 但 下 文 并 不 区 分 交换 和 换 页 "。 二 者 都 表示 细 粒 度 换 出 进程 
的 数据 。 交 换 现在 的 这 种 语义 ， 不 仅仅 是 专家 所 确认 的 ， 而 且 《〈 最 重要 的 是 ) 内 核 源 代码 也 采用 了 这 
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GD 除 少数 情况 ， 本 书 将 swapping 统 一 译 成 页 交换 。 一 一 译 者 注 
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种 语义 。 








哪些 页 ? 





(2) 换 出 的 页 在 交换 














在 内 核 中 考虑 如 何 实现 页 交换 和 页 地 
(1) 根据 何 种 方案 来 





























站 收 ， 必 须 回答 下 面 两 个 问题 。 
回收 页 ， 即 内 核 为 确保 最 大 可 能 利益 以 及 最 小 可 能 损失 ， 如 何 判 断 应 该 























内 核 如 何 将 页 与 后 备 存储 设备 进行 同步 ? 
第 一 个 问题 ， 即 换 出 哪些 页 、 在 物理 
























































果 内 核 选 择 一 个 频繁 使 用 




















来 的 数据 很 快 就 会 再 次 需要 ， 必 须 换 日 
的 数据 。 这 显然 没什么 效率 可 言 ， 必 须 防 止 这 种 情况 。 








18.1.1 可 换 出 页 





如 下 所 述 。 


口 类 别 为 MAP_ANONYMOUS 的 页 ， 没 有 关联 到 文 
能 是 进程 的 栈 或 是 使 月 
方面 通常 的 标准 工具 

口 进程 的 私有 映射 用 了 





















































只 有 少量 几 种 页 可 以 换 出 到 交换 区 , 对 






































区 中 如 何 组 织 ， 内 核 如 何 将 页 写 入 到 交换 区 ， 如 何在 此 后 需要 时 再 次 读 取 ? 
P 保 留 哪 些 页 的 决策 ， 对 系统 性 能 有 决定 性 的 影响 。 


人 么 确实 在 内 存 中 形成 一 个 空闲 页 ， 可 用 于 其 他 目的 。 但 
男 一 页 ， 以 留 出 空闲 页 来 保存 刚刚 换 H E 


其 他 页 来 说 , 换 出 到 块 设备 上 与 之 对 应 的 后 备 存储 器 即 可 ， 





牛 ( 或 属于 /dev/zero 的 一 个 映射 )， 例 如 ， 
区 。(CGNU C 标 准 
类 映射 的 更 多 信息 。) 
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手册 或 系统 程序 设计 








备 回 写 的 文件 ，; 




















下 文件 不 能 再 























里 内 存 较 少时 ， 
此 时 不 能 从 文件 恢复 页 的 内 容 。 内 核 ( E 

























































































1 如 ， 用 于 在 进程 
存 页 口 0 会 换 出 。 原 P 





口 所 有 属于 进程 堆 以 及 使 
第 3 章 。 

口 用 于 实现 某 种 进程 间 通 
内 核 本 身 使 用 的 内 
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需要 将 相关 页 
伍 库 ) 使 用 MAP_PRIVATE 标 志 

















的 页 (malloc 义 使 用 了 brk 系 统 调 月 


























E 之 间 交 换 数 所 




















核 不 需要 非常 多 的 






































很 自然 ,用 于 将 外 设 映 射 到 内 存 空间 的 页 也 不 能 换 出 。 换 出 这 些 页 是 没有 意义 的 ， 特 别 是， 这 些 
页 只 用 作 应 用 程序 和 设备 之 间 通 信 的 手段 ， 而 于 持久 存储 数据 。 
Oooono dogggogoggogogggoggggoggggo 
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18.1.2 ”页 颠 艇 





在 进行 页 交换 时 ， 




















这 种 现象 发 生 的 几率 也 会 增加 。 在 换 
为 防止 页 颠 艇 ,内核 必 须 解决 的 主要 的 问 
即使 用 最 频繁 的 那些 内 存 页 )， 将 最 不 











可 能 发 生 的 另 一 个 问题 是 吕 
交换 区 和 物理 内 存 之 间 密 











吕 D (page thrashing)。 顾 名 思 义 ， 这 个 问题 涉及 
的 数据 传输 问题 归结 为 页 的 来 回 、 反 复 的 交换 。 在 系统 进程 的 数目 增加 时 ， 























后 不 久 再 次 需要 该 数据 时 ， 

















要 的 那些 页 移 到 交换 




















可 能 精确 地 确定 一 个 进程 的 0 口 
区 或 其 他 后 备 存 储 器 ， 而 真正 重 

















的 。 这 将 显著 增加 内 核 代 码 的 复杂 性 。 
[ 作 量 相 比 ， 将 内 核 内 存 页 换 























日 与 付出 的 额外 了] 














UO 
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则 一 直 驻 留 在 内 存 中 。 
为 此 ， 内 核 需要 一 种 合适 的 算法 ， 来 评估 整个 系统 中 的 页 的 重要 性 。 一 方面 ， 对 页 重要 性 的 评估 
必须 尽 可 能 公平 ， 使 得 进程 不 会 得 到 太 多 偏爱 或 受到 太 多 损失 。 男 一 方面 ， 该 算法 的 实现 必须 简单 高 
效 ， 确 保 不 会 花费 太 多 的 时 间 来 选择 需要 换 出 的 页 。 

许多 类 型 的 CPU 提供 了 不 同 的 方法 ， 来 文 持 内 核 完成 此 任务 ， 各 个 方法 的 复杂 程度 各 有 不 同 。 但 
Linux 不 可 能 使 用 所 有 的 方法 , 因为 比较 简单 的 CPU 不 见得 提供 了 这 些 方 法 , 而 同时 仿真 复杂 的 方法 可 
能 又 比较 困难 。 照 例 ， 必 须 找 到 一 个 最 小 公分 母 ， 使 得 内 核能 够 在 此 基础 上 建立 硬件 无 关 层 。 
这 里 有 一 个 特别 简单 但 很 重要 的 技巧 ， 它 完全 独立 于 人 处理 器 的 能 力 ， 即 在 系统 中 维护 一 个 0 DDD 
口 《swap token)， 赋 予 换 入 页 的 进程 。 内 核 会 试图 避免 从 该 进程 换 出 页 ， 以 减轻 该 进程 的 颠 艇 ， 使 之 
有 时 间 完 成 任务 。 不 久之 后 ， 交 换 令 牌 将 传递 到 男 一 个 进程 ， 该 进程 也 经 历 了 页 交换 ， 而 且 比 当前 令 
牌 持 有 者 更 需要 内 存 。 


18.1.3 ”页 交换 算法 


在 过 去 几 十 年 中 , 已 经 为 页 面 交 换 开 发 了 一 整套 算法 , 其 中 每 个 算法 都 有 自身 特定 的 优点 和 缺点 。 
操作 系统 方面 的 一 般 文献 包括 了 这 方面 的 详细 描述 和 分 析 。 下 面 将 描述 Linux 页 交换 实现 所 基于 的 两 
种 技术 。 
1. 第 二 次 机 会 
第 二 次 机 会 (second chance) 是 一 种 算法 ， 实 现 非常 简单 ， 对 经 典 FIFO 算 法 有 一 点 小 的 改进 。 在 
FIFO 算 法 中 ， 系 统 的 页 在 一 个 链表 中 管理 。 在 发 生 缺 页 异常 时 ， 新 引用 的 页 置 于 该 链表 的 开始 ， 这 自 
动 将 现存 的 页 向 后 移动 一 个 位 置 。 由 于 在 FIFO 队 列 中 只 有 有 限 个 位 置 ， 系统 必 定 在 某 个 时 候 达 到 其 容 
量 极限 。 那 时 ， 队 列 尾部 的 页 将 “脱离 ”链表 并 被 换 出 。 当 再 次 需要 这 些 页 时 ， 处 理 器 会 触发 一 个 缺 
页 异常 ， 使 内 核 再 次 读 取 对 应 页 的 数据 ， 并 将 该 页 置 于 链表 开头 。 
显然 ， 这 个 过 程 不 是 特别 巧妙 。 在 换 出 页 时 ， 没 有 考虑 该 页 的 使 用 情况 ， 是 使 用 频繁 还 是 很 少 
用 。 在 确定 数目 的 缺 页 异常 (由 队列 中 的 位 置 数 决定 ) 之 后 ， 页 将 写 出 到 交换 区 。 如 果 经 常 需要 使 
某 页 ， 则 会 立即 再 次 读 取 ， 这 不 利于 系统 性 能 。 
这 种 情况 是 可 以 改进 的 ， 只 需 在 换 出 一 页 之 前 ， 向 其 提供 第 二 次 机 会 。 每 页 都 指定 一 个 专门 的 字 
段 ， 包 含 一 个 由 硬件 控制 的 比特 位 。 在 访问 该 页 时 ， 该 比特 位 自动 设置 为 1。 软 件 〈 即 内 核 ) 负责 清 
除 该 比特 位 。 
在 一 页 到 达 链 表 末 尾 时 ， 内 核 不 会 立即 将 其 换 出 ， 而 是 首先 检查 前 述 的 比特 位 是 否 置 位 。 如 果 置 
位 ， 则 清除 该 比特 位 ， 并 将 该 页 移动 到 FIFO 队 列 的 开始 。 换 言 之 ， 将 其 作为 添加 到 系统 的 新 页 处 理 。 
如 果 该 比特 位 没有 置 位 ， 则 将 其 换 出 。 
有 了 该 扩展 ， 该 算法 对 页 是 否 频繁 使 用 的 考虑 降 到 了 最 低 限 度 ， 但 却 提 供 了 最 新 的 内 存 管理 技术 
所 预期 的 性 能 。 在 与 其 他 技术 联合 使 用 时 ， 第 二 次 机 会 算法 是 一 个 很 好 的 起 点 。 
2. LRU 算 法 
LRU 是 least recently used (最 近 最 少 使 用 〉 的 缩写 ， 指 一 系列 试图 根据 一 种 相似 的 方案 来 找到 使 
最 少 的 页 的 算法 。 这 种 逆向 方法 规避 了 比较 复杂 的 搜索 最 常用 页 的 操作 。 
很 显然 ， 过 去 一 段 时 间 内 频繁 使 用 的 页 ， 在 不 久 的 将 来 很 可 能 再 次 使 用 。LRU 算 法 基于 上 述说 法 
的 道 命 题 ， 假 定 最 近 不 使 用 的 页 在 较 短 的 时 间 内 也 不 会 频繁 需要 使 用 。 因 而 在 内 存 缺 乏 时 ， 这 样 的 页 
将 成 为 换 出 操作 的 可 能 候选 者 。 
LRU 的 基本 原理 可 能 比较 简单 ， 但 合 
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LE 实现 该 算法 却 比 较 难 。 内 核 如 何 尽 可 能 简单 地 标记 页 或 进 
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行 排序 ， 以 便 在 不 需要 太 多 时 间 组 织 数据 结构 的 情况 下 ， 就 能 估算 出 页 的 访问 频 度 ? 最 简单 的 LRU 算 
法 使 用 一 个 双 链 表 ， 其 中 包括 系统 中 的 所 有 页 。 每 次 访问 内 存 时 ， 该 链表 都 重新 排序 。 访 问 的 页 被 找 
到 ， 并 移动 到 链表 的 开头 。 随 着 时 间 的 推移 ， 这 将 导致 一 种 “热平衡 ” 经常 使 用 的 页 位 于 链表 的 
头 ， 而 最 少 使 用 的 页 刚好 位 于 链表 末尾 《第 16 章 讨论 了 一 个 类 似 的 算法 ， 用 于 管理 块 缓存 )。 

该 算法 的 工作 很 漂亮 , 但 其 效率 只 能 处 理 少量 数据 。 这 意味 着 不 能 将 其 原本 的 形式 直接 用 于 内 存 
管理 ， 否 则 在 系统 性 能 方面 损失 太 大 。 因 而 需要 更 简单 的 实现 ， 消 耗 更 少 的 CPU 时 间 。 
处 理 器 的 专门 支持 能 够 使 LRU 算 法 实现 的 开销 大 大 降低 。 遗 憾 的 是 ， 仅 有 少量 体系 结构 提供 了 这 
种 支持 ， 因 而 Linux 不 能 使 用 。 毕 竞 ， 不 应 该 根据 特定 的 处 理 器 类 型 来 调整 内 存 管 理子 系统 。 因 此 ， 
引入 一 个 计数 器 ， 每 个 CPU 周期 都 将 该 计数 器 加 1。 每 次 访问 页 时 ， 都 将 页 的 一 个 计数 器 字段 设置 为 
系统 计数 器 的 值 。 该 操作 必须 由 处 理 器 自身 来 执行 ， 确 保 足 够 高 的 速度 。 如 果 因 为 某 个 需要 的 页 不 可 
书 而 发 生 缺 页 异常 ， 操 作 系统 只 需要 比较 所 有 页 的 计数 器 ， 即 可 确定 哪个 页 的 访问 时 间 离 现在 最 远 。 
这 种 技术 仍然 需要 在 每 次 发 生 缺 页 异常 时 搜索 所 有 内 存 页 的 链表 , 但 不 需要 在 每 次 内 存 访 问 后 都 进行 
见长 的 链表 操作 。 


18.2 Linux 内 核 中 的 页 面 回收 和 页 交换 


在 考虑 Linux 页 面 回 收 子 系统 的 技术 实现 以 及 该 子 系统 是 怎样 满足 需求 的 之 前 ， 本 节 概 述 该 子 系 

统 的 设计 决策 。 

如 果 从 比较 高 的 层次 考虑 页 交换 ， 而 不 考虑 开发 细节 ,那么 页 的 换 出 和 所 有 相关 的 操作 看 起 来 都 

不 是 非常 复杂 。 遗 憾 的 是 ， 事 实 刚 好 相反 。 内 核 的 任何 其 他 部 分 都 没有 虚拟 内 存 子 系统 那么 多 技术 困 

难 ， 而 页 交换 的 实现 只 是 其 中 之 一 。 为 使 实现 成 功 运转 ， 不 仅 需 要 考虑 大 量 琐碎 的 硬件 细节 ， 尤 其 要 

考虑 与 内 核 各 个 部 分 的 大 量 关 联 。 速 度 在 其 中 发 挥 了 关键 作用 ， 因 为 系统 性 能 最 终 决 定 于 内 存 管 理子 

系统 的 性 能 。 内 存 管 理 成 为 最 热 的 内 核 开 发 主题 之 一 绝 非 无 由 ， 它 已 经 引起 了 无 数 讨 论 、UseNet 上 的 

激烈 争论 和 相互 竞争 的 实现 。 

在 讨论 页 交换 子 系统 的 设计 时 ， 需 要 考虑 以 下 各 方面 的 问题 。 

口 应 该 如 何在 块 设备 介质 上 组 织 交 换 区 ? 该 组 织 方式 不 仅 需要 能 够 唯一 标识 换 出 的 每 一 页 ， 而 

应 该 尽 可 能 高 效 地 利用 内 存 空间 ， 使 得 读 写 操作 能 够 以 最 高 速度 进行 。 

口 内 核能 够 利用 哪些 方法 来 检查 在 何 时 将 多 少 页 换 出 ”在 为 即将 出 现 的 需求 提供 空闲 页 帧 和 最 

小 化 页 交换 操作 所 需 时 间 这 两 者 之 间 ， 这 些 方法 应 该 尽 可 能 达成 均衡 。 

口 根据 何 种 原则 选择 换 出 的 页 ?换言之 ， 应 该 选用 哪 种 页 面 蔡 换算 法 ? 

口 如 何 尽 可 能 高 效 而 快速 地 处 理 缺 页 异常 ， 页 如 何 从 交换 区 返回 到 系统 物理 内 存 ? 

口 哪些 数据 可 以 从 各 种 系统 缓存 删除 〈 例 如 ， 从 inode 或 dentry 绥 存 )， 而 不 需要 与 后 备 存储 器 同 
步 (因为 它们 可 以 根据 其 他 信息 间接 重建 )? 该 问题 实际 上 与 页 交换 操作 的 执行 没有 直接 关 
系 ， 但 同时 涉及 缓存 和 页 交换 子 系统 。 但 因为 缩减 缓存 是 由 页 交换 子 系统 发 起 的 ， 所 以 将 在 
下 文 阐述 该 问题 。 

如 前 所 述 ， 为 实现 一 个 高 效 而 强大 的 页 交换 系统 ， 最 重要 的 不 仅仅 是 技术 细节 ， 也 包括 整个 系统 

的 设计 , 该 设计 必须 能 够 支持 系统 各 组 件 之 间 尽 可 能 充分 的 交互 , 以 确保 页 交换 能 够 流畅 协调 地 进行 。 


18.2.1 交换 区 的 组 织 


换 出 的 页 或 者 保存 在 一 个 没有 文件 系统 的 专用 分 区 中 , 或 者 存储 在 某 个 现存 文件 系统 中 的 一 个 定 
长 文件 中 。 每 个 系统 管理 员 都 知道 ， 可 以 同时 使 用 几 个 这 样 的 区 域 。 还 可 以 根据 各 个 交换 区 的 速度 不 
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同 ， 为 其 指定 优先 级 。 内 核 使 用 交换 区 时 可 以 根据 优先 级 进行 选择 。 
每 个 交换 区 都 细 分 为 若干 连续 的 D 《slot)， 每 个 槽 的 长 度 刚 好 与 系统 的 一 个 页 帧 相同 。 在 大 多 数 
处 理 器 上 ， 是 4KiB。 但 较 新 的 系统 通常 会 使 用 更 大 的 页 。 
本 质 上 ， 系 统 中 的 任何 一 页 都 可 以 容纳 到 交换 区 的 任 一 槽 中 。 但 内 核 还 使 用 了 一 种 称 为 D 吕 
(clustering) 的 构造 法 ， 使 得 能 够 尽快 访问 交换 区 。 进 程 内 存 区 中 连续 的 页 (或 至 少 是 连续 换 出 的 页 ) 
将 按照 特定 的 聚集 大 小 〈 通 常 是 256 页 ) 逐一 写 到 硬盘 上 。 如 果 交 换 区 中 没有 更 多 空间 可 容纳 此 长 度 
的 聚集 ， 内 核 可 以 使 用 其 他 任何 位 置 上 的 空闲 槽 位 。 
如 果 使 用 了 几 个 优先 级 相同 的 交换 区 , 内 核 将 使 用 一 种 循环 进程 来 确保 尽 可 能 均匀 地 利用 各 个 交 























































































































































































































换 区 。 如 果 交 换 区 的 优先 级 不 同 ， 内 核 首先 使 用 高 优先 级 的 交换 区 ， 然 后 逐渐 转移 到 优先 级 较 低 的 交 
换 区 。 
为 跟踪 内 存 页 在 交换 分 区 中 的 位 置 ， 内 核 必须 维护 一 些 数据 结构 ， 将 该 信息 保存 在 内 存 中 。 结 





























请 总 








中 ， 最 重要 的 数据 成 员 是 一 个 位 图 ,用 于 跟踪 交换 区 中 各 档 位 的 使 用 /空闲 状态 。 其 他 成 员 包含 的 数 
用 于 文 持 选择 接 下 来 使 用 的 档 位 ， 以 及 聚集 的 实现 。 

有 两 个 用 户 空间 工具 可 用 于 创建 和 局 用 交换 区 ， 分 别 是 mkswap《〈 用 于 “格式 化 ”一 个 交换 分 
文件 ) 和 swapon〔 用 于 启用 一 个 交换 区 )。 因 为 这 些 程序 对 一 个 正常 运转 的 页 交换 子 系统 十 分 关键 ， 
因而 本 书 将 在 下 文 描述 这 两 个 程序 (以 及 用 于 swapon 的 系统 调用 )。 


18.2.2 检查 内 存 使 用 情况 


在 换 出 内 存 页 之 前 ， 内 核 会 检查 内 存 的 使 用 情况 ， 确 定 可 用 内 存 容量 是 否 较 低 。 与 同步 页 的 情况 

相似 ， 内 核 联合 使 用 了 如 下 两 种 机 制 。 

(1) 一 个 周期 性 的 守护 进程 (kswapd) 在 后 台 运 行 ， 该 进程 不 断 检查 当前 的 0 内 存 使 用 情况 ， 以 便 

在 达到 特定 的 阔 值 时 发 起 页 的 换 出 操作 。 使 用 该 方法 ， 确 保 了 不 会 出 现 突然 需要 换 出 大 量 页 的 情况 。 

这 种 情况 将 导致 系统 出 现 很 长 的 等 待 时 间 ， 必 须 不 惜 一 切 代价 防止 。 
(2) 但 内 核 在 某 些 情况 下 ， 必 须 能 够 预期 可 能 突然 出 现 的 严重 内 存 不 足 ， 例 如 在 通过 伙伴 系统 分 

配 一 大 块 内 存 时 ， 或 创建 缓冲 区 时 。 如 果 没 有 足够 的 物理 内 存 可 用 来 满足 对 内 存 的 请 求 ， 内 核 必须 尽 

快 换 出 页 ， 以 期 释放 一 些 内 存 空 间 。 在 紧急 情况 下 的 换 出 操作 ， 属 于 UDDD (direct reclaim) 的 一 

部 分 。 

如 果 内 核 无 法 满足 对 内 存 的 请 求 ， 甚 至 在 换 出 页 之 后 也 是 如 此 ， 那 么 虚拟 内 存 子 系统 只 有 一 个 选 

择 ， 即 通过 OOM (outofmemory， 内 存 不 足 ) killer 来 结束 一 个 进程 。 虽 然 OOM killer 有 时 候 可 能 导致 

严重 的 损失 ， 总 比 系统 完全 朋 溃 要 好 。 如 果 在 内 存 不 足 的 情况 下 不 采取 措施 ， 很 可 能 导致 系统 衣 溃 。 

18.2.3 ”选择 要 换 出 的 页 

页 交换 子 系统 面临 的 关键 问题 总 是 同样 的 。 在 需要 用 最 低 成 本 为 系统 带 来 最 大 收益 的 前 提 下 ， 应 

该 换 出 哪些 页 呢 ? 内 核 混合 使 用 了 此 前 讨论 的 思想 ， 实 现 了 一 种 粗 粒 度 的 LRU 方 法 ， 只 使 用 了 一 种 硬 

件 特性 ， 即 在 访问 一 页 之 后 设置 一 个 访问 位 ， 该 功能 在 内 核 支持 的 所 有 体系 结构 上 都 可 用 ， 而 且 还 可 18 

以 毫 不 费力 地 进行 仿真 。 

与 通用 的 算法 相 比 ， 内 核对 LRU 的 实现 基于 两 个 链表 ， 分 别称 为 0 DOD 和 DODDDO (系统 中 

的 每 个 内 存 域 都 有 这 样 的 两 个 链表 )。 顾 名 思 义 ， 所 有 处 于 活动 使 用 状态 的 页 在 一 个 链表 上 ， 而 所 有 

惰性 页 则 保存 在 另 一 个 链表 上 ， 这 些 页 虽然 可 能 映射 到 一 个 或 多 个 进程 ， 但 不 经 常 使 用 。 为 在 两 个 

链表 之 间 分 配 页 ， 内 核 需 要 定期 执行 均衡 操作 ， 通 过 上 述 访问 位 来 确定 一 页 是 活动 的 还 是 惰性 的 ， 

换言之 ， 即 该 页 是 否 经 常 被 系统 中 的 应 用 程序 访问 。 页 在 两 个 链表 之 间 可 能 会 发 生 双 向 转移 。 页 可 
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以 从 活动 链表 转移 到 惰性 


隔 会 比较 长 。 








Hr 





随 着 时 间 的 
因为 这 


这 些 页 。 


小 的 。 




















些 


页 到 换 出 时 ， 

















18.2.4 ”处理 缺 页 异常 


Linux 和 运行 的 所 有 体系 结构 都 支持 缺 页 异常 的 概念 ， 当 访问 虚拟 寺 
的 时 候 ， 将 触发 缺 


bE 台 
能 需要 先 

















物理 内 存 中 
据 。 当 然 ， 可 





帮 避 过 


贝 开 吓 。 














缺 页 处 至 


异常 ， 并 查询 











相 





E 分 为 两 个 


部 分 。 首 先 ，， 











: 移 ， 最 不 常用 的 页 将 收 
直 都 很 少 使 


删除 其 他 页 ， 以 便 为 新 数据 
必须 使 


连 表 ， 反 之 亦 然 。 但 这 种 转移 不 是 每 访问 一 页 者 





集 























到 惰性 链表 的 末尾 。 在 出 现 内 存 不 足 时 ， 内 核 将 选择 换 出 
习 ， 所 以 根据 LRU 原 理 ， 换 


























也 址 空间 中 的 一 页 ， 





会 发 生 ， 它 发 生 的 时 间 间 








这 些 页 对 系统 的 破坏 是 最 


但 该 页 不 在 





缺 页 异常 通知 内 核 从 交换 区 和 其 他 的 后 备 存 储 器 读 取 缺 失 的 数 









































关 的 数据 。 其 次 ， 使 





用 的 优化 ， 因 而 
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1 其 他 原 医 





bh 原 
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的 ( 参 
































时 才 加 载 。 





一 个 六 


旧 这 里 将 忽 
这 种 情况 下 ， 需 要 完成 的 了 








各 这 些 问 题 ， 








舟 - 





的 访 




















测 接 下 来 ; 
头 在 理论 上 


18.2.5 








只 需 

















缩减 内 核 缓存 


JI 





要 单 向 移动 ， 





以 专注 于 换 出 页 
[ 作 同 样 不 止 是 从 交换 
i 位 置 ( 人 磁盘 寻 道 )， 对 便 


眉 系统 无 关 代码 进一步 处 理 
只 在 后 备 存储 器 中 查找 相关 页 并 将 

















涛 出 空间 。 


用 与 处 理 器 相关 性 较 强 的 





尺码 人 


Er 

















-加 载 到 物理 
上 见 第 4 章 )。 例 如 ， 这 可 能 涉及 写 时 复制 页 ， 这 些 
写 访 问 时 ， 才 会 进行 复制 。 在 按 需 换 页 时 也 会 发 生 缺 页 异 


Ey 


该 异常 。 














[ 编 语言 ) 来 截获 该 缺 页 
于 内 核 在 管理 进程 时 所 采 






































内 存 是 不 够 的 ， 医 
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按 需 换 页 法 是 指 映射 





TF 


需要 重新 加 载 到 物理 
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内 存 的 情 














区 中 查找 到 目标 页 。 








要 和 





因为 如 果 需 





问 可 能 比 善 通 人 








为 缺 页 异常 可 


页 仅 在 进程 分 支 后 执行 


能 是 


第 一 次 





的 页 仅 在 实际 需要 





各 做 头 移动 到 


青 况 下 更 慢 ， 所 以 内 核 使 用 了 一 种 预 读 机 制 来 预 








各 需要 哪些 页 ， 读 操作 包括 对 这 些 页 的 读 取 。 有 了 上 文 提 到 日 
而 无 须 来 回 曼 


6 转 。 

















的 聚集 方法 ， 读 取 ; 














换 出 属于 
会 有 很 好 的 成 效 








的 情况 下 能 够 将 用 于 这 些 数据 的 内 存 空间 缩 ; 


特 








减缓 存 ， 因 为 很 
数 ， 以 便 为 各 个 








现在 ， 用 于 缩减 各 种 缓存 的 方法 仍然 是 分 别 实现 
一 种 通用 的 缓存 收缩 算法 。 但 现在 内 核 提 供 了 一 种 通用 框架 ， 来 管 























缓存 的 函数 在 内 
收缩 器 来 获得 内 


18.3 ”管理 交 








户 空 














] 程 


间 应 





连续 页 时 ， 磁 


























。 很 


























缓存 评估 数据 的 


重要 性 。 











威 多 少 ， 


在 前 几 章 解释 过 ， 内 核 在 很 多 领域 提供 了 各 种 缓存 。 
难 评估 各 种 缓存 所 包含 的 数据 的 重要 性 


















































的 % 





序 的 页 ， 并 不 是 内 核 释 放 内 存 空 间 的 唯一 方法 。 缩 减 大 量 缓存 ， 通 
自然 ， 在 这 里 内 核 也 需要 判断 从 缓存 移 除 哪些 数据 ， 以 及 在 不 过 度 损害 系统 性 能 
内 核 必须 据 此 均衡 利 次 。 
别 大 ， 所 以 仅 在 万 不 得 已 时 ， 内 核 才 考 虑 缩减 缓存 。 








大 | 

















常 也 














为 内 核 缓存 通常 不 是 








这 使 得 很 难 定义 一 个 一 般 性 的 方案 








据 此 缩 



































a 

















。 为 此 ， 早 期 的 内 核 带 有 大 量 特定 于 缓存 的 函 





因为 各 种 缓存 的 结构 有 很 大 的 不 同 ， 很 难 采 
时 各 种 缓存 收缩 方法 。 用 于 缩减 








核 中 称 为 0 口 口 (shrinker)， 可 以 动态 注册 。 在 缺乏 内 存 时 ， 内 核 将 调用 所 有 注册 的 


在 
换 区 

























































































Linux 对 交换 区 的 支持 ， 是 相对 比较 灵活 的 。 如 前 所 述 ， 可 以 用 不 同 的 优先 级 来 管理 儿 个 交换 区 。 
这 些 交 换 区 既 可 以 是 本 地 分 区 ， 也 可 以 是 具有 预定 义 长 度 的 文件 。 在 活动 的 系统 上 ， 可 以 动态 添加 / 
删除 交换 分 区 ， 而 无 须 重启 。 

内 核 尽 可 能 使 各 种 方法 在 技术 上 的 差别 对 用 户 空 间 透 明 。 内 核 的 模块 结构 也 意味 着 ， 与 页 交换 相 
关 的 算法 可 以 采用 一 种 通用 设计 ， 不 同方 法 的 差别 上 只 存在 于 较 低 的 技术 层次 上 。 
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18.3.1 数据 结构 














照例 ， 本 节 从 介绍 核心 数据 结构 开始 ， 这 些 结构 形成 了 实现 的 主干 ， 保 存 了 内 核 所 需 的 全 部 信息 









































和 数据 。 交换 区 管理 的 基石 是 mm/swap-info.c 中 定义 的 swap_info 数 组 , 其 中 各 数组 项 存储 了 关于 系 








统 中 各 个 交换 区 的 信息 : 


mm/swapfile.c 





(0 











struct swap_info_struct swap_info[MAX SWAPFILES]; 


数组 项 的 数目 是 在 编译 时 由 MAX_swAPFILES 静 态 定义 的 。 该 常数 通常 定义 为 2* = 32。 






































内 核 使 用 DUODDD swap feD 这 个 术语 时 ， 不 仅 是 指 用 于 页 交换 的 文件 ， 还 包括 交换 分 区 ， 因 
此 上 述 数组 包括 了 这 两 种 类 型 。 因 为 通常 上 只 使 用 一 个 交换 文件 ， 将 数组 长 度 限 制 为 某 个 特定 的 数值 
































IIL 











? 

















不 会 有 什么 影响 。 这 个 特定 的 数组 长 度 限 制 ， 也 不 会 对 其 他 内 存 密 集 型 程序 带 来 任何 限制 ， 根 据 具体 

















的 体系 结构 ， 现 在 交换 区 的 长 度 可 以 达到 千 兆 字 节 。 旧 版 本 中 128 MiB 的 限制 不 再 适用 。 


1. 交换 区 的 特征 












































struct swap_info_struct 描 述 了 一 个 交换 区 ， 定 义 如 下 : 


<swap.h> 








struct swap_info_ struct { 
unsigned int flags; 


int prio; 


/* 交换 区 的 优先 级 */ 


struct file *swap_file; 

struct block_ device *bdev; 

struct list head extent_ list; 

struct swap_extent *curr_swap_extent; 
Short * swap_map; 


unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 


int next; 


站 








int 
工科 下 
int 
i 世 
od 
int 
int 


lowest_bit; 
highest_ bit; 
cluster_ next; 
cluster_nr; 
pages; 

max; 

inuse pages; 


/* 交换 区 列表 中 的 下 一 项 */ 








交换 区 状态 中 一 些 主要 的 数据 可 以 借助 proc 文 件 系统 快速 查询 : 


wolfgang@meitner> cat /proc/swaps 


Filename 
/dev/hda5 
/mt/swapl 
/tmp/swap2 























中 将 优先 使 用 。 两 个 文件 





























在 上 例 中 ,使 用 了 一 个 专用 分 区 和 两 个 文件 来 容纳 交换 区 。 交 换 分 区 的 优先 级 最 高 ， 因 而 在 
优先 级 都 是 90， 在 优先 级 为 1 的 分 区 上 没有 空间 可 用 时 ， 将 根据 一 个 循环 六 
程 来 使 用 这 两 个 文件 。( 仍 然 可 能 发 生 这 样 的 情况 ， 虽然 交换 分 区 没有 完全 满 ， 但 交换 文件 中 也 有 
据 ， 从 上 述 proc 文 件 系统 的 输出 即 可 看 到 这 一 点 ， 下 文 将 具体 说 明 )。 

swap_info_struct 绪 构 中 各 个 成 员 的 语义 如 何 呢 ? 第 一 项 用 于 保存 交换 区 所 需 的 经 典 的 管理 类 





Type Size Used Priority 
partition 136512 96164 I 
file 65556 6432 0 
file 65556 6432 0 


















































































































































G 在 内 核 版 本 2.6.18 开 发 期 间 ， 已 经 添加 了 在 NUMA 结 点 之 间 物 理 上 挝 移 页 的 内 容 但 仍然 保持 其 虚拟 地 址 不 变 的 功 
能 。 这 要 求 使 用 两 个 swap_info 项 来 处 理 当前 正 处 于 迁移 状态 的 页 ， 因 此 实际 上 减少 了 交换 文件 可 能 的 数目 。 如 
















































































果 要 在 内 核 中 包括 页 面 迁 移 代 码 ， 需 要 启用 配置 选项 MIGRATION。 该 选项 在 NUMA 系 统 是 有 帮助 的 ， 例 如 可 以 将 
页 迁移 到 与 使 用 该 页 的 处 理 器 比较 接近 的 物理 内 存 中 ， 或 用 于 内 存 的 热 插 拔 。 但 本 书 不 会 详细 讲述 页 面 迁移 。 
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据 ， 


如 下 所 述 。 





口 交换 区 的 状态 
中 处 于 使 用 状态 。 和 否则 ， 
项 。swP_wRITEOK 指 定 当 前 项 对 应 的 交换 

并 后 的 缩写 是 SWP_ACTIVE。 

swap_file 指 向 与 该 交换 区 关联 的 file 弓 

于 交换 分 区 ， 这 是 一 个 指向 块 设备 上 分 

对 于 交换 文件 ， 该 指针 





设置 ; 

















的 情形 即 如 此 )。 


-者 合 




















可 





用 通过 


flags 成 员 中 存储 的 各 个 标志 描述 。 
相应 的 数组 项 会 用 字 节 0 填充 ， 使 























x 可 写 。 在 交换 














/tmp/swap2 的 情形 。 


bdev 指 向 文 


D000 


件 /分 区 所 




















区 的 设备 文件 











在 底层 块 设备 的 bloc 构 。 


k_device 结 








UU0D00 


UUOO0OU000D0 





口 
EI 


0 baev0U 











D0 


UOUOUOUO0OU00D0 


SWP_USE 


吉 构 (该 结构 的 布局 和 内 容 已 经 在 第 8 章 讨 论 过 
的 指针 《在 我 们 的 僵 
指向 相关 文件 的 file 实 例 ， 即 例 


UUO0O0U00000 /asv/naa 加 
UOU0O0UO0O0U0O0U00U00000D0 








表明 当前 项 在 交换 数组 





D 








得 很 容易 区 分 使 用 和 未 使 用 的 数组 
又 插入 到 内 核 之 后 ， 这 两 个 标志 都 会 





)。 对 
1 子 中 ，/qdev/hda5 
子 中 /mnty/swap1 或 











吕 ] 
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UUD 





DOD30 
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U0O0300000 








交换 区 


是 可 





x 的 相对 优先 级 保存 在 brio 成 员 中 。 
能 的 。 如 上 所 述 ， 交 换 分 








因为 这 是 一 个 有 符号 











号 数据 类 型 ， 




















所 以 正 负 优 











区 的 优先 级 越 高 ， 表 明 该 交换 分 





已 ] ， 


又 越 重 


HE 


0o 














号 








(例如 ， 


强 


a 了 交换 
在 IA-32 平 台 上 映射 使 
度 约 为 128 MiB。 
ax 保存 了 交换 














大 











: 见 的 (也 没有 必要 


区 中 要 


区 当前 
为 块 设备 故障 ) 损坏 或 用 于 
































用 的 页 长 度 为 4 KiB 的 情况 下 ， 交 换 分 


区 


j 模 位 的 总 数 ， 每 个 槽 位 可 容纳 一 个 内 存 域 。 侦 
可 容 双 





| 如, 在 给 出 的 例子 
内 34128 页 ， 对 应 的 











1 包含 的 页 数 。 不 同 于 pages， 该 成 员 不 
管理 目的 的 槽 位 。 


换 分 





























亚 

















乍 这 样 的 区 域 上 创建 交 





仅 计 算 可 
区 )，max 通 常 等 于 pages 























的 槽 位 ， 




















让 














2 





给 出 的 3 个 3 


交换 区 














又 来 说 ， 











情况 就 是 这 样 。 二 者 差 一 
































覃 位 
核 还 
保留 。 


1 内 核 

















用 作 标 识 








〈 毕 








个 槽 位 有 两 个 原 
毕竟 ， 不 能 将 交换 数据 写 出 到 硬盘 上 完全 随机 的 某 些 部 分 ) 





对 。 首 先 ， 交 换 

















ge 

















二 个 档 


位 来 存储 状态 信 








例如 交换 





于 县 ， 





swap_map 是 一 个 指针 ， 指 向 一 个 短 整 型 数组 (不 出 所 料 ， 该 数组 在 下 文 称 为 DDD) 











包含 的 项 
应 换 出 页 
内 核 使 用 
示 各 个 交换 


数 

















ee next 实 际 上 是 下 一 个 交换 区 


与 交换 





区 槽 位 数目 相 


























的 进程 的 数目 














J 种 不 怎么 常见 的 方法 ， 将 交换 数组 中 的 各 个 数组 ] 


区 的 数据 

















区 的 长 度 和 坏 扇 区 的 列 


同 。 该 数组 用 作 一 个 访问 计数 器 ， 


页 按 优 先 级 连接 起 来 。 





生 数 组 的 各 数组 项 中 ， 在 





所 以 在 


冬 于 一 个 线 ' 
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， 该 信息 必须 持 











每 个 数组 项 都 表示 

















定 的 数组 项 位 置 之 外 ， 使 
在 swap_info[] 数 组 中 的 索 














。 这 使 得 内 核能 够 根据 优先 级 来 跟踪 各 个 数组 项 。 




































































00 因为 该 交换 区 不 一 定 是 由 数组 的 第 一 个 元 素描 述 的 , 所 以 
内 核 还 在 mm/swapfile.c 中 定义 了 全 局 变量 swap_1list。 它 是 swap_list_t 数 据 类 型 的 一 个 实 
例 ， 该 类 型 是 专门 为 查找 第 一 个 交换 区 而 定义 的 : 

<swap.h> 


struct swap_list t { 


int head; 
int next; 


/* 按 优先 级 排序 的 交换 文件 列表 的 第 一 项 */ 
/* 交换 文件 的 下 一 项 */ 
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head 是 swap_info[] 数 组 的 一 个 索引 ， 用 于 选择 优先 级 最 高 的 交换 区 。 内 核 根据 head 和 
swap_info_struct 的 next 成 员 , 按 优 先 级 由 高 到 低 的 顺序 , 即 可 遍历 所 有 交换 区 的 列表 。next 
用 于 实现 循环 过 程 ， 以 便 在 有 多 个 交换 区 优先 级 相同 的 情况 下 , 均匀 地 用 内 存 页 填充 这 多 个 交 
换 区 。 在 下 文中 讲述 内 核 如 何 选择 换 出 的 页 时 ， 再 讨论 该 成 员 。 
根据 上 面 的 例子 可 以 更 仔细 地 考察 系统 的 运作 模式 。 入 口 点 是 第 一 个 数组 项 , 其 中 包含 了 优先 
级 最 高 的 交换 区 。 因 而 heaq 的 值 为 0。 

next 指 定 了 接 下 来 将 使 用 的 缓冲 区 。 这 未 必 总 是 优先 级 最 高 的 交换 区 。 如 果 该 交换 区 已 满 ， 
























































































































































则 mext 指 向 另 一 个 交换 区 。 
口 为 了 减少 扫描 整个 交换 区 查找 空闲 槽 位 的 搜索 时 间 ， 内 核 借 助 1owest_bit 和 highest_bit 成 
员 ， 来 管理 搜索 区 域 的 下 界 和 上 界 。 在 lowest_pbit 之 下 和 highest_pbit 之 上 ， 是 没有 空闲 槽 
位 的 ， 因 而 搜索 相关 区 域 是 无 意义 的 。 


OOOOOOOOO. Oooogugrudn 
加 


口 内 核 还 提供 了 两 个 成 员 , 分 别 是 cluster_next 和 cluster_nr， 以 实现 上 文 简要 提 到 的 聚集 技 
术 。 前 者 指定 了 在 交换 区 中 接 下 来 使 用 的 槽 位 〈 在 某 个 现存 聚集 中 ) 的 索引 ， 而 cluster_nr 
表示 当前 聚集 中 仍然 可 用 的 模 位 数 ， 在 消耗 了 这 些 空闲 槽 位 之 后 ， 则 必须 建立 一 个 新 的 聚集 ， 

否则 《如果 没 有 足够 空闲 酸 位 可 用 于 建立 新 的 聚集 ) 就 只 能 进行 细 粒 度 分 配 了 《〈 即 不 再 按 聚 

集 分 配 槽 位 )。 

2. 用 于 实现 非 连续 交换 区 的 区 间 
内 核 使 用 extent_1ist 和 curr_swap_extent 成 员 来 实现 区 间 (extent)， 用 于 创建 假定 连续 的 交 

换 区 横 位 与 交换 文件 的 磁盘 块 之 间 的 上 映射。 如果 使 用 分 区 作为 交换 区 ， 这 是 不 必要 的 ， 因 为 内 核 可 以 

依赖 于 一 个 事实 ， 即 分 区 中 的 块 在 磁盘 上 是 线性 排列 的 。 因 而 横 位 与 磁盘 块 之 间 的 映射 会 非常 简单 。 

从 第 一 个 人 磁盘 块 开始 ， 加 上 所 需 的 页 数 乘 以 一 个 常量 得 到 的 偏 移 量 ， 即 可 获得 所 需 地 址 ， 如 图 18-1 所 

示 。 这 种 情况 下 ， 只 需要 一 个 swap_extent 实 例 。( 实 际 上 ， 该 实例 也 可 以 省 去 ， 但 其 存在 使 得 内 核 

的 工作 更 容易 进行 ， 因 为 它 缩小 了 交换 分 区 与 交换 文件 之 间 的 差别 。) 
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start_page start_page start_ page = 
nr_pages nr_pages nr_pages 三 
SEEaSEEOGSR SEEOGR start bloek = 





start_page 
nr_pages 
start block 


J 
国字 大 二 
~] 
> 











图 18-1 用 于 管理 非 连续 交换 区 的 区 间 


在 使 用 文件 作为 交换 区 时 , 情况 会 更 复杂 , 因为 无 法 保证 文件 的 所 有 块 在 磁盘 上 是 连续 的 。 因 而 ， 
在 权 位 与 磁盘 块 之 间 的 映射 更 为 复杂 。 图 18-1 通 过 例子 说 明了 这 一 点 。 
文件 由 多 个 部 分 组 成 ， 这 些 部 分 可 能 位 于 块 设备 的 任意 位 置 。( 人 磁盘 肆 片 的 程度 越 轻 ， 文 件 分 成 
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的 部 分 就 越 少 。 毕 竟 ， 如 果 文 件 的 各 部 分 数据 尽 可 能 接近 ， 才 是 最 好 的 ， 这 在 第 9 章 讨论 过 。) 
extent_1ist 链 表 的 任务 是 ， 将 文件 散布 在 块 设备 上 各 处 的 块 ， 与 线性 排 布 的 槽 位 关联 起 来 。 这 样 做 
时 ， 应 该 确保 两 个 要 点 : 使 用 的 内 存 空间 尽 可 能 少 ， 将 消耗 的 搜索 时 间 保 持 在 最 低 限 度 。 
没有 必要 将 每 个 槽 位 都 关联 到 块 号 。 将 一 个 连续 块 组 的 第 一 个 块 与 对 应 槽 位 关联 并 标明 块 组 中 的 
块 数 ， 就 可 以 非常 紧凑 地 将 文件 的 结构 刻画 出 来 。 
利用 上 例 来 说 明 这 一 过 程 。 如 图 18-1 所 示 ， 前 三 个 连续 的 块 组 分 别 包含 3 个 、10 个 和 7 个 块 。 在 内 
核 想 要 读 取 第 6 个 槽 位 的 数据 时 ， 会 发 生 什么 样 的 操作 呢 ? 这 些 数据 并 不 在 第 一 个 块 组 中 ， 因 为 第 一 
组 只 包含 槽 位 0 到 2。 搜 索 将 在 第 2 组 成 功 结束 ， 其 中 包含 模 位 3 到 12， 当 然 包含 槽 位 5。 内 核 因而 必须 
确定 第 2 个 块 组 的 起 始 块 (使 用 区 间 链 表 )。 将 该 块 的 起 始 地 址 ， 加 上 页 长 度 的 两 倍 作为 偏 移 量 ， 即 可 
获得 该 组 中 第 3 个 块 的 地 址 〈 对 应 于 第 6 个 槽 位 )。 
区 间 结 构 struct swap_extent 定 义 如 下 : 
<swap.h> 
struct swap_extent { 
struct list_ head list; 
pgoff_t start_ page; 


pgoff_t nr_pages; 
sector_t start_ block; 







































































































































































De 

list 是 一 个 链表 元 素 , 用 于 将 区 间 结 构 置 于 一 个 标准 双 链 表 上 进行 管理 。 其 他 成 员 描 述 了 一 个 连 
续 的 块 组 。 
口 块 组 中 第 一 个 槽 位 的 编号 保存 在 start_page 中 。 
口 nr_pages 指 定 了 块 组 中 可 容纳 页 的 数目 。 
口 start_block 是 块 组 的 第 一 块 在 硬盘 上 的 块 号 。 

这 种 链表 可 能 变 得 非常 长 。 上 文 给 出 的 两 个 交换 文件 示例 ， 每 个 都 包含 了 约 16000 页 ， 这 可 能 需 
要 37 力 至 76 个 块 组 。 区间 机 制 的 第 三 个 需求 ， 即 搜索 速度 高 ， 双 链表 并 不 是 总 能 够 满足 该 需求 ， 因 为 
双 链 表 可 能 包含 几 百 项 。 在 每 次 访问 交换 区 时 都 扫描 一 裔 这 种 链表 ， 当 然 是 非常 费时 的 。 

解决 方案 相对 比较 简单 .swap_info_struct 中 一 个 额外 的 成 员 curr_swap_extent 用 于 保存 一 个 
指针 ， 指 向 区 间 链 表 中 上 一 次 访问 的 swapb_extent 实 例 。 每 次 新 的 搜索 都 从 该 实例 开始 。 因 为 通常 是 
对 连续 的 槽 位 进行 访问 ， 所 搜索 的 块 通 常会 位 于 该 区 间或 下 一 个 区 间 。? 

如 果 内 核 的 搜索 不 能 立即 成 功 ， 则 必须 逐 元 素 扫 描 整 个 区 间 链 表 ， 直 至 所 需 块 所 在 区 间 被 找到 。 
18.3.2 创建 交换 区 

新 交换 分 区 不 是 由 内 核 直 接 创建 的 。 这 项 任务 委托 给 一 个 用 户 空间 工具 (mkswap)， 其 源 代码 位 
于 util-linux-ng 工 具 集 合 中 。 因 为 在 使 用 交换 区 之 前 ， 创 建交 换 区 是 一 个 强制 性 的 步骤 ， 下 面 简要 
分 析 一 下 该 实用 程序 的 运作 模式 。 

内 核 无 须 提 供 任何 新 系统 调用 来 支持 创建 交换 区 ， 毕 竟 ， 内 核 也 没有 提供 任何 系统 调用 来 创建 普 
通 的 文件 系统 ， 这 些 显 然 都 不 是 内 核 的 问题 。 用 于 直接 与 块 设备 (或 者 ， 就 交换 文件 而 言 ， 是 块 设备 
上 的 一 个 文件 ) 通信 的 现存 系统 调用 ， 已 经 足以 按照 内 核 的 需求 来 组 织 交 换 区 的 内 容 。 

































































































































































































































































































































































Q 内 核 源 代 码 中 的 一 个 注释 指明 : 测量 证 明 ， 实 际 上 在 一 个 槽 位 和 一 个 块 号 之 间 建 立 映 射 ， 平 均 只 需要 0.3 个 链表 操 
作 。 
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mkswap 只 需要 一 个 参数 ， 即 分 区 的 设备 文件 的 名 称 ， 或 交换 区 所 在 文件 的 名 称 。 “该 实用 程序 将 
执行 下 列 操作 。 
口 将 所 需 交 换 区 的 长 度 除 以 所 述 机 器 的 页 长 度 ， 以 确定 其 中 能 够 容纳 的 页 数 。 
口 逐一 检查 交换 区 的 各 个 磁盘 块 是 否 有 读 写 错误 ， 以 确定 有 缺陷 的 区 域 。 因 为 交换 区 的 页 长 度 
将 使 用 机 器 的 页 长 度 ， 因 而 一 个 坏 块 就 意味 着 交换 区 的 容量 减少 了 一 页 。 
口 将 一 个 包含 所 有 坏 块 地 址 的 列表 ， 写 入 到 交换 区 的 第 一 页 。 
口 为 向 内 核 标识 此 类 交换 区 〔 如 果 管 理 员 指定 了 无 效 交 换 区 ， 这 完全 可 能 是 一 个 包含 了 文件 系 
统 数据 的 普通 分 区 ， 决 不 能 无 意 覆 盖 其 中 的 数据 )， 在 第 一 页 末尾 设置 了 swapPsPACE2 标 记 。” 
口 可 用 槽 位 数目 也 存储 在 交换 区 头 部 。 该 值 是 通过 从 总 的 可 用 槽 位 数目 中 减 去 坏 块 数目 而 得 到 
的 。 还 必须 从 中 减 去 1， 因 为 第 一 页 用 于 存储 状态 信息 和 坏 块 列 表 。 
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18.3.3 激活 交换 区 
为 通知 内 核 ， 已 经 用 mkswap 初 始 化 了 一 个 交换 区 ， 用 于 扩展 物理 内 存 ， 这 需要 与 用 户 空间 的 交互 。 
内 核 为 此 提供 了 swapon 系 统 调 用 。 照 例 ， 它 实现 在 sys_swapon 中 ， 其 代码 位 于 mm/swapfile.c 中 。 
尽管 sys_swapon 是 内 核 中 比较 长 的 函数 之 一 ， 但 并 不 特别 复杂 。 它 执行 以 下 操作 。 
口 第 一 步 ， 内 核 在 swap_info 数 组 中 查找 一 个 空闲 数 组 项 ， 并 问 该 项 指定 初始 值 。 如 果 将 一 个 块 
设备 分 区 用 作 交 换 区 ， 则 用 baq_claim 获 取 相 关 的 block_device 实 例 。 回 想 6.5.2 节 的 内 容 ， 该 
函数 为 特定 的 持 有 者 〈 这 里 是 页 交换 子 系统 ) 获取 块 设备 ， 并 通知 内 核 的 其 他 部 分 ， 该 设备 
已 经 关联 到 该 持 有 者 。 
口 在 已 经 打开 交换 文件 〈 或 交换 分 区 ) 之 后 ， 读 入 第 一 页 包含 的 坏 块 信息 和 交换 区 的 长 度 。 
口 setup_swap_extents 初 始 化 区 间 链 表 。 下 文 将 详细 讲述 该 函数 。 
口 最 后 一 步 ， 根 据 新 交换 区 的 优先 级 ， 将 其 添加 到 交换 区 的 列表 。 如 前 文 所 述 ， 交 换 区 列表 是 
使 用 swap_info_struct 的 next 成 员 定义 的 。 还 需要 更 新 如 下 两 个 全 局 变量 。 
和 四 nr_swap_pages 指 定 了 当前 可 用 的 交换 区 模 位 的 总 数 。 因 为 新 激活 的 交换 区 中 槽 位 都 是 空 
闲 的 ， 所 以 需要 将 新 增 槽 位 数目 加 到 该 变量 。 
四 Lotal_swap_pages 是 交换 区 槽 位 总 数 ， 而 不 考虑 是 否 为 空闲 槽 位 。 该 值 也 需要 加 上 新 交换 
区 中 的 槽 位 数 。 
如 果 在 调用 该 系统 调用 时 没有 为 新 交换 区 显 式 指定 优先 级 ， 则 内 核 将 现存 最 低 优 先 级 减 1 作为 该 
交换 区 的 优先 级 。 根 据 这 各 方案， 除非 管理 员 人 工 和 干预， 否则 新 交换 区 将 以 递 降 的 优先 级 加 入 。 



















































































































































































































































































































































































































































































































































































































































































G) 还 可 以 指定 其 他 参数 ， 如 交换 区 的 长 度 、 页 长 度 。 但 在 大 多 数 情况 下 ， 这 是 无 意义 的 ， 因 为 这 些 数据 可 以 自动 而 
可 靠 地 计算 出 来 。mkswap 的 作者 不 建议 用 户 自行 指定 这 些 参数 ， 如 其 源 代码 所 示 : 


if block_count) { . 
/* 这 个 傻乎乎 的 用 户 显 式 指定 了 块 数 */ 









































@ 内 核 早 期 版 本 使 用 的 是 另 一 种 不 同 格式 的 交换 区 ， 标 记 为 SWAP-SPACE。 这 种 格式 有 某 些 不 利之 处 ， 特 别 是 其 最 
大 长 度 限 制 为 128 MiB 或 512 MiB 〈 取 决 于 CPU 类 型 )， 内 核 现在 已 经 不 再 支持 该 格式 。 
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1. 读 取 交换 区 特征 信息 
交换 区 的 特征 信息 保存 在 第 一 个 槽 位 中 。 内 核 使 用 下 列 结构 来 解释 该 数据 : 

































































<swap.h> 
union swap_header { 
stEuct 
{ 
char reserved[PAGE_ SIZE - 10]; 
char magic[10]; /* SWAP-SPACE 或 SWAPSPACE2 */ 
} magic; 
Struet 
{ 
char bootbits[1024]; /* 用 于 存储 磁盘 标签 等 */ 
__u32 version; 
032 last_page; 
-3 这 nr_badpages; 
unsigned char sws_uuid[16]; 
unsigned char sws_volume[16]; 
32 padding[117]; 
__u32 badpages[1]; 
ob eh 


于 
union 人 允许 以 不 同 的 方式 来 解释 同一 数据 ， 如 图 18-2 所 示 。 





struct info 


“SWAPSPACE2” 


struct swap_header 





图 18-2”swap_heagder 的 布局 


口 前 1024 字 节 是 空闲 的 ， 为 启动 装载 程序 腾 出 空间 ， 因 为 在 某 些 体系 结构 上 启动 装载 程序 必须 
位 于 人 硬盘 上 指定 的 位 置 。 这 种 做 法 ， 使 得 交换 区 可 以 位 于 磁盘 的 起 始 处 ， 尽 管 在 这 样 的 体系 
结构 上 ， 启 动 装 载 程序 代码 也 位 于 该 处 。 
口 接 下 来 是 交换 区 版 本 号 (version)、 最 后 一 页 的 编号 (nr_lastpage) 和 不 可 用 页 的 数目 (nr_ 
badpages)。 在 117 个 整数 填充 项 之 后 ，info 结 构 的 末尾 是 坏 块 块 号 的 列表 ， 在 交换 区 格式 发 
生变 化 时 ， 填 充 项 可 用 于 表示 附加 信息 。 尽 管 在 上 述 数 据 结 构 中 坏 块 列表 只 有 一 项 ， 但 实际 
的 数组 项 数目 是 nr_badpages。 
label 和 uuid 用 于 将 一 个 标签 和 UUID (Universally Unique Identifier， 全 局 唯一 标识 符 ) 与 一 

个 交换 分 区 关联 起 来 。 内 核 并 不 使 用 这 些 字段 , 但 有 些 用 户 层 工具 需要 使 用 (手册 页 blkid (8) 

提供 了 这 些 标识 符 背 后 原理 相关 的 更 多 信息 )。 

之 所 以 使 用 两 个 数据 结构 来 分 析 该 信息 , 一 方面 是 出 于 历史 原因 (新 的 信息 只 会 出 现在 旧 格 式 不 

使 用 的 区 域 中 ， 即 分 区 起 始 处 保留 的 1024 字 节 到 swap_headezr 尾 部 的 特征 信息 之 间 的 区 域 )， 另 一 方 
面 在 一 定 程度 上 也 是 因为 内 核 必 须 处 理 不 同 的 页 长 度 , 如 果 使 用 不 同 的 结构 来 表示 , 处 理会 比较 简单 。 
于 信息 位 于 第 一 个 交换 槽 位 的 开始 和 结束 之 间 ， 其 中 的 空间 必须 填充 一 定数 量 的 填充 数据 ， 至 少 从 
该 数据 结构 的 角度 来 看 ,应 该 如 此 处 理 。 但 如 果 从 页 长 度 〈 在 所 有 体系 结构 上 都 通过 PAGE _STZE 指 定 ) 
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减 去 交换 区 特征 的 长 度 〈10 个 字符 ) 来 计算 填充 的 空间 长 度 ， 那 么 对 页 尾部 的 交换 区 特征 信息 的 访问 
会 更 容易 ， 可 以 直接 得 到 交换 区 特征 字符 串 所 在 的 位 置 。 在 访问 结构 上 半 部 的 成 员 时 ， 只 需要 指定 上 
半 部 的 定义 。 从 该 数据 结构 的 角度 来 看 , 对接 下 来 的 数据 是 不 感 兴趣 的 ,因为 其 中 仅 包含 了 坏 块 列表 ， 
该 数组 的 地 址 很 容易 计算 出 来 。 

2. 创建 区 间 链 表 

setup_swap_extents 用 于 创建 区 间 链 表 。 图 18-3 给 出 了 相关 的 代码 流程 图 。 


setup_swap_extents 


| 块 设 备用 


示 
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在 不 连续 区 之 后 创建 
新 的 区 间 ? 




















遍历 交换 区 的 所 有 块 
遍历 页 的 所 有 块 











目 动 聚集 处 理 




















设置 交换 区 信息 

















图 18-3 ”setup_swap_extents 的 代码 流程 图 


在 使 用 交换 分 区 而 不 是 交换 文件 时 ， 该 函数 的 任务 很 简单 。 块 设备 可 以 确保 所 有 扇 区 都 包含 在 一 
个 连续 的 列表 中 ， 因 而 ， 在 区 间 链 表 中 只 需要 一 项 。 该 项 是 使 用 adq_swap_extent 创 建 的 ， 包 含 了 分 
区 中 所 有 的 块 。 
如 果 交 换 区 是 文件 ， 内 核 需要 完成 的 工作 会 多 一 些 ， 因 为 必须 逐个 扫描 该 文件 的 各 个 块 ， 来 确定 
块 是 如 何 分 配 到 扇 区 的 。bmap 函 数 即 用 

的 地 址 空间 操作 中 的 bmap 方 法 。 不 






























































于 该 目的 。 它 是 虚拟 文件 系统 的 一 部 分 ， 调 用 了 特定 文件 系统 
详细 讲述 各 个 特定 文件 系统 的 实现 ， 因 为 它们 都 会 得 出 同样 的 
结果 ， 即 给 定 块 号 的 硬盘 扁 区 内 核 的 其 他 部 分 可 以 认为 在 一 个 文件 内 ， 逻 辑 上 的 各 个 块 是 连续 
的 。 但 对 与 各 个 块 对 应 的 磁盘 扇 说 ， 事 实 并 非 如 此 ， 已 经 在 第 9 章 讨论 过 。 

创建 映射 列表 的 算法 并 不 特别 复杂 。 因 为 交换 区 很 少 激 活 ， 所 以 内 核 本 身 无 须 关 注 速度 问题 ， 这 
意味 着 实现 非常 简单 。 第 一 步 , 是 通过 bmap 确 定 交 换 区 中 第 一 块 的 扇 区 地 址 。 对 交换 区 的 进一步 考察 ， 
即 从 该 地 址 开始 。 

内 核 接 下 来 必须 查找 并 比较 交换 区 中 所 有 块 的 局 区 地 址 ,确定 各 个 块 是 否 是 连续 的 。 如 果 不 是 连 
续 的 ， 即 可 确定 不 连续 。 内 核 首先 对 构成 一 页 的 块 数 执行 此 操作 。 如 果 各 块 的 扇 区 地 址 是 连续 的 ， 那 
么 就 在 磁盘 上 找到 了 长 度 等 于 一 页 的 连续 区 域 。adaa_swap_extent 将 该 信息 插入 到 区 间 数 据 结构 中 。 

接 下 来 重复 整个 操作 ， 从 下 一 个 尚未 检查 扇 区 地 址 的 文件 块 开 始 。 在 内 核 确认 该 页 上 的 各 扇 区 在 
磁盘 上 也 是 连续 的 之 后 ， 再 次 调用 adqq_swap_extent 将 该 信息 添加 到 区 间 链 表 。 

如 果 每 次 调用 adqa_swap_extent 都 向 区 间 链 表 添 加 一 个 新 的 链表 元 素 , 是 不 可 能 合并 邻接 的 连续 
区 域 从 而 构建 长 于 一 页 的 连续 区 的 。 因 而 ，aqq_swap_extent 试 图 自动 保持 链表 尽 可 能 紧凑 。 在 添加 
一 个 新 项 时 ， 如 果 其 起 始 扇 区 紧 接着 最 后 一 项 的 结束 扇 区 〈 换 言 之 ， 即 最 后 一 个 swap_extent 的 
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start_block 和 和 nr_pages 成 员 之 和 
起 来 。 这 确保 了 区 间 链 表 包 含 的 数据 ] 
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村 ， 内 核 将 从 下 一 个 文件 
续 的 页 。 这 种 情况 下 ， 如 果 使 用 aaaq_swap_extent 将 一 个 六 
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图 18-4 说 明了 交换 缓存 与 页 交换 子 系统 其 他 纪 
激活 页 面 选择 (周期 怕 


入 到 相关 的 swap_info 中 。 


交换 缓存 


前 面 已 经 根据 页 交换 子 系统 的 数据 结构 描述 了 其 布 
区 读 回 内 存 所 采用 的 技术 。 
有 了 男 一 个 缓存 ， 称 为 口 口 口 (swap cache)， 该 缓存 在 选择 换 出 页 的 操作 和 实际 执行 页 
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里 相悖 )。 相 反 ， 


日 


E 页 缓存 ? 











FP 的 对 应 页 表 项 ， 使 之 指向 交 
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换文 件 中 相关 的 位 置 。 在 其 中 某 个 进程 访问 该 页 的 数据 时 ， 该 页 将 再 次 换 入 ， 该 进程 对 应 此 

页 的 页 表 项 将 设置 为 该 页 当前 的 内 存 地 址 。 但 是 ， 这 会 导致 一 个 问题 。 其 他 进程 的 对 应 页 表 

项 仍然 指向 交换 文件 中 的 位 置 ， 因 为 尽管 可 以 确定 共享 一 页 的 进程 数目 ， 却 不 可 能 确定 具体 

是 哪些 进程 在 共享 该 页 。 

天 而 在 换 入 共享 页 时 ， 它 们 将 停留 在 交换 缓存 中 ， 直 至 所 有 进程 都 已 经 从 交换 区 请 求 该 页 ， 并 都 
知道 了 该 页 在 内 存 中 新 的 位 置 为 止 。 这 种 情况 如 图 18-5 所 示 。 
交换 区 交换 区 











































































































































































































交换 区 


(A) 
® 辐 | 交换 缓存 
(©) 


图 18-5 ”通过 交换 缓存 换 入 一 页 

没有 交换 缓存 的 帮助 ， 内 核 不 能 确定 一 个 共享 的 内 存 页 是 否 已 经 换 入 内 存 , 将 不 可 避免 地 导致 对 
数据 的 见 余 读 取 。 

从 读 入 / 写 出 两 个 方向 来 看 ， 交 换 绥 存 的 重要 性 并 不 相同 。 在 页 换 入 时 ， 交 换 缓存 的 重要 性 远 远 
高 于 页 换 出 时 。 这 种 不 对 称 性 出 现在 内 核 版 本 2.5 开 发 期 间 ， 此 间 引 入 了 第 4 章 描 述 的 逆向 映射 方案 
Crmap)。 回 想 前 文 ， 可 知 zmap 机 制 用 于 查找 共享 一 页 的 所 有 进程 。? 
在 换 出 共享 页 时 ，rmap 查 找 引 用 该 页 数据 的 所 有 进程 。 因而 ,引用 该 页 的 所 有 进程 中 的 相关 页 表 
项 都 可 以 更 新 ， 指 疝 交 换 区 中 对 应 的 位 置 。 这 意味 着 ， 该 页 的 数据 可 以 立即 换 出 ， 而 无 须 在 交换 缓存 
中 保持 很 长 一 段 时 间 。 


18.4.1 标识 换 出 页 


在 第 4 章 讨论 过 ， 根 据 内 存 页 的 虚拟 地 址 ， 需 要 使 用 一 整套 页 表 ， 才 能 找到 相关 页 帧 在 物理 内 存 
中 的 地 址 。 仅 当 数 据 实际 存在 于 内 存 中 时 ， 该 机 制 才 是 有 效 的 。 和 否则 ， 没 有 对 应 的 页 表 项 ”。 内 核 还 
必须 能 够 正确 标识 换 出 页 ， 换 言 之 ， 必 须 能 够 根据 给 定 的 虚拟 地 址 ， 找 到 内 存 页 在 交换 区 中 的 地 址 。 




























































































































































































































































































@ 在 更 早 的 内 核 版 本 中 ， 共 享 内 存 页 只 能 使 用 交换 缓存 换 出 。 在 该 页 从 一 个 进程 的 页 表 移 除 之 后 ， 内 核 必 须 一直 竺 
到 所 有 其 他 共享 该 页 的 进程 也 从 页 表 删 除了 该 页 , 才能 将 页 的 数据 从 内 存 移 除 , 这 需要 系统 地 扫描 所 有 系统 页 表 。 

与 此 同时 ， 相 关 的 页 保存 在 交换 缓存 中 。 
@@ 这 个 说 法 不 准确 ， 对 照 前 文 对 虚拟 内 存 、 页 表 的 讲述 及 下 述 两 段 内 容 可 知 。 一 一 译 者 注 
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换 出 页 在 页 表 中 通过 一 种 专门 的 页 表 项 来 标记 ， 其 格式 取决 于 所 用 的 处 理 器 体系 结构 。 
定 的 编码 ， 以 满足 特定 的 需求 。 
在 换 出 页 的 页 表 项 中 ， 所 有 CPU 都 会 存储 下 列 信息 。 





都 使 用 了 特 








口 一 个 标志 ， 表 明 



































页 已 经 换 出 。 

















E 义 了 一 种 体系 结构 无 关 的 格式 ， 可 用 于 在 交换 





口 该 页 所 在 交换 区 的 编号 。 
口 对 应 模 位 的 偏 移 量 ， 用 于 在 交换 区 中 查找 该 页 所 在 的 槽 位 。 









































内 核 
特定 于 处 到 




















器 的 代码 ) 从 体系 





x 中 确定 页 所 在 
。 该 方法 的 优点 是 显然 


的 位 置 ， 





























结 








构 相 关 的 数据 得 出 














的 实现 者 





与 便 件 无 天， 无须 对 每 种 处 型 


























器 类 型 重 写 。 


与 实际 便 件 的 唯一 接 























相关 和 无 关 两 





种 数据 表示 的 函数 。 








有 
里 














以 便 唯 


<swap.h> 

typedef struct { 
unsigned 

} swp_entry_t; 


确定 一 页 。 
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在 体系 结构 无 关 的 表示 中 ， 内 核 必须 存储 交换 分 














long val; 














该 结构 只 


特 位 ， 来 得 出 两 个 对 应 上 
0 


使 用 了 一 个 成 员 变 











三 | 


A 



































的 信息 项 ， 如 图 18-6 所 示 。 




















图 18-6 ”体系 结构 无 关 的 页 表 项 表示 的 两 个 部 分 





三 | 





为 什么 形式 上 只 











LH 
LT 


的 键 值 ,用 
存 ， 换 出 





于 检索 列 





使 用 
持 的 所 有 系统 对 以 这 种 方式 提供 的 信 ， 
所 有 交换 缓存 页 的 基数 树 。 
页 可 以 用 这 种 方法 唯一 标识 。 





个 unsigned long 变 


里 





来 存储 两 个 信息 项 呢 ? 首先， 


该 格式 可 
[有 页 交换 算法 
体系 结 


的 ， 它 使 得 有 
口 ， 就 是 用 于 转换 


而 需要 存储 两 个 不 同 的 信息 项 。 可 以 通过 选择 该 成 














昌都 还 能 凑合 着 用 。 其 次 ， 该 成 员 变 量 中 的 值 














以 ( 











I 下 : 





Vt 


过 


每 个 系统 





过 














构 


区 的 标识 (也 称 为 类 型 ) 和 该 交换 区 内 部 的 偏 移 
该 信息 保存 在 一 个 专门 的 数据 类 型 中 ， 称 为 swap_entry tt， 定义 丸 


员 中 不 同 的 比 


目前 为 止 ， 内 核 到 文 








， 也 作为 一 个 











于 交换 缓存 仅仅 是 一 个 使 












































由 于 这 种 情 


结构 中 。 














EB 在 未 来 可 
因为 swap entry. 七 人 
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能 发 生 改变 ， 
的 内 容 只 


a 





因而 没有 直接 
能 通过 专 





使 



























































<swapops.h> 
define SW 
define SW 








P_OFF SI 


为 确保 对 swap_entry_t 中 两 个 信息 项 有 


Pp_TYPE_SHIFT (e) 





用 long 作 为 键 信 


有 和 unsigned long 值 ， 而 是 将 其 
用 函数 访问 ， 即 使 未 来 的 内 核 版 本 修改 


所 索 














二 | 
由 














医 








的 访问 ， 内 核对 





18-6 中 比特 位 的 布 











(sizeof (e.val) 





MAX_ 
64 位 平台 上 是 8 字 节 。 
相对 
的 函数 ; 


<swapops.h> 














分 





全 





IIL 








言 ， 内 核 的 其 他 部 分 对 这 种 特定 的 布局 是 不 


ET_ MASK (e) ((1UL << SWP_TYPE_SHIFT(e)) -1) 

















局 定义 了 琴 





* 8 -MAX_SWAPFILES_SHIFT) 


SWAPFILES_SHIFT 值 为 5， 与 平台 无 关 。unsigned long 在 32 位 体系 结构 上 长 度 为 4 字 节 ， 在 








万 W. 


“AAA 





static inline unsigned swp_type(swp_entry_t entry) 


{ 


直 的 。 更 重要 的 是 ， 从 该 和 


4 构 中 提取 各 部 


的 页 组 


隐藏 到 一 个 
表 项 的 内 


个 常数 : 
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return (entry.val >> SWP_TYPE_SHIFT(entry)); 
} 


static inline pgoff t swp_offset (swp_entry_t entry) 
{ 

return entry.val & SWP_OFFSET MASK (entry); 
} 


[ea 











为 swap_entry_t 实 例 从 不 能 被 直接 操作 ， 所 以 内 核 必 须 提 供 一 个 函数 ， 根 据 给 出 的 类 型 / 偏 移 
量 对 ， 来 产生 一 个 swap_entry_t: 


<swapops.h> 
static inline swp_entry_t swp_entry(unsigned long type, pgoff t offset) 
{ 

















swp_entry_t ret; 


ret.val = (type << SWP_TYPE_SHIFT (ret)) | 
(offset & SWP_OFFSET MASK (ret)); 
return ret; 


4 

只 需要 少量 位 操作 即 可 将 参数 封装 到 一 个 unsigneq long 变 量 中 ， 作 为 返回 的 新 swap_entry_t 
内 核 需要 能 够 在 体系 结构 无 关 和 相关 的 两 种 页 表 项 表示 之 间 进 行 切换 ， 而 pte_to_swp_enttry 国 

数 正 是 为 此 而 提供 的 : 


<swapops.h> 
tatic inline swp_entry_t pte to_ swp_entry(pte_t pte) 









































~ 


swp_entry_t arch entry; 


arch_ entry = pte to_swp_entry(pte); 
return swp_entry(__ swp_type(larch entry), __ swp_offset (arch entry)); 
} 


转换 分 两 步 进行 。 输 入 参数 是 一 个 页 表 项 ， 如 第 4 章 所 述 ， 其 类 型 为 pte_t， 该 函数 需要 将 pte 七 
实例 转换 为 一 个 体系 结构 无 关 的 swap_entry_t 实 例 。 














| 
OO 


_ pte_to_swp_entry 是 一 个 体系 结构 相关 的 函数 ， 定 义 在 特定 于 CPU 的 头 文件 <asm-archy/ 
pgtable.h> 中 。 该 函数 向 内 核 提供 了 一 个 时 机 ， 可 以 将 页 表 中 特定 于 处 理 器 的 信息 抽取 出 来 。 在 许 
多 体系 结构 上 ， 这 可 以 通过 简单 的 类 型 转换 完成 ， 并 不 改变 页 表 项 的 内 容 ， 只 是 改变 一 下 类 型 。 即 使 
在 比较 反常 的 Sparc 处 理 器 上 ， 也 不 需要 什么 专门 的 处 理 。 
在 第 二 步 中 ， 包 合 在 新 创建 的 swap_entry_t 实 例 中 的 信 忆 将 转换 为 体系 纪 吉 构 无 关 的 格式 ， 其 中 
通常 有 若干 比特 位 用 了 ， 例 如 ， 将 该 标识 符 标 记 为 交换 数据 项 ， 与 普通 的 页 表 项 不 同 。 这 里 ， 内 
核 仍 然 需要 依赖 处 时 器 相关 代码 的 帮助 。 所 有 系统 都 必须 提供 _swp_type 和 swp_offset 函 数 〈 请 
注意 , 在 体系 结构 无 关 的 版 本 中 , 没有 开头 的 两 个 下 划 线 ) 从 处 理 器 相关 的 格式 中 提取 类 型 和 偏 移 量 ， 
并 按 体系 结构 无 关 的 通用 格式 返回 ， 接 下 来 相关 的 信息 由 swp_entry 合 并 ， 以 创建 一 个 新 的 
Swap_entry_t。 


在 体系 结构 无 关 的 格式 中 ， 用 于 标识 交换 区 的 比特 位 数目 ， 
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曾 常 比 体系 结构 相关 的 格式 所 用 的 位 





dj 














































































































8338 0180 000000050 
数 要 多 。 因为 体系 结构 不 需要 以 常数 方式 定义 交换 区 偏 移 量 所 用 的 比特 位 数 , 内 核 需 要 采用 一 点 技巧 ， 
来 查找 可 寻 址 的 最 大 交换 区 偏 移 量 。 
maxpages = swp_offset(pte to_ swp_entry(swp_entry_to_ptel(swp_entry(0,~0UL))) -1; 
swp_entry (0，~0UL) 指 定 了 一 个 所 有 比特 位 均 置 位 的 交换 区 偏 移 量 。 上 述 转 换 首 先 将 一 个 体系 
结构 无 关 格 式 转换 为 一 个 体系 结构 相关 格式 ， 再 将 其 转换 回 体 系 结构 无 关 格 式 ， 确 保 仅 在 当前 体系 结 
构 下 有 效 的 比特 位 会 保存 下 来 。 而 后 ， 从 结果 取得 交换 区 仿 移 量 ， 即 为 最 大 可 寻 址 的 交换 区 偏 移 量 。 














18.4.2 








交换 缓存 的 结构 

















就 数据 乡 
对 象 ， 该 对 象 中 聚 
mm/swap_state.c 


集 








者 构 而 言 ， 交 换 缓 存 无 非 是 
了 与 交换 缓存 相关 的 内 部 函数 和 数据 结构 。 


个 页 缓存 ， 如 





struct address_space Swapper_space = { 
.page_tree 
.tree_lock 


.da_ops 


.i_mmap_nonlinear 
.backing dev_info 








RW_LDOCK_ 
&swap_aops, 


























LINEG: 














第 16 章 所 述 。 其 实现 的 核心 是 swapper_space 


RADIX_TREE_INIT(GFP_ATOMIC|__GFP_ NOWARN), 
UNLOCKED (swapper_space.tree_ lock), 


LIST_ HEAD_INIT(swapper_space.i mmap_nonlinear), 
&swap_backing_ dev_ 








天 
ogggogogog0o0ogogoggoggo0ogggggogoggggogogogogoggggoogogoguo 
uoogoooogogoggogn0ogoggogogogoggoggoogoogoogogoggoggg0ogoggogoeo 
swapper_space[| 0U00D0 




















在 
内 


第 4 章 讨论 过 。 








于 大 多 数字 段 都 是 链 





ni 


核 提 供 了 一 组 交换 缓存 访问 函数 ， 可 以 由 任何 涉及 























9 宏 初 始 化 为 基本 设置 〈 空 )。 各 数据 项 的 语义 












































， 因 





二 





数 构成 了 交换 缓存 “向 





据 的 实现 部 分 ， 这 些 函 














程 并 不 关注 换 出 / 换 入 1 




















swap_aops 定 义 如 


mm/page_io.c 


可 用 于 向 交换 缓存 添加 页 ， 或 查找 交换 缓存 中 的 页 。 这 些 
而 可 用 于 发 出 换 入 / 换 出 页 
内 核 还 提供 了 一 组 函数 ， 来 处 到 


函数 聚集 在 一 个 address_space_operations 实 例 中 , 通 


CG 




















的 命令 ， 而 无 须 关 注 此 
通过 交换 缓存 提供 的 





























内 存 管理 





E 的 内 核 代码 使 








]。 例如， 这 些 函 数 











函数 构成 了 交换 缓存 和 页 
后 数据 如 何 传输 的 技术 细 


也 址 空间 。 与 地 址 








四 替换 逻辑 之 间 的 
节 。 


和 页 缓存 类 似 ， 这 些 














空间 


过 aops 成 员 关 联 到 swapper_space。 这 些 函 














下 : 























static struct address_space operations swap_aops = { 
.writepage 
.Sync_page 
.Set_page dirty 


}; 





swap_writepage, 
block_sync_page， 





set_page_dqirty nobuffers, 












































下 ”的 接口 ， 换 言 之， 在 交换 缓存 下 是 在 系统 的 交换 区 和 物理 内 存 之 间 传输 数 
数 是 交换 缓存 与 数据 传输 部 分 之 间 的 接口 。 与 稍 早 提 到 的 函数 集 不 同 ， 这 些 例 
bh 些 页 ， 而 负责 对 选 定 页 进行 数据 传输 的 技术 细 市 。 


[ 作 就 足够 了 ， 如 下 所 述 。 





稍 后 会 详细 讲述 这 些 函 数 的 实现 和 意义 。 这 里 简单 勾勒 出 它们 所 做 的 
(1) swap_writepage 将 脏 页 与 底层 块 设备 同步 。 其 


的 并 非 像 其 他 页 缓存 那样 ， 























来 维护 物理 内 
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存 和 块 设备 之 间 的 一 致 性 。 其 目的 是 将 页 从 交换 缓存 移 除 ， 将 其 数据 传输 到 交换 区 。 因 而 ， 该 函数 负 
责 从 物理 内 存 到 磁盘 上 交换 区 的 数据 传输 。 

(2) 页 必须 在 交换 缓存 中 标记 为 “ 脏 ” 而 决 不 能 分 配 新 的 内 存 ， 因 为 在 使 用 换 出 机 制 时 ， 内 存 资 
源 肯定 已 经 匮乏 到 一 定 程度 了 。 在 第 16 章 讨论 过 ， 一 种 将 页 标记 为 脏 的 可 能 做 法 是 创建 缓冲 区 ， 使 数 
据 逐 块 回 写 。 但 这 种 做 法 需要 额外 的 内 存 来 保存 buffer_heaq 实 例 〈 其 中 包括 所 需 的 管理 数据 )。 因 
为 交换 缓存 中 只 回 写 整 页 ， 所 以 这 是 无 意义 的 。 因 此 内 核 使 用 __set_page_qirty_nobuffers 函 数 来 
将 页 标记 为 脏 ， 它 设置 PG_qirty 标 志 但 并 不 创建 绥 冲 区 。 

(3) 与 多 数 页 缓存 一 样 ， 交 换 缓存 也 使 用 了 内 核 的 标准 实现 (block_sync_page) 来 将 页 同步 到 
交换 区 。 该 函数 只 负责 拔 出 对 应 的 块 设备 队列 。 就 交换 缓存 而 言 ， 这 意味 着 接 下 来 将 执行 发 送 给 块 层 
的 所 有 数据 传输 请 求 。 

到 这 里 已 经 介绍 了 交换 缓存 的 所 有 “静态 ”成 员 ， 且 页 交换 实现 的 基础 也 已 经 就 位 。 在 讨论 实际 
的 操作 中 如 何 使 用 这 些 之 前 ， 会 简要 介绍 届时 将 会 遇 到 的 函数 ， 事 实 上 有 很 多 此 类 函数 。 图 18-7 给 出 











































































































四 

























































































































































































了 这 些 函 数 中 最 重要 的 一 些 ， 并 描述 了 它们 是 如 何 关 联 的 。 
快 页 异常 管理 页 面 回收 























扫描 内 存 域 





















将 换 出 数据 传 
shrink_ page_list 输 到 交换 区 并 
“< 处 理 页 表 








swapin_ readahead | 本 do_swap_page 









read_swap_cache_async add to_swap try_to_unmap 
__adqd to_swap_cache | try_to_unmap_one | 


页 缓存 管理 逆向 映射 

图 18-7 实现 页 交换 和 页 面 回收 的 最 重要 的 函数 的 概述 。 该 图 不 是 一 个 完全 的 代码 流程 
图 ， 跳 过 了 某 些 中 间 孔 数 
图 18-7 是 图 18-4 的 粗略 概述 ， 但 提供 了 更 多 细节 。 图 18-4 介 绍 的 一 般 结 构 可 以 立即 从 图 18-7 中 识 
别 出 来 。 在 本 章 后 面 的 内 容 中 ， 我 们 将 介绍 实现 该 结构 的 各 个 函数 。 
18.4.3 ”添加 新 页 

向 交换 缓存 添加 新 页 是 一 个 非常 简单 的 操作 ， 因 为 只 需要 使 用 适当 的 页 缓存 机 制 。 标准 方法 就 是 
调用 第 16 章 描述 的 adq_to_page_cache 卫 数 ,这 减少 了 必要 的 工作 量 。 该 函数 将 一 个 给 定 页 的 数据 结 
构 插入 到 swapper_space 地 址 空间 中 对 应 的 链表 和 树 中 。 

但 这 并 非 任务 的 全 部 内 容 。 该 页 不 仅 需 要 添加 到 交换 缓存 ， 还 需要 在 某 个 交换 区 中 分 配 空间 。 尽 
管 数据 不 会 在 此 时 复制 到 硬盘 ,但 内 核 仍然 必须 考虑 为 该 页 选择 的 交换 区 和 对 应 的 柳 位 。 该 决策 必须 
保存 到 交换 缓存 的 数据 结构 中 。 

下 面 两 个 内 核 方法 可 以 向 交换 缓存 添加 页 ， 但 作用 不 同 。 


swap_writepage 
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(1) 在 内 核 想 





例 程 不 仅 将 页 添加 到 交换 缓存 (在 页 数据 写 











要 口 口 换 出 一 页 时 ， 会 调 

















为 该 页 分 配 





个 档 位 。 


(2) 当 从 交换 区 读 入 


















































同时 保持 在 交换 


adqd_to_swap_cache 函 数 实现 该 行为 ， 该 函数 将 一 页 添加 到 交换 缓存 ， 而 不 对 交换 


1. 分 配 槽 位 





在 处 理 这 两 个 函数 的 实现 细节 之 前 ,我们 
给 get_swap_page， 该 函数 没有 参数 ， 将 返回 
上 保 系 统 确实 有 交换 
前 使 用 的 交换 区 
上 上， 内 核 开 始 在 该 交换 区 中 查找 一 个 空闲 相 





该 函数 首先 必须 
swap_list.nex 





x 和 交换 缓存 中 ， 直 至 


儿 个 进程 共享 的 一 页 《可 以 根据 交换 


上 到 磁盘 之 前 ， 会 











被 再 次 换 出 ， 或 被 所 有 









































区 中 的 使 























计数 器 判定 ) 时， 该 页 














用 aaqa_to_swap， 即 当 策 略 算 法 确定 可 用 内 存 不 足 时 。 该 
直 停 留 在 其 中 )， 还 在 某 个 交换 区 中 


将 








tk 享 该 页 的 进程 换 入 。 内 核 通 过 








应 该 考察 如 


何在 交换 区 






































t 总 是 当 


区 ， 





接 下 来 所 使 用 槽 位 的 编号 。 











区 进行 操作 。 





分 配 槽 位。 内 核 将 该 任务 委托 


标志 是 全 局 变量 nr_swap_pages 的 值 大 于 0。 








日. ~ 





























位 。 




















该 技术 将 在 后 文 讨论 。 

如 果 在 当前 交换 
的 列表 ， 直 至 找到 一 个 空 闪 的 槽 位 。 很 
swap_info[] 数 组 项 的 next 成 员 进行 。 






































在 到 达 优 先 级 最 低 的 交换 
遍历 了 系统 中 所 有 的 交换 区 ， 


向 调用 方 代码 返回 








区 后 ， 内 


核 将 返回 到 








的 编号 (如 果 只 有 一 个 交换 

















又 ， 该 人 











总 是 相同 的 )。 逻 辑 





scan_swap_map 打 











槽 位 分 配 位 图 


区 没有 找到 空闲 槽 位 ， 内 核 将 检查 备用 的 交换 区 。 为 此 ， 内 核 将 扫描 所 有 交换 


区 
自然 ， 搜 索 将 根据 对 每 个 交换 区 定义 的 优先 级 ， 通 过 每 个 




















， 利 





] 案 集 技 术 ， 



























































如 何 扫 j 











茹 各 交 ] 


文 的 槽 位 位 氏 











Ga 

















scan_swap_map 会 扫 

















相关 交换 分 区 的 swap_map 数 旨 














也 无 法 找到 空闲 槽 位 ， 则 搜索 结束 。 此 
页 号 0， 表 示 发 生 了 这 种 情况 。 
? 之 所 以 能 够 识别 




















个 联 伴 











些 。 





操作 会 稍微 困难 

















站 采 


SWAPFILE 





_ CLUST 

















取 什 品 
聚 引 


内 核 站 先 处 士 和 -不 








PF 没有 空闲 























mm/swapfile.c 


8 空闲 项 ， 是 
昌 ， 来 查找 这 样 的 项 ,但 
ER 个 连续 项 组 成 ， 内 存 页 可 以 顺序 写 入 这 些 项 。 








头 〈 优 先 级 最 高 的 交换 








大 








项 的 情况 。 这 种 情况 比较 罕见 ， 稍 后 讨论 相关 








为 其 使 用 计数 器 等 于 0。 
于 交换 聚集 特性 ， 扫 




















区 ) 重新 开始 搜索 。 如 
时 ， 内 核 是 无 法 换 出 页 的 ， 需 








爆 疙 








大 














生 到 


R 码 。" 


static inline unsigned long scan swap map(struct swap_info_ struct *si) 


{ 


unsigned long offset, 


了 下 


/* 查找 新 的 聚集 */ 


} 











我 们 假定 si->cluster_nr 大 于 0， 这 表明 当前 聚集 中 


last_in cluster; 


(unlikely(!si->cluster nr)) { 




















仿 然 有 空闲 槽 位 〈 








指定 了 当 
限制 之 后 
位 ， 可 加 








前 聚集 中 空 
， 它 会 检查 








钵 模 位 的 数目 )。 在 内 核 胡 














用 认 当前 偏 移 量 不 超 

















- 

















以 利用 : 


mm/swapfile.c 


si->cluster_nr--; 


cluster: 


offset = si->cluster next; 


i 





Q 实现 中 仍然 包含 了 儿 个 显 式 的 调度 器 调用 ， 








行 这 些 调 














(offset > si->highest_ bit) 























这 





最 小 化 内 核 等 待 时 间 。 





回想 前 文 ，cluster_nr 


Hswap_info->highest_pit 设 置 的 


目标 位 置 上 对 应 项 的 交换 计数 器 是 否 为 0， 如 果 为 0， 表 明 该 项 对 应 着 一 个 空闲 模 











没有 转载 。 在 内 核 搜索 空闲 槽 位 时 花费 了 大 长 时 间 的 情况 下 ， 执 
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lowest: offset = si->lowest_bit; 
if (!si->highest_bit) 
goto no_page; 
If (!si->swap_ mapl[loffset]) { 


if (offset == si->lowest_bit) 
si->lowest_bit++; 
If (offset == si->highest_ bit) 


si->highest_ bit--; 

Si->inuse_ pages++; 

If (si->inuse pages == si->pages) { 
si->lowest_bit = si->max; 
si->highest_ bit = 0; 

} 

Si->swap_maploffset] = 1; 

si->cluster next = offset + 1; 


return offset; 


ji 


在 更 新 了 交换 区 信息 中 搜索 的 上 下 限 之 后 (如 有 必要 )， 内 核 将 下 次 搜索 的 偏 移 量 设 置 为 刚 找 到 
的 位 置 的 偏 移 量 加 1。 
如 果 目 标 位 置 不 是 空闲 的 ， 内 核 将 遍历 这 些 位 


mm/swapfile.c 














由 




















， 直 至 找到 第 一 个 空闲 的 槽 位 ; 























while (++offset <= si->highest bit) { 
If (!si->swap_ map[offset]) { 
goto checks; 
} 
} 


goto lowest; 


no_page: 
return 0; 


} 

如 果 该 操作 失败 ， 内 核 将 跳 转 到 lowest 标 号 ， 从 空闲 区 的 下 
循环 ， 因 为 在 分 配 了 最 后 一 个 空闲 槽 位 之 后 ，highest_bit 将 设 
一 个 放弃 搜索 的 条 件 。 

现在 ， 我 们 必须 来 考察 没有 当前 聚集 的 情况 。 这 种 情况 下 ， 内 核 试 图 打开 一 个 新 的 聚集 。 这 预先 
假定 了 ， 在 交换 区 中 要 有 一 个 至 少 由 swaPFILE_cLUSTER 个 空闲 模 位 组 成 的 空闲 区 域 。 因 为 聚集 的 起 
台 位 置 不 需要 对 齐 ， 内 核 从 可 能 有 空闲 槽 位 的 最 低位 置 (由 lowest_bit 定 义 ) 开始 搜索 (对 应 的 代 
但 ， 应 该 插入 在 上 文 /*s]DDOODOD */ 注 释 的 位 置 ): 


mm/swapfile.c 


EE 新 开始 搜索 。 这 不 会 产生 无 限 
0。 从 上 述 代 码 片 段 来 看 ， 这 是 














项 
过 II 只 

















































































































































































































Si->cluster nr = SWAPFILE CLUSTER -1; 
if (si->pages -si->inuse pages < SWAPFILE CLUSTER) 
goto lowest; 

















offset = si->lowest_bit; 
last_in cluster = offset + SWAPFILE CLUSTER -1; 


/* 定位 第 一 个 空闲 〈 未 对 齐 ) 的 聚集 */ 
for (; last_in cluster <= Si->highest_bit; offset++) { 
if (si->swap_map[offset]) 











Mt 
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else 


} 
} 


goto lowest; 

















last_in cluster = offset + SWAPFILE CLUSTER; 
if (offset == last_in cluster) { 

si->cluster next = offset-SWAPFILE CLUSTER-1; 

goto cluster; 

















如 果 没 有 足够 的 空闲 槽 位 用 于 创建 一 个 聚集 ， 内 核 将 跳 转 到 lowest 标 号 ， 并 由 此 开始 逐 项 搜索 。 
从 当前 位 置 开始 ， 内 核 会 检查 是 否 所 有 (SWAPFILE_CLUSTER 个 ) 后 续 模 位 都 是 空闲 的 。 这 项 
检查 在 if 语句 内 的 for 循 环 中 进行 。 如 果 内 核发 现 某 个 已 分 配 项 〈 即 对 应 的 swap_map 项 大 于 0)， 则 

















































































































从 下 一 个 槽 位 恢复 搜索 空闲 聚集 。 该 操作 会 一 直 重 复 下 去 ， 直 至 到 达 没 有 足够 空间 创建 一 个 聚集 的 


位 置 。 











如 果 内 核 成 功 找到 一 个 新 的 聚集 ， 将 跳 转 到 lowest 标 号 ， 如 上 所 述 。 


2. 分 配 交 换 空间 
在 策略 例 程 确定 了 需要 换 出 的 页 之 后 ，mm/filemap.c 中 的 add_to_swap 开 始 运 作 。 该 函数 接 
一 个 struct page 实 例 作为 参数 ， 并 换 出 请 求 转发 给 页 交换 的 技术 实现 部 分 。 
如 图 18-8 的 代码 流程 图 所 示 ， 这 不 是 一 个 很 困难 的 任务 ， 基 本 上 由 3 个 步骤 组 成 。 上 文 提 到 的 
get_swap_page 例 程 在 某 个 交换 区 中 

















六 









































_adq_ to_swap_cache 子 数 负 责 , 该 函数 与 第 16 章 描述 的 标准 函数 aqq_to_page_cache 非 常 类 似 。- 





要 的 区 别 在 了 
private 成 员 中 。 
要 将 全 局 变量 tot 






































分 配 了 一 个 槽 位 之 后 ， 只 需要 将 换 出 页 移动 到 交换 区 。 这 


Ht 下 














将 对 page 实 例 设置 PG_swapcache 标 志 并 将 交换 标识 符 swp_entry_t 保 存在 bage 的 
另外 ， 在 页 的 内 容 实际 换 出 时 ， 还 需要 构造 一 个 体系 结构 相关 的 页 表 项 。 此 外 ， 需 
al_swapcache_pages 加 1， 来 更 新 统计 信息 。 还 有 ， 与 aqaq_to_page_cache 相 似 ， 
入 到 由 swapper_space 建 立 的 基数 树 。 








图 18 
























get_swap_page 
add to_ swap_ page_ cache 


SetPageUptodate 


SetPageDirty 


-8 ”adqg_to_swap 的 代码 流程 图 























最 后 ， SetPageUpdate 和 SetPageDirty 会 适当 地 修改 页 的 标志 。 应 该 将 页 设置 为 脏 ， 因 为 页 的 


内 容 尚未 包含 在 交换 











交换 页 来 说 ， 对 应 的 底 


























区 中 。 回 想 第 17 间 的 内 容 ， 页 绥 存 中 的 页 在 变 脏 后 才 会 与 底层 块 设备 同步 。 对 于 
层 块 设备 是 交换 区 ， 因 而 同步 (几乎 ) 就 等 价 于 将 页 换 出 ! 在 页 写 入 到 对 应 的 




















交换 区 槽 位 之 后 ， 剩 下 的 工作 就 是 更 新 页 表 ， 来 反映 这 一 事实 。 























但 实际 上 呢 ， 了 
数据 从 内 存 传输 到 交换 区 的 和 





[ 作 就 是 这 些 。 在 了 











换 出 页 时 ， 对 策略 例 程 没有 其 他 的 要 求 。 剩 余 的 工作 ， 特 别 是 将 











E 务 ， 是 由 与 swapper_space 关 联 的 特定 于 地 址 空间 的 操作 完成 的 。 这 些 














相关 例 程 的 实现 将 在 下 文 讨论 。 就 策略 例 程 来 说 ， 只 需要 知道 ， 内核 会 负责 将 页 数据 实际 写 出 到 交换 
区 ， 因 而 在 调用 aqdqg_to_swap 之 后 ， 就 释放 了 一 页 。 更 多 的 细节 ， 将 在 下 文 对 shrink_page_1l1ist 消 
数 的 讨论 中 闸 明 。 
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3. 缓存 交换 页 

与 adgq_to_swap 不 同 ，aqq_to_swap_cache 将 一 页 添加 到 交换 缓存 ， 但 要 求 已 经 为 该 页 分 配 了 一 
个 槽 位 。 

如 果 一 页 已 经 有 了 对 应 的 槽 位 ， 为 什么 将 其 添加 到 交换 缓存 呢 ? 在 换 入 页 时 ， 这 是 需要 的 。 假 定 
已 经 换 出 了 由 许多 进程 共享 的 一 页 。 在 该 页 再 次 换 入 时 ， 在 第 一 个 进程 将 其 换 入 后 ， 必 须 将 其 数据 保 
持 在 交换 缓存 中 ， 直 至 所 有 进程 都 完成 了 对 该 页 的 换 入 。 只 有 到 这 时 ， 才 能 将 该 页 从 交换 缓存 移 除 ， 
因为 此 时 所 有 相关 用 户 进程 都 已 经 得 知 该 页 在 内 存 中 新 的 位 置 。 当 对 交换 页 进行 预 读 时 ， 也 会 以 这 种 
方式 来 使 用 交换 缓 在。 在 这 种 情况 下 ， 读 入 的 页 尚未 因 缺 页 异常 而 被 请 求 ， 但 很 可 能 在 稍 后 被 请 求 。 

adqd_to_swap_cache 比 较 简 单 ， 如 图 18-9 的 代码 流程 图 所 示 。 其 基本 任务 是 调用 _agq_to_ 
swap_cache, 该 函数 将 页 添加 到 交换 缓存 , 如 同 adgq_to_swap 那 样 , 但 首先 必须 调用 swap_duplicate， 
以 确保 该 页 已 经 有 了 一 个 对 应 的 交换 数据 项 。swap_qduplicate 还 会 将 对 应 槽 位 的 交换 映射 计数 加 1， 
这 表明 该 页 在 多 处 被 换 出 。 





















































































































































































































































adqd_ to_swap_cache 
swap_duplicate 
__add to_swap_cache 


图 18-9”adq_to_swap_cache 的 代码 流程 图 































adq_to_swap 和 和 add_to_swap_cache 的 主要 区 别 在 于 ， 后 者 没有 设置 PG_uptodate 或 PG_dirty 
这 两 个 标志 。 本 质 上 ， 这 意味 着 内 核 并 不 需要 将 该 页 写 入 到 交换 区 ， 即 二 者 的 内 容 当 前 是 同步 的 。” 


18.4.4 搜索 一 页 


lookup_swap_cache 检 查 一 页 当前 是 否 位 于 交换 缓存 中 。 其 实现 只 需要 几 行 : 2 


mm/swap_state.c 
struct page * lookup_swap_cache(swp_entry_t entry) 


















































{ 
struct page *page; 
page = find get page(&swapper_space, entry.val); 
return page; 

} 





该 函数 根据 swp_entry_t 实 例 ， 使 用 第 16 章 讨论 过 的 fing_get_page 函 数 来 扫描 swapper_space 
地 址 空间 ， 得 到 所 需 的 页 。 类 似 于 许多 其 他 与 地 址 空间 相关 的 任务 ， 所 有 繁重 的 工作 都 是 由 基数 树 实 
现 完 成 的 ! 请 注意 ， 如 果 没 找到 页 ， 则 代码 返回 一 个 NULL 指 针 。 此 时 内 核 必须 从 硬盘 取得 数据 。 



























































Q 请 注意 ， 在 内 核 版 本 2.6.25 中 〈 本 书 撰写 时 ， 该 版 本 尚 处 于 开发 中 )， 将 会 对 这 里 提 到 的 函数 名 做 一 些 调整 。 
adqd_to_swap_cache 将 合并 到 其 唯一 的 调用 者 read_swap_cache_async 中 ， 不 会 继续 存在 。 而 __adq_to_swap_ 
cache 将 蔡 换 前 者 ， 重 命名 为 adaq_to_swap_cache。 这 两 个 函数 的 调用 者 也 会 相应 进行 更 新 。 

@ 类 似 于 本 章 描述 的 许多 其 他 页 交换 相关 的 函数 ， 该 函数 在 内 核 源 代码 中 也 包含 了 几 个 调用 ， 来 更 新 页 交换 子 系统 
的 一 些 关键 统计 量 。 在 我 们 的 讨论 中 ， 不 会 将 此 类 调用 包含 进来 ， 因 为 它们 在 本 质 上 就 是 对 计数 器 作 一 些 简单 处 
理 ， 没 什么 趣味 。 
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18.5 


完成 的 ， 该 函数 指 旬 


数据 回 


写 


页 交换 实现 的 另 一 部 分 是 其 “向 下 ”的 接口 
地 说 ， 向 块 层 发 出 适当 的 请 求 )。 读 者 已 经 看 到 过 ， 这 是 在 交换 缓存 中 使 
指向 swap_writepage。 图 18-10 给 出 了 swap_writepage 函 数 的 代码 流程 网 ， 该 





函数 定义 在 mm/page_io.c 中 。 






































swap_writepage 


























， 用 于 将 页 数据 写 入 到 交 








换 区 中 选 定 的 位 置 《或 确切 
























remove_exclusive_swap_page 
get_swap_bio 
map_ swap_page 


设置 bio 实 例 

















set_page_ writeback 












地 址 空间 操作 writepage 













































































































































































图 18-10 ”swap_writepage 的 代码 流程 图 

因为 大 部 分 工作 已 经 由 上 文 描述 的 机 制 完成 ， 所 以 swap_writepage 需 要 做 的 工作 很 少 。 内 核 首 
先 需要 调用 remove_exclusive_swap_page， 检 查 相 关 页 是 否 只 由 交换 缓存 使 用 ， 而 内 核 其 他 部 分 都 
已 经 不 再 使 用 。 如 果 是 这 样 ， 该 页 不 再 需要 ， 可 以 从 内 存 移 除 。 

在 内 核能 够 号 出 页 数据 之 前 ， 它 需要 一 个 正确 填充 的 struct bio 实 例 ， 其 中 包括 了 块 层 需要 的 
所 有 参数 ， 这 在 第 6 章 讨 论 过 。 该 任务 委托 给 get_swap_bio， 该 函数 将 返回 一 个 完成 的 bio 实 例 。 

在 填充 bio 结 构 时 ， 不 仅 需 要 目标 块 设备 和 回 写 数据 的 长 度 ， 还 需要 目标 证 区 号 。 在 18.3.1 节 讨论 
过 ， 交 换 区 并 不 总 是 位 于 磁盘 上 一 个 连续 的 区 域 。 因 而 ， 使 用 区 间 来 创建 槽 位 到 可 用 磁盘 块 之 间 的 映 
射 。 现 在 必须 搜索 区 间 链 表 : 











mm/page_io.c 


sector_t map_swap_page(Struct swap_info_struct *sis, 


{ 


struct swap_extent *se 
struct swap_extent *start_se 


for 





C3 


sis->curr_swap_extent; 
se; 


struct list_ head *1lh; 


了 二 


(se->start_page <= offset && 
(se->start_page + se->nr pages)) { 
(offset -se->start_ page); 


offset < 
return se->start_block + 
} 
lh = se->list.next; 
if (lh == &sis->extent_ list) 
lh = lh->next; 
se = list_ entry(lh, struct swap_extent, 


sis->curr_swap_extent 


Se; 


pgoff_t offset) 


list); 
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搜索 不 是 从 链表 头 部 开始 的 ， 而 是 开始 于 上 一 次 使 用 的 链表 元 素 。 该 链表 元 素 保 存在 
curt_swap_extent 中 ， 因 为 在 大 多 数 情况 下 ， 对 模 位 的 访问 通常 是 彼此 相 邻 或 接近 的 。 这 样 ， 就 可 
以 利用 同一 个 区 间 链 表 元 素来 计算 局 区 地 址 。 
在 搜索 的 目标 槽 位 编号 (offset ) 大 于 等 于 se->start_page 而 小 于 se->start_page + 
se->nz_pages 时 ， 目 标 槽 位 即 包 含 在 区 间 链 表 元 素 se 中 。 如 果 该 条 件 不 成 立 ， 则 顺 次 搜索 该 链表 ， 
直至 找到 匹配 的 链表 元 素 。 因为 匹配 的 链表 元 素 是 一 定 存在 的 , 所 以 搜索 可 以 在 一 个 无 限 循环 中 进行 ， 
循环 在 返回 扇 区 编号 时 结束 。 
在 用 适当 的 数据 填充 了 bio 实例 之 后 ， 在 通过 bio_submit 将 写 请 求 发 送 给 块 层 之 前 ， 必 须 使 用 
SetPageWriteback 对 页 设置 PG_writeback 标 志 

在 写 请 求 执行 时 ， 块 层 调用 ena_. a nes 巩 环 (基于 标准 函数 sendq_page_writeback) 
将 PG_writeback 标 志 从 page 结 构 清除 。 

请 注意 ， 将 页 的 内 容 写 入 到 交换 区 中 对 应 的 槽 位 后 ， 换 出 页 的 工作 还 没有 完全 结束 。 这 时 还 需要 
更 新 页 表 ， 然 后 才能 认为 该 页 已 经 完全 从 物理 内 存 移 除 。 一 方面 ， 页 表 项 需要 指定 该 页 不 在 内 存 中 ， 
男 一 方面 ， 页 表 项 还 需要 指向 对 应 槽 位 在 交换 区 中 的 位 置 。 因 为 这 项 修改 必须 对 所 有 使 用 该 页 的 进程 
进行 ， 所 以 这 是 一 项 牵涉 颇 多 的 任务 ， 将 在 18.6.7 节 讨论 。 


18.6 ”页 面 回 收 


到 现在 为 止 , 我 们 已 经 解释 了 回 写 的 技术 细节 ， 下 面 把 注意 力 转 向 页 交换 子 系统 的 第 二 个 主要 
的 方面 ， 即 交换 策略 ,该 策略 用 于 确定 哪些 页 可 以 从 物理 内 存 换 出 而 同时 又 不 会 严重 降低 内 核 性 能 。 
因为 该 策略 可 以 释放 页 帧 ， 使 得 有 新 的 内 存 可 用 于 紧急 需求 ， 所 以 该 技术 也 称 为 0 0 DD (page 


reclaim ) 。 
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交换 策略 算法 的 实现 是 内 核 中 比较 复杂 的 内 容 。 这 不 仅 是 因为 要 使 交换 速度 最 大 化 ， 而 更 主要 的 
是 各 种 必须 解决 的 特殊 情况 。 下 面 的 例子 专注 于 构成 页 交换 子 系统 主要 工作 的 那些 最 常见 的 情况 。 为 
简明 起 见 ， 这 里 不 会 讨论 比较 罕见 的 情况 ， 这 些 可 能 是 因 SMP 系 统 上 各 处 理 器 间 交 互 而 导致 的 ， 或 是 
单 处 理 器 系统 上 出 现 的 随机 巧合 情况 。 与 各 交换 操作 的 细 枝 末节 相 比 ， 对 页 交换 所 涉及 的 各 个 组 件 间 
的 交互 给 出 一 般 性 的 概述 要 更 重要 。 
18.6.1 概述 

上 文 已 经 讨论 了 用 于 实现 交换 策略 算法 的 一 般 方法 。 以 下 各 节 将 主 
程 的 交互 ， 并 详细 描述 其 实现 。 图 18-11 给 出 了 一 个 代码 流程 图 ， 列 出 了 


们 是 如 何 彼此 关联 的 。 
图 18-11 是 图 18-7 中 概述 的 进一步 细 化 。0DOO0D 在 两 个 地 方 触 发 ， 如 图 18-11 所 示 。 

























































































































































































要 讲述 各 个 交换 策略 函数 和 过 
最 重要 的 各 个 方法 并 说 明了 它 





















































846 0180 00000000 




















直接 页 面 回收 


try_to_free_ pages 










































re (每 个 NUMA 结 点 一 | 
















shrink_zones 





balance pgdat 





balance pgdat| |balance pgdat 









































图 18-11 页面 回收 实现 的 “整体 图 示 ”。 请 注意 ， 该 图 并 非 完整 的 代码 流程 




















图 ， 只 是 给 出 了 最 重要 











的 函数 














(1) 如 果 内 核 检 测 到 在 茶 个 操作 期 间 内 存 严重 不 足 ， 将 调用 try_to_free_pages。 该 函数 检查 当 


并 释放 最 不 常用 的 那些 。 











前 内 存 域 中 所 有 页 ， 


























由 
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(2) 一 个 后 台 守 护 进程 ， 名 为 kswapd， 会 定期 检查 内 存 使 用 情况 ， 并 检测 即将 发 生 的 内 存 不 足 。 


可 使 用 该 守护 进程 换 出 页 ， 作 为 预防 措施 ， 以 防 内 核 在 执行 其 他 操作 期 间 发 现 内 存 不 足 。 
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UNUMAUODOODUOUOUOU0OUOUOUOOODO0O0030UU0U0NUMA 
D00000000000kswapdd 0000000000000NUMADOUUUUO 


DONUMADOODUUUOUODUkswapdd 000000000000000000 
加 





























上 述 两 条 代码 路 径 , 很 快 在 shrink_zone 函 
剩余 的 代码 是 相同 的 。 














在 try_to_free_pages 中 处 理 系统 内 存 严重 不 足 时 ， 以 及 在 kswap 守 护 进程 中 定期 检查 内 存 使 用 


时 ,在 使 用 为 此 设计 的 算法 确定 为 向 系统 提供 
体 换 出 哪些 页 〈 并 最 终 将 相关 信息 从 策略 代码 
责 修改 页 表 项 的 例 程 )。 
























































些 链 表 是 按 内 存 域 管理 的 ”: 
<mmzone.h> 
struct zone { 








可 想 3.2.1 节 ， 内 核 试图 将 页 分 类 到 两 个 LRU 链 表 中 : 一 个 




















函数 中 合并 。 对 页 面 回收 子 系统 的 这 两 条 代码 路 径 来 说 ， 


























新 的 空闲 内 存 所 需 换 出 的 页 数 以 后 ， 内 核 还 需要 确定 有 具 
部 分 传递 到 负责 将 页 写 回 到 后 备 存储 器 的 例 程 ， 以 及 负 























LI 








于 活动 页 ， 男 一 个 用 于 不 活动 页 。 这 


struct list head active list; 
struct list head inactive_ list; 


} 





QD 即 每 个 内 存 域 两 个 链表 。 一 一 译 者 注 
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判断 给 定 页 属于 哪 一 类 是 内 核 的 一 项 必要 工作 ， 本 章 的 很 大 一 部 分 内 容 都 在 回答 该 问题 。 
有 关 回 收 页 的 数目 、 具 体 回 收 哪些 页 的 决策 ， 是 按照 下 列 步骤 作出 的 。 
(1) shrink_zone 是 从 内 存 移 除 很 少 使 用 的 页 的 入 口 点 ， 在 周期 性 的 kswapd 机 制 中 调用 。 该 方法 
负责 两 件 事 : 通过 在 活动 链表 和 惰性 链表 之 间 移 动 页 (使 用 shrink_active_1ist),， 试 图 在 一 个 内 存 
域 中 维护 活动 页 和 不 活动 页 的 数目 的 均衡 ， 还 通过 shrink_cache， 控 制 了 选择 换 出 页 的 过 程 。 在 确 
定 内 存 域 中 换 出 页 数 的 逻辑 和 有 具体 换 出 哪些 页 的 决策 之 间 ，shrink_zone 充 当 了 一 个 中 间 人 。 

(2) shrink_active_1list 是 一 个 综合 性 的 辅助 函数 ， 内 核 使 用 该 函数 在 活动 页 和 不 活动 页 的 
两 个 链表 之 间 移 动 页 。 该 函数 会 被 告知 需要 在 两 个 链表 之 间 转 移 的 页 数 ， 而 后 该 函数 试图 选择 使 用 最 
少 的 页 。 
因而 在 本 质 上 ，shrink_active_1ist 负 责 决 定 随 后 将 换 出 哪些 页 ， 保 留 哪些 页 。 换 言 之 ， 该 函 
数 实现 了 页 面 选 择 的 策略 部 分 。 

(3) shrink_inactive_1ist 从 给 定 内 存 域 的 惰性 链表 移 除 选 定 数目 的 不 活动 页 ， 将 其 传送 到 
shrink page_list 函 数 ， 后 者 将 向 各 个 对 应 的 后 备 存储 器 发 出 回 写 数据 的 请 求 ， 以 便 在 物理 内 存 中 
释放 空间 ， 回 收 所 选 定 的 页 。 

如 果 由 于 任何 原因 ， 不 能 回 写 页 (有 些 程序 可 能 明确 地 阻止 回 写 )，shrink_inactive_1l1ist 必 

须 将 不 能 回 写 的 页 放 回 活动 链表 或 惰性 链表 。 
18.6.2 ”数据 结构 
在 详细 分 析 这 些 函 数 之 前 ， 本 节 先 讨论 内 核 使 用 的 几 个 数据 结构 。 其 中 就 包括 页 向 量 ， 即 借助 于 
一 个 数组 来 保存 特定 数目 的 页 ， 可 以 对 这 些 页 执行 同样 的 操作 。 最 好 以 “ 批 处 理 模式 ”执行 ， 这 比分 
别 对 每 个 页 执行 同样 的 操作 要 快 得 多 。 然 后 ， 本 节 讲 述 用 于 将 页 置 于 内 存 域 的 活动 链表 或 惰性 链表 上 
的 LRU 缓 存 机 制 。 

1. 页 向 量 

内 核定 义 了 以 下 结构 ， 用 于 将 几 个 页 群集 到 一 个 小 的 数组 中 : 

<pagevec.h> 

struct pagevec { 
unsigned nr; 


int, CoLd:; 
struct page *pages [PAGEVEC_ SIZE]; 































































































































































































































































































































































































下 

这 只 是 一 个 数组 , 各 个 数组 项 上 指向 page 实 例 的 指针 , 数组 项 的 数目 可 以 通过 nr 成 员 查 询 。 pages 
数组 本 身 提供 的 空间 可 存储 PAGEVEC_SIZE〔( 默 认 值 是 14) 个 指向 page 实 例 的 指针 。 
coldq 成 员 用 于 帮助 内 核 区 分 0 0 D hotpageD 和 0 D (coldpage)。 如 果 页 的 数据 保存 在 某 个 CPU 的 
速 缓存 中 ， 称 为 热 页 ， 因 为 其 数据 可 以 非常 快速 地 访问 。 页 数据 不 在 高 速 缓存 中 ， 则 称 为 冷 页 。 为 
单 起 见 ， 以 下 描述 中 将 忽略 内 存 页 的 这 个 属性 。 
页 向 量 使 得 可 以 对 一 组 page 结 构 整 体 执行 操作 。 有 时 候 ， 这 比 对 各 个 页 单独 执行 操作 要 快 。 当 
前 ， 内 核对 此 提供 的 相关 函数 主要 涉及 页 的 释放 ， 如 下 所 述 。 
口 pagevec_release 将 向 量 中 所 有 页 的 使 用 计数 器 减 1。 如 果 某 些 页 的 使 用 计数 器 归 0， 即 不 再 
使 用 ， 则 自动 返回 到 伙伴 系统 。 如 果 页 在 系统 的 某 个 LRU 链 表 上 ， 则 从 该 链表 移 除 ， 无 论 其 

使 用 计数 器 为 何 值 。 

口 pagevec_free 将 一 组 页 占用 的 内 存 空间 返还 给 伙伴 系统 。 调 用 者 负责 确认 页 的 使 用 计数 器 为 0 




























































































下 


a 

















































































































848 0UlI80 00000000 




















《表明 页 在 其 他 地 方 没 有 使 用 )， 且 未 包含 在 任何 LRU 链 表 中 。 
口 pagevec_release_nonlru 是 男 一 个 用 于 释放 页 的 函数 , 它 将 一 个 给 定 页 向量 中 所 有 页 的 使 用 
计数 器 减 1。 在 计数 器 归 0 时 ， 对 应 页 占用 的 内 存 将 返还 给 伙伴 系统 。 与 pagevec_release 不 
同 ， 该 函数 假定 向 量 中 所 有 的 页 都 不 在 任何 LRU 链 表 上 。 
所 有 这 些 函 数 都 需要 一 个 bagevec 结 构 作 为 参数 ， 其 中 包含 了 需要 处 理 的 页 。 如 果 向 量 为 空 ， 则 
所 有 这 些 函数 都 会 立即 返回 到 调用 者 。 
这 些 函 数 还 有 另 一 种 带 有 两 个 下 划 线 的 版 本 (例如 _pagevec_release)。 这 些 函 数 并 不 测试 向 
量 是 否 包 含 页 。 
还 缺少 一 个 癌 页 向 量 添加 页 的 函数 : 


<pagevec.h> 
static inline unsigned pagevec add(struct pagevec *pvec, struct page *page) 


pagevec_ adq 将 一 个 新 页 添加 到 一 个 给 出 的 页 癌 量 pvec。 

该 函数 的 实现 在 这 里 不 详细 考虑 了 ， 因为 它 非常 简单 没什么 我 们 感 兴趣 的 东西 。 
2.LRU 缓 存 
内 核 提 供 了 男 一 个 缓存 ， 称 为 LRU 绥 存 ， 以 加 速 问 系统 的 LRU 链 表 添加 页 的 操作 。 它 利用 页 向 量 
来 收集 page 实 例 ， 将 其 逐 组 置 于 系统 的 活动 链表 或 惰性 链表 上 。 这 两 个 链表 在 内 核 中 是 一 个 热点 ， 但 
必须 通过 自 旋 锁 保 护 。 为 降低 锁 竞 争 的 几率 ， 站 而 是 首先 缓冲 到 一 个 各 CPU 
列表 上 : 


mm/swap.c 
static DEFINE PER_ CPU(struct pagevec, lru addq pvecs) = { 0, }; 


通过 该 缓冲 区 添加 新 页 的 函数 是 lru_cache_add。 它 提供 了 一 种 方法 ， 可 以 延迟 将 页 添加 到 系统 
的 LRU 链 表 ， 直 至 已 经 积累 了 PAGEVEC_SIZE 个 页 : 


mm/swap.c 
void fastcall lru cache add(struct page *page) 


{ 



























































































































































































































































struct pagevec *pvec = &get_ cpu var(lru add pvecs); 





page_cache get (page); 
if (!pagevec _add(pvec, page)) 

_ pagevec_ lru add(pvec); 
put_cpu var(lru add pvecs); 





} 
因为 该 函数 访问 了 一 个 特定 于 CPU 的 数据 结构 ， 它 必须 阻止 CPU 处 理 中 断 《〈 中 断 处 理 之 后 可 能 恢 
复 到 另 一 个 CPU 上 执行 )。 这 种 形式 的 保护 是 通过 调用 get_cpu_var 隐 式 提供 的 ， 该 函数 不 仅 禁用 了 抢 
5， 还 返回 了 相应 的 各 CPU 变量 。 
lru_cache_add 首 先 将 page 实 例 的 count 使 用 计数 器 加 1， 因 为 该 页 现在 已 经 在 页 缓存 中 (这 被 
解释 为 “使 用 ” )。 接 下 来 使 用 pagevec_add 将 该 页 添加 到 特定 于 CPU 的 页 向 量 。 

pagevec_add 返 回 的 是 添加 新 页 之 后 页 向 量 中 仍然 空 闪 的 数组 项 数目 。 如 果 返 回 9， 这 表明 添加 
上 一 个 页 之 后 页 向 量 已 经 是 满 的 ， 那 么 将 调用 _pagevec_1lru_adg。 该 函数 将 页 向 量 中 的 所 有 页 ， 都 
添加 各 页 所 属 内 存 域 的 惰性 链表 中 (页 问 量 中 的 页 ， 可 能 属于 不 同 的 内 存 域 )。 各 页 都 设置 了 PG_1lru 
标志 位 ， 因 为 它们 现在 包含 在 一 个 LRU 链 表 中 。 接 下 来 将 删除 页 向 量 的 内 容 ， 以 便 为 缓存 中 的 新 页 腾 
出 空间 。 


如 果 在 pagevec_aqq 添 加 一 页 之 后 各 CPU 列表 中 仍然 有 空闲 位 置 , 则 添加 的 page 实 例 仍然 处 于 页 
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向 量 中 ， 而 不 是 添加 到 系统 的 某 个 LRU 链 表 。 
lru_cache_adqd_active 的 工作 方式 与 lru_adq_cache 完 全 相同 ， 但 前 者 用 于 活动 页 ， 后 者 用 于 
不 活动 页 。 它 使 用 lru_adqd_pvecs_active 作 为 绥 冲 。 在 页 从 绥 冲 区 转移 到 活动 链表 时 ， 不 仅 会 设置 
PG_lru 标 志 位 ， 还 将 设置 PG_active 标 志 位 。 
lru_cache_add 内 在 mm/filemap.c 中 的 add_to_page_cache_1lru 中 需要 ， 用 于 将 一 页 同时 添加 
到 页 缓存 和 LRU 绥 存 。 但 这 是 将 一 页 同时 添加 到 页 缓存 和 LRU 链 表 的 标准 函数 。 最 重要 的 是 ， 
mpage_readpages 和 do_generic_mapping_reag 会 使 用 该 函数 ， 在 从 文件 或 映射 读 取 数据 时 ， 块 层 
结束 于 这 两 个 标准 函数 。 
通常 都 认为 内 存 页 最 初 是 不 活动 的 ， 在 确定 其 价值 之 后 ， 才 能 认为 是 活动 的 。 但 有 些 例 程 对 其 使 
用 的 页 有 高 度 评价 ， 会 调用 1ru_cache_adg_active 直 接 将 页 放置 到 内 存 页 的 活动 链表 上 ”。 
口 mm/swap_state.c 中 的 read_swap_cache_async， 该 函数 从 交换 缓存 读 取 页 。 
口 缺 页 异常 处 理 程序 ”do_fault、do_anonymous_page、do_wp_page 和 do_no_page， 这 些 实 














































































































































































































现在 mm/memory.c 中 。 
不 活动 页 如 何 提升 为 活动 页 是 下 一 节 的 主题 。 这 与 将 页 从 活动 链表 移动 到 惰性 链表 的 操作 直接 相 
关 ， 反 之 亦 然 。 在 可 以 执行 这 些 操 作 之 前 ， 内 核 必 须 将 所 有 页 从 各 CPU LRU 缓 存 传送 到 全 局 的 链表 ; 
否则 ， 移 动 页 的 逻辑 可 能 漏 挥 一 些 页 。 内 核 提 供 的 辅助 函数 lru_ang_qrain 即 用 于 此 目的 。 
最 后 ， 图 18-12 综 述 了 页 在 不 同 链表 之 间 的 移动 。 


lru add pvecs lru adqd active pvecs | 
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shrink_active_list 


Luinac ELve lru_active 





activate_page 


人 __pagevec_lru _ add 





© pagevec_lru adqd active 


(8) SetPageLRU 
(4) SetPageActive 
图 18-12 内 存 页 从 各 CPU LRU 绥 存 到 全 局 LRU 链 表 的 移动 。 为 简化 描述 ， 图 中 只 使 用 了 - 


内 存 域 ， 只 描述 了 该 内 存 域 中 的 全 J 男 外 ， > 
间 移动 页 的 函 数 ， 只 给 出 了 其 中 最 重要 的 一 



















































































Q 本 书 没有 涵盖 NUMA 系 统 的 页 面 迁移 代码 ， 它 也 使 用 了 该 函数 。 
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18.6.3 ”确定 页 的 活动 程度 


为 评估 一 页 的 重要 性 ， 内 核 不 仅 要 跟踪 该 页 是 否 由 一 个 或 多 个 进程 使 用 ,还 需要 跟踪 其 被 访问 的 
频繁 程度 。 因 为 只 有 很 少 的 体系 结构 对 内 存 页 支持 直接 的 访问 计数 器 ， 内 核 必 须 借 助 其 他 手段 ， 因 而 
引入 了 两 个 页 标志 ， 称 为 referenced 和 active。 对 应 的 标志 位 值 分 别 是 PG_referenced 和 
PG_active， 用 于 设置 和 获取 状态 的 宏 已 经 在 3.2.2 节 讨论 过 。 回 想 前 文 ， 例 如 PageReferenced 检 查 
PG_referenced 标 志 位 ， 而 SetPageActive 会 设置 长 















































































































































时 PG_active 标 志 位 。 

为 什么 对 页 状态 使 用 这 两 个 标志 ?假定 只 使 用 一 个 标志 来 确定 页 的 活动 程度 ，PG_active 也 会 工 
作 得 相当 好 。 在 该 页 访问 时 ， 会 设置 相应 标志 ， 但 何 时 将 标志 清除 呢 ? 如 果 内 核 不 自动 清除 该 标志 ， 
该 页 将 一 直 处 于 活动 状态 ， 即 使 使 用 很 少 或 根本 不 再 使 用 ， 也 是 如 此 。 为 在 一 定 的 超时 时 间 之 后 自动 
清除 该 标志 , 将 需要 大 量 的 内 核定 时 器 , 因为 并 非 Linux 文 持 的 所 有 CPU 都 对 此 提供 了 适当 的 硬件 文 持 。 
考虑 到 通常 系统 上 可 能 存在 的 大 量 内 存 页 ， 这 种 (基于 定时 器 的 ) 方法 注定 是 要 失败 的 。 
使 用 两 个 标志 ， 可 以 实现 一 种 更 精巧 的 方法 ， 来 判断 页 的 活动 程度 。 核 心思 想 是 ， 个 标志 表示 
当前 活动 程度 , 而 另 一 个 标志 表示 页 是 否 在 最 近 被 引用 过 。 这 两 个 标志 位 的 设置 需要 密切 协调 .图 18-13 
明了 相应 的 算法 。 基 本 上 需要 执行 以 下 步骤 。 


PageActive = 0 (inactive list) PageActive = 1 (active list) 


irvcachenadd Iru _ cache adq active 
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惰性 链表 





ClearPageActive 


@) OO mark page accessed 
© page_referenced 
(9) shrink active_ list 
(人 activate_page 
图 18-13 ”就 PG_active 和 PG_referenced 标 志 位 而 言 ， 内 存 页 可 能 状态 迁移 的 概述 ， 以 及 
页 如 何 相应 地 放置 到 活动 链表 或 惰性 链表 上 
(1) 如 果 页 被 认为 是 活动 的 ， 则 设置 PG_active 标 志 ; 否则 不 设置 。 该 标志 是 否 设 置 ， 直 接 对 应 
于 页 所 在 的 LRU 链 表 ， 即 (特定 于 内 存 域 的 ) 活动 链表 或 惰性 链表 。 
(2) 每 次 访问 该 页 时 ， 都 设置 PG_referenced 标 志 。 人 负责 该 工作 的 是 mark_page_accessed 子 数 ， 
内 核 必 须 确保 适当 地 调用 该 函数 。 
(3) PG_referenced 标 志 以 及 由 北向 映射 提供 的 信息 用 于 确定 页 的 活动 程度 。 关 键 在 于 ， 每 次 清 
除 PG_referenced 标 志 时 ， 都 会 检测 页 的 活动 程度 。page_referenced 函 数 实现 了 该 行为 。 
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(4) 再 次 进入 mark_page_accessed。 在 它 检 查 内 存 页 时 ， 如 果 发 现 PG_referenced 标 志 位 已 经 设 
置 ， 这 意味 着 page_referenced 没 有 执行 检查 。 因 而 对 mark_page_accessed 的 调用 必定 比 page_ 
referenced 更 频繁 ， 这 意味 着 该 页 经 常 被 访问 。 如 果 该 页 当前 处 于 惰性 链表 上 ， 则 将 其 移动 到 活动 
链表 。 此 外 ， 还 会 设置 PG_active 标 志 位 ， 清 除 PG_referencea 标 志 位 ”。 

(5) 反 向 的 转移 也 是 可 能 的 。 如 果 页 位 于 活动 链表 上 ， 受 到 很 多 关注 ， 那 么 通常 会 设置 PG_ 
referenced 标 志 位 。 在 页 的 活动 减少 时 ， 如 果 要 将 其 转 入 惰性 链表 ， 则 需要 两 次 page_referenced 
调用 ， 而 其 中 不 能 插入 mark_page_accessed 调 用 。 

如 果 对 内 存 页 的 访问 是 稳定 的 ， 那 么 对 mark_page_accessed 和 page_referenced 的 调用 在 本 质 
上 将 是 均衡 的 ， 因 而 该 页 将 保持 在 当前 的 LRU 链 表 上 。 

如 果 一 个 不 经 常 访问 的 页 《因而 是 不 活动 的 ) 的 PG_active 和 PG_referenced 标 志 位 均 未 设置 。 
这 意味 着 ， 接 下 来 需要 两 次 mark_page_accessed 调 用 (其 中 不 能 夹杂 page_referenced 调 用 ), 才能 
将 其 从 惰性 链表 移动 到 活动 链表 。 反 之 亦 然 ， 一 个 高 度 活 动 的 页 ， 同 时 设置 了 PG_active 和 
PG_referenced 标 志 位 ， 也 需要 两 次 page_referenced 调 用 (其 间 不 能 插入 mark_page_accessed 调 
用 ) 才能 从 活动 链表 移动 到 惰性 链表 。 

总 而 言 之 ， 该 解决 方案 确保 了 内 存 页 不 会 在 活动 链表 和 惰性 链表 之 间 过 快 地 跳跃 ， 如 果 出 现 过 快 
的 跳跃 ， 显 然 不 利于 对 页 的 活动 程度 作出 一 个 可 靠 的 判断 。 该 方法 是 本 章 开头 讨论 的 “第 二 次 机 会 ” 
(second chance ) 方法 的 一 种 变 体 : 高 度 活动 的 页 在 转换 为 不 活动 页 之 前 ， 会 获得 第 二 次 机 会 ， 而 高 度 
不 活动 的 页 在 转换 为 活动 页 之 前 ， 也 需要 二 次 证 明 。 这 与 “最 近 最 少 使 用 ”(leastrecently used，LRU ) 
方法 〈 或 至 少 是 LRU 的 近似 ， 因 为 内 存 页 没有 精确 的 使 用 计数 ) 结合 起 来 ， 来 实现 页 面 回收 策略 。 
注意 ， 虽 然 图 18-13 说 明了 最 重要 的 状态 和 链表 迁移 ， 但 还 有 一 些 其 他 的 可 能 性 。 一 方面 ， 这 是 
本 书 所 未 涵盖 的 代码 〔 例 如， 页面 迁移 代码 ) 导致 的 。 另 一 方面 ， 为 处 理 一 些 特 例 ， 例 如 ， 集 中 式 
页 面 回收 (umpy page reclaim) 技术 ， 需 要 做 出 一 些 改动 。 这 些 例外 情况 将 在 本 章 讨论 。 

内 核 提供 了 几 个 辅助 函数 ， 支 持 在 两 个 LRU 链 表 之 间 移 动 页 : 

<mm_inline.h> 


void add page to active list(struct zone *zone, struct page *page) 
void add page to inactive list(struct zone *zone, struct page *page) 
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void del page from active list(struct zone *zone, struct page *page) 
void del page from inactive list(struct zone *zone, struct page *page) 





void del page from lru(struct zone *zone, struct page *page) 

这 些 函 数 的 语义 可 根据 其 名 称 推断 ， 而 其 实现 也 不 过 是 简单 的 链表 操作 。 唯 一 要 注意 的 是 ， 如 果 
调用 者 不 知道 页 当前 所 在 的 LRU 链 表 ， 则 必须 使 用 ael_page_from_lru。 

将 页 从 活动 链表 移动 到 惰性 链表 ， 不 仅仅 需要 处 理 链表 项 。 而 将 不 活动 页 提升 到 活动 链 对 
activate_page 就 足够 了 。 去 掉 锁 定 和 统计 量 的 处 理 ， 代 人 码 如 下 所 示 : 


mm/swap.c 
void fastcall activate_ page(struct page *page) 


{ 
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struct Zone *zone = page_zone (page); 


if (PageLRU(page) && !PageActive(page)) { 
del_ page from inactive list(zone, page); 





G@) 根据 源 代 码 ， 仅 当 PG_referenceq 置 位 的 情况 下 ， 才 清除 该 标志 位 。 一 一 译 者 注 











852 0180 00000000 
SetPageActive (page) 
add_ page_ to active_ list(zone, page); 
} 
} 
这 刚好 实现 了 上 文 讨论 的 迁移 。 


将 页 从 活动 链表 移动 到 惰性 链表 的 处 理 隐 藏 在 
该 函数 所 处 的 上 下 文 更 为 广泛 ， 
page_referencedq。 除 了 按 上 述 方法 处 到 
该 页 的 频繁 程度 。 这 主要 应 用 了 道 向 映射 机 制 。page_referenced 需 要 参数 is_locked， 该 参数 表明 























个 更 大 的 函数 内 部 ， 即 shr 









































EPG_referenced 标 志 位 置 位 ， 该 函数 还 





























所 述 页 是 否 


2 
区 经 








1 调用 者 锁定 。 











mm/rmap.c 
int page referenced(struct page *page, int is_locked) 


{ 


} 


该 函数 总 计 了 最 近 引 
需要 相应 地 计算 进来 。 请 注意 ， 





环 


如 果 该 页 
位 确定 。 回 想 4.8 节 的 内 容 ， 
page_referenced_file 则 用 于 基于 文件 的 映射 中 的 页 。 例 如 ， 在 IA-32 和 AMD 
D 标 志 位 置 位 的 页 表 项 的 数目 ， 该 标志 位 由 硬件 自动 更 新 。 

作 映 射 时 出 现 和 干扰， 例如， 截断 文件 ， 
会 被 锁定 。 请 注意 ， 最 
为 TestSetPageLocked 除 了 将 PG_locked 标 志 位 置 位 之 








于 指向 所 述 页 且 

page_referenced_file 要 求 锁定 该 页 (以 防止 在 内 核 操 
可 能 致使 映射 的 一 部 分 消失 )。 如 果 传 递 到 page_referenced 的 页 未 锁定 ， 贝 
后 一 个 else 分 文 将 对 最 初 未 锁定 的 页 执行 ,， 医 


int referenced = 0; 


if (TestClearPageReferenced (page)) 
referenced++; 

if (page mapped(page) && page->mapping) { 
if (PageAnon (page)) 


它 还 负责 绥 存 的 收缩 ， 在 18.6.6 广 讨论 。 在 内 部 ， 该 函数 依赖 于 


ink active_list, 











A 责 查询 从 页 表 引 用 








referenced += page_ referenced anon(page); 


else if (is_locked) 


referenced += page referenced filel(page); 


else if (TestSetPageLocked (page)) 
referenced++; 

else { 
if (page->mapping) 


referenced += page_ referenced fi 
unlock page (page); 
} 
} 


return referenced; 























用 该 页 的 次 数 。 如 果 PG_referenced 标 志 位 置 位 ， 
按 此 前 讨论 的 说 法 ， 如 果 该 标志 位 



























































的 地 址 空间 中 , 那么 对 该 页 的 引用 必须 
page_referenced_anon 计 算 了 访问 一 个 匿名 映射 








映射 到 某 进 程 






























































工 














_PAGE_ BIT_ ACCESS 
































通过 页 表 中 某 些 特定 于 便 件 的 标志 


le (page); 


这 显然 也 是 一 次 引用 ， 
置 位 ，page_referenced 国 数 将 清 








二 





的 茶 页 的 次 数 ， 而 
64 体 系 结构 上 ， 这 等 
























































外 ， 还 会 返 














ed 









































该 标志 位 的 原 值 。 如 果 此 时 页 已 经 被 内 核 其 他 的 部 分 锁定 ， 那 么 








了 意义 的 。 只 需要 将 引用 计数 器 加 1 即 可 ， 因 
请 注意 ， 如 果 系 统 当前 在 进行 页 交 
referenced 也 会 将 该 页 标记 为 PG_referenced (通过 page_referenced_one,， 


























为 请 求 锁定 页 的 进程 至 少 
换 ， 如 果 内 存 页 属于 持 有 交换 令 牌 




















直 等 得 到 锁 释 放 是 没 











访问 了 该 页 。 


的 特定 进程 ，page_ 

















page_referenced_ 
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file 和 page_referenced_anon 调 用 )， 即 使 该 页 没有 被 访问 。 这 阻止 了 回收 持 有 交换 令 牌 进程 的 页 ， 
在 页 交换 较 多 的 情况 ， 会 增强 所 述 进程 的 性 能 。 该 机 制 的 细节 ， 参 见 18.7 节 。 





























最 后 ， 还 需要 考虑 mark_page_accessed。 其 实现 比较 简单 : 


mm/swap.c 
void fastcall mark page accessed(struct page *page) 


{ 








if (!PageActive(page) && PageReferenced(page) && PageLRU(page)) { 
activate_page (page); 
ClearPageReferenced (page); 
} else if (!PageReferenced(page)) { 
SetPageReferenced (page); 
} 
= 


该 函数 实现 了 如 图 18-13 所 示 的 状态 迁移 。 表 18-1 综 述 了 这 些 状态 迁移 。 
表 18-1 交换 页 状态 







































































初始 状态 目标 状态 
不 活动 的 ， 没 有 被 引用 的 不 活动 的 ， 被 引用 的 
不 活动 的 ， 被 引用 的 活动 的 ， 没 有 被 引用 的 
活动 的 ， 没 有 被 引用 的 活动 的 ， 被 引用 的 






































18.6.4 ”收缩 内 存 域 








内 核 的 其 他 部 分 需要 向 负责 收缩 内 存 域 的 例 程 提供 下 列 信息 。 

口 NUMA 结 点 和 其 中 包含 的 将 要 处 理 的 内 存 域 。 

口 需要 换 出 的 页 数 。 

口 在 放弃 操作 之 前 ， 可 能 检查 (检查 是 否 适合 换 出 〉 的 最 大 页 数 。 

口 对 释放 页 的 请 求 所 指定 的 优先 级 。 这 不 是 传统 的 UNIX 意 义 上 的 进程 优先 级 ， 且 进程 优先 级 在 
核心 态 也 没什么 意义 ， 这 里 所 谓 的 优先 级 只 是 一 个 整数 ， 指 定 了 内 核 需 要 新 内 存 的 急切 程度 。 
例如 ， 当 在 后 台 换 出 页 以 预防 内 存 不 足 时 ， 需 求 的 急切 程度 就 不 如 内 核 直 接 检 测 到 严重 的 内 
存 不 足 时 ， 在 后 一 种 情况 下 ， 内 核 急 需 新 的 内 存 来 执行 或 完成 操作 。 

页 面 选择 开始 于 shrink_zone。 但 在 讨论 其 代码 之 前 ， 还 需要 介绍 一 些 基础 设施 。 

1. 控制 扫描 

一 个 特别 的 数据 结构 保存 了 用 于 控制 扫描 操作 的 参数 。 请 注意 ， 该 结构 不 仅 用 于 从 高 层 函 数 癌 低 





















































































































































































































































层 函 数 传递 指令 ， 而 且 也 用 于 反 向 传递 结果 。 可 以 通知 调用 者 操作 是 和 否 成 功 ; 











mm/vmscan.c 
struct scan control { 


/* 需要 加 上 扫描 过 程 中 确认 的 不 活动 页 的 数目 */ 

unsigned long nr_scanned; 

/* 此 上 下 文 环境 中 使 用 的 GFP 掩 码 */ 
gfp_t gfp _ mask; 

int may_writepage; 

/* 回收 过 程 允许 换 出 页 吗 ? */ 


int may_swap; 















































int swappiness; 





854 0180 00000000 
int all_ unreclaimable; 
int order; 

}; 


下 面 各 成 员 的 变量 名 很 贴切 地 反 曲 
口 nr_scanned 向 调用 者 报告 已 经 扫 
数 之 间 进 行 通信 
口 gfp_mask 指 定 





已 o 














有 了 时候 在 页 面 
约束 当然 必须 转 给 所 有 调 








下 BE 水 本 








] 写 4H 








候 需 要 禁 


口 














了 在 调用 页 下 





了 其 语义 。 














i 回收 



































口 may_swapT 











口 








列表 中 扫描 











口 


可 


五 





前 定 了 页 面 
件 挂 起 〈software suspend) “机 制 
不 进一步 考虑 这 些 可 能 性 。 
上 与 页 交换 无 关 
的 最 小 从 


swap_cluster_max 实 际 
的 内 存 页 数 。 
swappiness 控 制 内 核 换 出 页 的 积极 程度 ， 
vm_swappiness。 后 者 的 标 疹 
该 参数 用 法 的 号 
all_unreclaimable 用 于 报 

















上 到 的 不 活动 页 的 数目 ， 用 于 在 页 再 








加 




















Eg 


























回收 处 理 



































在 执行 页 二 




















目 





设 























学 
目 朝 趾 




















的 范围 





该 信 




















设置 为 60，1 




















更 多 细节 ， 参 见 18.6. 
种 令 人 遗憾 的 情况 ， 即 所 有 内 存 域 中 的 内 存 当 前 都 是 完全 不 
回收 的 。 例 如 ， 在 所 有 页 都 被 mlock 系 统 调用 钉 住 时 ， 就 可 能 发 生 这 种 


到 
口 














内 核 可 





以 主动 按 给 定 的 分 配 阶 来 尝试 回收 一 组 内 存 页 。 


6 市 。 























数 的 上 下 文 环境 下 有 效 的 页 玫 
收 期 间 必须 分 配 新 的 内 存 。 如 果 发 起 页 面 回 收 
的 函数 ， 这 也 恰好 是 设计 使 
口 may_writepage 指 定 了 内 核 是 否 允 许 将 页 写 出 到 后 备 存储 器 。 内 核 运行 了 
操作 ， 这 一 点 在 17.13 节 已 经 讨论 过 。 
过 程 中 是 否 允 许 页 交换 。 只 有 在 两 种 情况 下 会 禁 
回收 ， 或 NUMA 内 存 域 显 式 禁用 了 页 交换 。 本 书 


设置 为 SWAP_CLUSTER_MAX， 
在 0 到 100 之 间 。 












































i 分配 标志 。 这 很 重要 ， 
的 上 下 文 环境 不 允许 睡眠 ， 该 
jgfp_mask 的 目的 。 


收 涉及 的 各 个 内 核 函 








因为 








F 膝 上 模式 时 ， 有 时 














回收 包括 多 个 内 存 页 的 高 阶 分 配 是 比较 复杂 的 ， 特 别 是 在 系统 








段 ， 将 在 下 文 讨论 。 


在 讨论 页 
字段 : 


<mmzone.h> 





struct zone { 


unsigned long 
unsigned long 
unsigned long 


/* 内 存 域 统 


tomic_long, 


总 


} 


内 核 需要 村 
完整 的 链表 不 可 能 





nr_scan inactive 个 链表 元 素 。 


回收 代码 之 前 ， 














- 量 
让 


想 二 下 3: 





order 表 示 分 配 阶 ， 即 


已 经 








情况 。 





目 页 交换: 软 


它 是 一 个 阔 值 , 表示 一 次 页 面 回 收 步骤 中 , 在 各 CPU 
该 宏 默 认定 义 为 32。 

默认 情况 下 ， 将 使 用 
日 可 以 通过 /proc/sys/vm/swappiness 调 整 。 有 关 


























HE 











2.2 节 介绍 的 struct zone， 典 


nr_scan active; 
nr_scan inactive; 
pages_scanned; 


eh 
vm_stat [NR_VM ZONE_STAT_ ITEMS]; 





描 活动 列表 和 惰 怕 























遍 扫 




















@ 大 体 上 相当 于 Windows 的 休眠 ， 将 
































-~ 





中 包含 了 好 些 将 在 下 文 





E 列 表 来 查找 可 以 在 二 者 之 间 移 动 的 页 ， 或 从 惰性 列表 


女 





收 2eraee 个 连 








局 动 并 运行 了 一 段 时 间 之 
后 。 内 核 使 用 00 口 口 0O (umpy reclaim) 技术 来 尽 可 能 满足 这 样 的 请 求 ， 这 完全 是 一 种 





有 议 脏 手 











到 的 











可 收 的 页 。 但 

















性 链表 上 的 




















目 是 从 链 





尾部 


描 完 成 ， 每 次 只 能 扫描 活动 链表 上 的 nr_scan_active 个 和 惰 ' 
1 于 内 核 使 用 了 LRU 方 案 ， 这 个 数 
J 存 写 到 交换 分 区 。 一 一 译 者 注 


台 计算 的 。 
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pages_scanned 记 录 的 是 前 一 遍 回 收 时 扫描 的 页 数 ， 而 vm_stat 提 供 了 关于 当前 内 存 域 的 统计 信息 ， 
例如 当前 活动 和 不 活动 页 的 数目 。 回 想 前 文 ， 可 知 用 于 统计 的 成 员 vm_stat 可 以 用 辅助 函数 
zone_page_state 访 问 。 

2. 实现 
在 介绍 了 所 需 的 辅助 数据 结构 之 后 ， 我 们 来 讨论 如 何 发 起 缩减 内 存 域 的 操作 。shrink_zone 需 要 
一 个 scan_control 实 例 作为 参数 。 该 实例 必须 由 调用 者 填充 适当 的 值 。 最 初 ， 该 函数 需要 确定 要 扫 
的 活动 和 不 活动 页 的 数目 ， 这 可 以 根据 所 处 理 内 存 域 的 当前 状态 以 及 传递 进来 的 scan_control 实 
例 确 定 : 


mm/vmscan.c 
static unsigned long shrink zone(int priority, struct zone *zone, 
struct scan_ control *sc) 


{ 












































本 







































































unsigned long nr_active; 
unsigned long nr_inactive; 
unsigned long nr_to_ scan; 
unsigned long nr_reclaimed = 0; 


/* 
* 向 'nr_to_scan' 加 1， 只 是 为 确保 内 核 的 处 理 过 程 将 逐渐 通过 活动 链表 。 
二 


Zone->nr_scan_active += 

(zone_page_state(zone，NR_ACTIVE) >> priority) + 1; 
nr_active = zone->nr_scan active; 
if (nr_active >= sc->swap_cluster max) 

Zone->nr_scan active = 0; 





else 
nr_active = 0; 


Zone->nr_scan_ inactive += 

(zone_page_ state(zone, NR_INACTIVE) >> priority) + 1; 
nr_inactive = zone->nr_scan inactive; 
if (nr_ inactive >= sc->swap_cluster _ max) 

Zone->nr_scan inactive = 0; 





else 
nr_inactive = 0; 


每 次 调用 shrink_zone 时 ， 将 扫描 的 活动 和 不 活动 页 的 数目 ， 即 nr_scan active 和 nr_scan_ 
inactive， 需 要 分 别 加 上 内 存 域 中 当前 活动 和 不 活动 页 的 数目 右 移 priority 位 《再 加 1)， 所 加 的 数 
值 约 等 于 内 存 域 中 当前 活动 /不 活动 页 数 整 除 以 2™~* 的 商 。 之 所 以 每 次 都 加 1， 是 要 确保 每 次 都 至 少 会 
加 1， 即 使 在 很 长 时 间 里 移 位 操作 的 结果 都 是 0; 在 某 些 系 统 负荷 下 ,， 这 是 可 能 发 生 的 。 在 这 种 情况 下 ， 
加 1 也 确保 了 迟早 会 填充 惰性 链表 或 收缩 缓存 。 
如 果 加 法 操作 之 后 ， 有 某 个 值 大 于 等 于 当前 交换 区 中 一 个 聚集 可 容纳 的 最 大 页 数 ， 则 将 对 应 的 
zone 成 员 设 置 为 0， 而 局 部 变量 局 部 变量 nr_active 或 nr_inactive 的 值 保持 不 变 ， 和 否则 ，zone 成 员 






















































































































































































的 值 不 变 ， 而 局 部 变量 设置 为 0。 18 
这 种 行为 确保 : 除非 即将 扫描 的 活动 和 不 活动 页 的 数目 大 于 sc->swap_cluster_max 指 定 的 阔 
值 ， 和 否则 内 核 不 会 开始 进一步 的 操作 ， 如 该 函数 的 下 一 部 分 所 示 ; 
mm/vmscan.c 
while (nr_active || nr_inactive) { 


IE (nr_active) { 
sc->nr_to_scan = min(nr_active, 














856 


D180 UOUUOUUDOUDO 





} 
除 


nr_active/nr_inactive 分 别 来 判断 是 否 扫 


} 


} 


if 


(unsigned long)sc->swap_cluster max); 


nr_active -= sc->nr_to_scan; 
shrink active_ list(nr_ to_ scan, 


zone, sc, 





(nr_inactive) { 


sc->nr_to_scan = min(nr_inactive, 
(unsigned long)sc->swap_cluster max); 
nr_inactive -= sc->nr_to_scan; 
nr_reclaimed += shrink inactive_ list(nr to_scan, 


return nr_reclaimed; 


非 对 内 存 域 中 








口 





在 


在 shrink_active_list 和 shrink_inactive_list 中 缩减 LRU 链 表 时 ， 


























MA 中 




















相应 成 员 的 设置 超 晶 





















































选择 页 





18.6.5 隔 


内 


lru lock 





， 上 基 








而 








存 








而 言 ， 页 面 回 收 代码 都 属 了 








要 尽 可 


能 在 锁 的 外 部 工作 。 


化 是 这 样 : 将 shrink_active_lList 和 shrink_inactive_1ist 











种 


















































在 讨论 这 两 个 函数 之 前 ， 必 须 9 
离 LRU 页 和 集中 回收 


域 中 ， 保 存在 链表 上 的 活动 和 不 活动 页 都 需要 
。 为 简化 讨论 ， 我 们 一 直 忽 
在 需要 考虑 它 。 在 操作 LRU 链 表 让 


















































内 存 域 








rs 到 一 个 局 部 链 
再 出 现 于 外 


问 它 们 ， 这 些 页 不 会 受 


isolate_] 
末尾 开始 (这 一 点 和 
一 页 ， 将 其 移动 到 局 部 链表 





< i, 








E 何 全 局 的 内 存 声 











中 的 自 旋 锁 了 。 





lIru pages 
民 重 要 ， 








大 




















到 


在 已 经 不 在 LRU 链 表 | 














上 了 中 








前 为 止 ， 我 














GD 出 


统 中 ， 


外 ， 








该 函数 还 需要 获得 该 页 的 ， 
这 在 3.5 节 讨论 过 。 但 是 ， 并 发 性 允许 引 


最 热 、 最 村 


门 讨论 的 是 最 





函数 负责 从 活动 链表 或 惰 
为 LRU 算 法 中 必须 先 扫 
， 直 至 所 需 页 数 达到 为 止 。 需 要 为 每 一 页 清除 PG_1ru 标 志 位 ， 


简单 


咯 了 这 个 锁 ， 
， 需 要 锁定 链表 ， 这 会 出 


要 的 代码 路 径 之 一 ， 


的 情 








"| 








和 














种 页 之 后 ， 局 部 计数 器 变量 归 0 时 ， 循 环 结束 。 
需要 一 种 方法 从 链表 中 


而 廊 


函数 。 





E 引 入 一 个 执行 选择 页 工作 的 畏 

















出 

















二 














因为 就 我 














门 的 目的 T 








DELoOrity).s 


sc); 























Zone, 





i 阐 值 ， 否 则 循环 是 不 会 执行 的 。 在 循环 中 ， 内 核 根 据 
描 活 动 页 /不 活动 页 。 


如 果 扫 描 活动 页 , 内 核 将 使 用 shrink_active_1list 将 页 从 活动 链表 移动 到 惰性 链表 ,很 自然 ， 
移动 的 是 使 用 最 少 的 活动 页 。 
口 不 活动 页 可 以 通过 shrink_inactive_1ist 直 接 从 缓存 移 除 ,该 函数 试图 从 惰性 链表 回收 所 需 
数目 的 页 。 返 回 值 是 实际 上 成 功 回收 的 页 数 。 
已 经 扫描 了 足够 数目 的 


自 旋 锁 保 护 ， 确 切 地 说 是 zone-> 


言 ， 它 不 是 本 质 性 的 。 不 过 现 


岗 一 个 问题 : 在 内 核 中 ， 对 很 多 工作 负荷 











因而 锁 竞 争 的 几率 村 


将 要 分 析 





日 当 高 。 





因此 ， 内 核 需 


的 所 有 页 都 放 











放弃 对 全 局 LRU 链 表 的 锁 ， 然 后 继续 在 局 部 链 里 
相关 链表 上 ， 所 以 除了 当前 执行 函数 之 外 ， 内 核 的 人 





到 对 内 存 域 LRU 链 表 后 续 操 作 的 影响 。 












































保 该 页 此 前 的 引 


























人 链表 选择 给 定数 目 人 
i 最 陈旧 的 页 )， 通 


。 但 实际 的 情况 会 稍微 复杂 




















上 处 理 


这 些 页 。 





大 



































因而 在 处 型 














一 些 








为 这 些 页 不 
E 何 其 他 部 分 都 不 能 访 
E 局 部 链表 时 ， 也 不 需要 获取 


的 页 。 这 并 不 很 困难 : 从 链表 


过 循环 志 历 链表 ， 每 步 获 取 











大 











因 























计数 为 0。 通 常 ， 引 











计数 为 零 的 页 位 于 











计数 为 0 的 页 在 LRU 链 表 上 存在 比较 短 的 一 段 时 间 。 


上 伏 介 





为 该 页 现 


为 isolate_lru_ 





系 
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pages 也 实现 了 所 谓 的 0D DUOUD 算法 。 集 中 回收 的 目的 是 什么 呢 ? 高 阶 分 配 需要 一 段 由 多 个 页 组 成 的 
连续 物理 内 存 ， 这 种 分 配 请 求 很 难 满足 ， 请 求 的 页 数 越 多 ， 面 临 的 问题 就 越 困 难 。 系 统 运行 一 段 时 间 
以 后 ， 物 理 内 存 会 变 得 越 来 越 支 离 破 碎 。 这 个 问题 如 何 解决 昵 ?图 18-14 说 明了 内 核 采 取 的 方法 。” 













































































[ struct page 





LR RR RR 













LRU 链 表 














15 
物理 页 帧 
图 18-14 ”集中 回收 技术 帮助 内 核 回收 较 大 的 连续 的 物理 内 存 区 域 

















假定 内 核 需 要 连续 的 4 个 页 帧 。 遗 憾 的 是 ， 可 分 配 的 页 帧 所 属 的 页 当前 在 LRU 链 表 上 ， 这 些 页 散 
布 在 内 存 中 ， 最 大 的 连续 区 域 是 两 页 。 为 避免 这 种 情况 ， 集 中 回收 只 是 从 LRU 链 表 上 某 个 页 〈 称 为 口 
口 口 ，tagpage) 对 应 的 页 帧 前 后 来 获取 页 帧 。 不 仅 标记 页 本 身 ， 还 有 与 该 页 相 邻 的 页 帧 ， 都 会 被 选中 
进行 回收 。 这 样 ， 就 可 以 试图 释放 4 个 连续 的 页 帧 了 。 但 这 并 不 能 保证 分 配 一 个 有 4 个 空闲 页 的 内 存 块 ， 
因为 选中 的 页 帧 很 可 能 是 无 法 回收 的 。 但 我 们 确实 进行 了 尝试 ， 而 且 在 使 用 集中 回收 的 情况 下 ， 与 不 
使 用 该 技术 对 比 ， 回 收 到 连续 的 高 阶 内 存 区 域 的 几率 大 大 增加 。 
很 自然 ,实际 上 会 有 一 些 复杂 性 存在 ,但 这 些 最 好 直接 通过 源 代码 来 讨论 。isolate_1lru_pages 
的 第 一 部 分 并 不 是 很 有 趣 。 如 上 所 述 ， 从 所 述 LRU 链 表 隔 离 出 一 页 。 

mm/vmscan.c 

static unsigned long isolate lru pages (unsigned long nr_to_ scan, 


struct list_ head *src, struct list_ head *dst, 
unsigned long *scanned, int order, int mode) 

























































































































































































unsigned long nr _ taken = 0; 
unsigned long scan; 


for (scan = 0; scan < nr_to_ scan && !list empty(src); scan++) { 
struct page *page; 
unsigned long pfn; 
unsigned long end pfn; 
unsigned long page pfn; 
int zone_id; 


/* 隔离 一 个 LRU 页 */ 18 


if (!order) 
continue; 


















































Q 虽然 集中 回收 不 是 计算 机 科学 乐于 讲授 的 内 容 ， 但 它 在 实际 工作 中 表现 良好 ， 特 别 是 非常 简单 ， 与 在 纸 上 的 良好 
效果 相 比 ， 有 了 时候 对 内 核 来 说 要 重要 得 多 。 













































































858 D0180 0O0000000 
for 循 环 会 一 直 迭 代 下 去 ， 直 至 已 经 扫描 的 页 数 达 到 要 求 为 止 。 如 果 order 没 有 给 出 想 要 的 分 配 
阶 ， 那 么 每 次 循环 在 从 LRU 链 表 隔 离 出 一 页 之 后 ， 都 继续 跳 转 到 下 一 次 循环 。 
但 对 集中 页 面 回收 来 说 ， 还 需要 完成 更 多 的 工作 。 回 想 前 文 ，page_to_pfn 和 pfn_to_page 人 允许 
在 struct page 实 例 和 对 应 页 帧 号 之 间 转 换 ， 反 之 亦 然 : 








mm/vmscan.c 
zone_id 
page_pfn 
pfn = page pfn & 
end_pfn pfn + 
fo “(3 


| 
【到 过 


struct page 























page_zone_ 
page_to_pfn(page); 


pfn < end_ pfn; 





id(page); 


1 << order) 
< order); 

pfn++) { 
*cursor_page; 


2 









































































































































于 伙伴 系统 希望 将 较 高 的 分 配 阶 按 阶 对 齐 ， 内 核 将 计算 当前 标记 页 对 应 页 帧 所 落 入 的 页 帧 区 
间 。 考 虑 例子 的 情形 ， 即 标记 页 的 页 帧 编号 为 6。 对 二 阶 分 配 来 说 ， 按 分 配 阶 对 齐 的 页 帧 区 间 是 [0, 3]、 
[4, 7]、 [8, 11] 等 。 因而 内 核 需要 扫 页 帧 4 到 7 ( 含 边界 值 ): 
mm/vmscan.c 
/* 目标 页 已 经 在 块 中 ， 忽 略 。*/ 
If (unlikely (pfn == page_ pfn)) 
continue; 
/* 避免 内 存 域内 部 的 空洞 。*/ 
福 堪 (nT El (DE ald itheny yy 
break; 
Cursor_page = pfn to _ page (pfn); 
/* 检查 没有 碰 到 内 存 域 的 边界 。*/ 
IE (unlikely (page_ zone_ id(cursor page) != zone_ id)) 
continue; 
Switch (__ isolate_ lru page(cursor page, mode)) { 
case 0: 
list move(&cursor page->lru, dst); 
nr_taken++; 
scant+; 
break; 
default: 
break; 
} 
} 
*scanned = scan; 
return nr_taken; 
} 
内 核 必 须 忽略 目标 页 〈 即 标记 页 )， 它 已 经 包含 在 所 选择 的 页 中 。 如 果 计 算出 的 页 帧 区 间 跨 越 了 
内 存 域 边 界 ， 必 须 放弃 处 理 ， 因 为 混合 分 配 《〈 例 如 ， 混 合 分 配 DMA 内 存 和 普通 内 存 ) 是 不 允许 的 。 
请 注意 ，_ isolate_lru_page 有 一 个 额外 的 参数 ， 可 用 于 控制 组 成 新 的 聚集 的 页 的 活动 状态 。 
有 3 个 可 能 的 选择 : 











mm/vmscan.c 























#define ISOLATE INACTIVE 0 /* 隔离 不 活动 页 。*/ 

#define ISOLRATE ACTIVE 1 /* 隔离 活动 页 。*/ 

#define ISOLATE BOTH 2 /* 活动 和 不 活动 页 都 隔离 。* / 

注释 把 语义 讲 得 很 清楚 ，__isolate_lru_pages 可 以 只 隔离 活动 /不 活动 状态 的 页 ， 也 可 以 两 种 











活动 状态 的 页 都 隔离 。 由 于 这 些 页 是 通 





可 能 He 生 。 但 要 注 





意 ， 不 在 任何 LRU 链 表 上 的 未 使 
































用 页 是 不 能 





过 其 页 帧 号 直接 选择 的 ， 而 不 是 通过 LRU 链 表 ， 各 种 可 能 
接受 的 ， 所 处 理 


可 





用 人 十 都 
的 页 必须 设置 了 PG _lru 
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标志 。 否 则 ， ”lru isolate page 将 返回 错误 码 -EINVAL。 这 种 情况 在 case 的 default 分 支 处 理 ， 此 时 可 以 


放弃 页 面 选 择 


18.6.6 ”收缩 活动 页 链表 


将 页 从 活动 链表 移动 到 惰性 链表 是 页 面 回 收 的 策略 算法 实现 中 的 关键 操作 之 一 , 因为 此 时 需要 评 
估 系 统 中 (或 更 确切 地 说 , 是 在 所 述 内 存 域 中 ) 各 个 页 的 重要 性 。 因此, 不 出 意料 , refill_inactive_ 

















zone 是 内 核 中 





( 使 用 isolate ”1ru_pages 将 所 需 数 日 (由 nr_pages 定 义 ) 的 页 从 活动 链表 复制 到 一 个 局 部 


的 临时 链表 。 

















， 由 于 出 现 的 空洞 ， 导 致 内 核 不 能 期 望 有 更 大 的 连续 页 帧 区 间 可 用 。 













































































较 长 的 函数 之 一 。 它 执行 的 主要 步骤 如 下 。 









































(2) 根据 这 些 页 的 活动 程度 ， 将 其 分 配 到 活动 链表 和 惰性 链表 。 
G) 集中 释放 不 重要 的 页 。 
图 18-15 给 出 了 refi1ll_inactive_zone 的 第 一 个 步 又 的 代码 流程 图 。 








首先 ， 内 

















refill_ inactive zone 
Tneunadd ena 


isolate_ lru pages 















计算 页 交换 参数 





图 18-15” ”refill inactive_zone (第 1 部 分 ) 的 代码 流程 图 


核 计 算 几 个 参数 ， 来 定义 页 面 回收 算法 的 积极 程度 和 行为 。 其 中 分 析 了 一 些 统计 数据 ; 





























mm/vmscan.c 


distress = 100 >> min(zone->prev_ priority, priority); 

mapped_ratio = ((global page_ state(NR_ FILE MAPPED) + 
global_page_state(NR ANON_ PAGES)) * 100) / 
vm_total_pages; 

mapped _ ratio = (sc->nr mapped * 100) / total memory; 

swap_tendency = mapped ratio / 2 + distress + sc->swappiness; 


imbalance = zone page_ state(zone, NR_ ACTIVE); 
imbalance /= zone page_ state(zone, NR_ INACTIVE) + 1; 
imbalance *= (vm swappiness + 1); 

imbalance /= 100; 

imbalance *= mapped ratio; 

imbalance /= 100; 


swap_tendency += imbalance; 
If (swap_tendency >= 100) 
reclaim mapped = 1; 








其 中 计算 


了 4 个 值 ， 其 语义 如 下 : “ 




















I 
I 


口 distress 是 关键 的 标志 ， 表 示 内 核 需 要 新 内 存 的 急切 程度 。 该 值 是 将 固定 值 100 右 移 prev_ 
































G) 这 里 的 各 个 公式 是 通过 启发 式 方法 得 出 的 ， 目 的 是 保证 在 不 同情 况 下 系统 能 具备 良好 的 性 能 。 
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000 








priority 位 计算 而 来 。”prev_priority 指 定 了 上 一 次 try_to_free_pages 运 行 期 间 扫 描 内 
存 域 的 优先 级 。 请 注意 ，prev_priority 的 值 越 低 ， 相 应 的 优先 级 越 高 。 移 位 操作 生产 以 下 
distress 值 ， 对 应 的 优先 级 如 下 所 示 。 






































priority distress 

gh 0 

6 1 

5 3 

4 6 

3 12 

2 24 

1 50 

0 100 











所 有 大 于 7 的 优先 级 数值 都 对 应 aistress 0。distress 为 0 表示 内 核 基 本 上 不 需要 新 内 存 ， 而 











100 表 示 内 核 有 很 大 的 麻烦 ， 和 急需 新 内 存 。 




















口 mapped_ratio 表 示 总 的 可 











用 内 存 中 已 申 























射 内 存 页 〈 不 仅 用 于 缓存 数据 ， 而 且 由 进程 明确 地 请 



































求 用 于 存储 数据 ) 的 比例 。 该 比例 是 通过 将 当前 映射 页 数目 除 以 系统 启动 时 可 用 内 存 页 的 总 








数 计算 出 来 的 。 然 后 将 结果 























乘 以 100， 放 大 为 百分比 值 。 





口 mappedq_ratio 只 用 于 计算 另 一 个 值 ， 称 作 swapb_tenaqency。 顾 名 思 义 ， 它 表示 系统 的 页 交换 

















趋势 。 到 此 ， 读 者 已 经 熟悉 了 前 
基于 /proc/sys /vm/swappiness 中 的 设置 。 














个 变量 的 计算 。sc_swappiness 是 男 一 个 内 核 参数 ， 通 常 























口 如 果 活 动 链 表 和 惰性 链表 的 长 度 之 间 存 在 较 大 的 不 平衡 ， 内 核 将 允许 更 容易 地 进行 页 交换 和 
页 面 回收 ， 以 便 平 衡 二 者 的 长 度 。 但 内 核 也 做 了 一 些 工 作 ， 以 便 在 swappiness 值 较 低 时 ， 避 
免 两 个 链表 的 长 度 差距 造成 太 大 的 影响 。 









































口 内 核 现在 将 所 有 计算 出 的 信息 ! 












































日 结 为 一 个 布尔 值 ， 来 回答 下 述 问 题 : 是 否 需 要 
如 果 swap_tendency 大 于 或 等 于 100， 将 会 换 出 映射 页 ， 而 reclaim _mapped 设 置 为 1!。 否 则 该 
变量 保持 其 默认 值 0， 因 而 只 从 页 缓存 回收 页 。 
因为 会 将 vm_swappiness 加 到 swap_tendency, 管理 员 可 以 在 任何 时 间 启 用 映射 页 的 换 出 , 只 





























换 出 映射 页 ? 

































































需要 将 vm_swappiness 指 定 为 100， 就 无 须 考 虑 其 他 系统 参数 的 设置 。 
在 参数 计算 之 后 将 调用 lru_agg_grain 过 程 , 该 函数 将 当前 保存 在 LRU 绥 存 中 的 数据 分 配 到 系统 
的 LRU 链 表 。 与 18.6.2 节 我 们 接触 到 的 1lru_cache_aqq 相 反 ，1lru_aqq_qrain 在 LRU 缓 存 至少 包 含 一 
个 元 素 即 执行 复制 操作 ， 不 会 等 到 LRU 绥 存 满 。 
最 终 ，shrink_active_1ist 的 任务 是 将 内 存 域 的 活动 链表 中 特定 数目 的 页 ， 转 移 到 惰性 链表 或 
























































移 回 活动 链表 。 其 中 创建 了 3 个 局 部 链表 ， 用 于 





























缓冲 page 实 例 ， 以 便 进行 扫描 。 








些 页 在 扫描 之 后 才能 确定 其 归宿 。 














口 1_active 和 1_inactive 分 别 保存 在 函数 结束 时 将 放 回 内 存 域 的 活动 链表 或 惰性 链表 的 页 。 
口 1_hold 保 存 仍然 有 待 扫描 的 页 ， 这 






































该 任务 委托 给 上 文 讨论 的 ijsolate_lru_pages 进 行 。 回想 前 文 , 该 函数 从 LRU 链 表 的 尾部 开始 读 




















取 数 据 ， 
键 点 。 活 动 链表 上 很 少 使 用 的 页 将 


广 























Q@ 实际 上 右 移 的 位 数 是 zone->prev_priority 和 priority 中 的 较 小 者 。 一 一 译 者 注 


日 在 临时 链表 上 按 相 反 的 方向 来 组 

















织 读 取 到 的 页 。 这 在 实现 页 面 蔡 换 的 LRU 算 法 时 是 一 个 关 





























自动 地 向 后 移动 。 因 而 ， 内 核 很 容易 扫描 到 最 少 使 用 的 页 ， 它 们 位 




















18.6 0U000 861 








于 1_hold 链 表 的 起 始 处 。 
在 参数 计算 完毕 后 ， 将 开始 refill inactive_1list 的 第 二 部 分 。 这 一 部 分 会 将 各 个 页 分 配 到 
1_active 和 1_inactive 链 表 ”。 这 里 不 使 用 代码 流程 图 进行 说 明 ， 而 是 复制 了 相关 的 代码 进行 讨论 : 


mm/vmscan.c 























while (!list empty(&l1 hold)) { 
cond_resched (); 
page = lru to page(&l1 hold); 
list_del(&page->lru); 
if (page mapped(page)) { 
if (!reclaim mapped || 
(total_swap_pages == 0 && PageAnon(page)) || 
page_referenced(page, 0)) { 
list add(&page->lru, &l1_active); 
continue; 
} 
} 
list_ add(&page->lru, &]1 inactive); 


} 














代码 变 得 更 加 复杂 了 ， 因 为 我 们 在 逐渐 接近 页 面 回收 机 制 的 核心 。 基 本 的 操作 由 一 个 循环 表示 ， 
它 遍 历 1_holdq 链 表 的 所 有 链表 元 素 ,在 refil1_inactive_list 的 前 一 部 分 ，1_hold 链 表 已 经 填充 了 
一 些 被 认为 活动 的 页 。 这 些 页 现在 必须 重新 分 类 ， 并 分 别 放置 到 1]_active 和 1_inactive 链 表 上 。 

page_mapped 首先 检查 该 页 是 否 风 入 到 了 某 个 进程 的 页 表 中 。 使 用 逆向 映射 数据 结构 很 容易 完 
成 该 任务 。 回 想 第 4 章 的 内 容 ， 有 关 页 是 否 映射 在 页 表 中 的 信息 保存 在 各 个 page 实 例 的 _mapcount 成 
员 中 。 如 果 页 由 一 个 进程 映射 ， 该 计数 器 值 为 0， 未 映射 的 页 ， 其 值 为 -1。 逻 辑 上 ，page_mapped 必 
须 























































































































如 果 没 有 映射 ， 则 立即 将 该 页 放置 到 惰性 链表 上 。 
如 果 page_mapped 返 回 一 个 非 0 值 表示 该 页 关联 到 至 少 一 个 进程 ， 那 么 需要 判断 该 页 对 系统 是 否 
重要 ， 这 稍微 有 些 困难 。 如 果 要 将 该 页 放 回 活动 链表 ， 必 须 满足 下 列 3 个 条 件 之 一 。 
(1) 在 4.8.3 节 讨论 过 ， 道 向 映射 机 制 提供 了 page_referenced 函 数 ， 可 以 检查 (在 上 一 次 检查 以 
来 ) 使 用 某 一 页 的 进程 的 数目 。 这 是 根据 各 个 页 表 项 中 保存 的 对 应 硬件 状态 位 来 确定 的 。 尽 管 该 函数 
返回 了 进程 的 数目 ， 但 上 只 需要 知道 是 否 至 少 有 一 个 进程 访问 了 该 页 即 可 ， 即 返回 值 是 否 大 于 0。 如 果 
是 这 样 ， 本 条 件 就 满足 了 。 

(2) reclaim_mapped 等 于 0, 即 不 回收 映射 页 。 

(3) 系统 没有 交换 区 ， 而 且 刚 刚 检 查 的 页 注册 为 匿名 页 (在 这 种 情况 下 ， 该 内 存 页 没有 地 方 可 换 



























































































































































































































































出 )。 

















18.6.3 节 讨论 了 对 page_referenceq 的 调用 以 及 此 后 将 页 移动 到 惰性 链表 的 操作 是 如 何 融入 到 判 
断 活 动 或 不 活动 页 的 整体 图 景 中 的 。 
在 将 所 有 来 自 内 存 域 活动 链表 的 页 重新 分 配 到 暂时 的 局 部 链表 1]_active 和 1_inactive 之 后 ， 内 
核 进入 到 refil1l_inactive_zone 第 三 阶段 (最 后 一 部 分 )。 这 里 也 不 需要 一 个 单独 的 代码 流程 图 。 

最 后 一 步 不 仅 需要 将 临时 链表 中 的 数据 复制 到 所 处 理 的 内 存 域 中 对 应 的 LRU 链 表 , 还 需要 检查 是 
否 有 不 再 使 用 (即使 用 计数 器 为 0) 的 页 ， 这 些 可 以 返回 到 伙伴 系统 。 
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Q 原文 有 误 ， 这 两 个 链表 是 局 部 变量 ， 不 是 内 存 域 的 成 员 。 一 一 译 者 注 





862 00180 00000000 























为 此 ， 内 核 顺 次 遍历 1_active 和 1_inactive 局 部 链表 中 的 所 有 页 。 它 按 同样 的 方式 来 处 理 所 有 


的 页 ， 如 下 所 述 。 





口 取 自 局 部 链表 1_active 或 1 














_inactive 的 页 ， 分 别 添加 到 内 存 域 相关 的 活动 链表 或 惰性 链表 。 
































口 page 实例 添加 到 一 个 页 向 量 。 
首先 将 各 个 page 实 例 的 使 用 计数 器 减 1， 如 果 计 数 器 为 0， 则 将 相应 的 页 帧 返还 伙伴 系统 。 
内 核 在 将 处 理 过 的 页 放置 在 内 存 域 相关 的 LRU 链 表 上 之 后 , 只 需要 更 新 几 个 与 内 存 管 理 相 关 的 统 























计量 。 





18.6.7 ”回收 不 活动 页 

到 目前 为 止 , 内 存 域 中 的 页 已 经 在 LRU 链 表 上 进行 重新 分 配 ， 以 找到 适合 回收 的 候选 页 。 但 其 内 
存 空间 尚未 释放 。 释放 内 存 的 最 终 步 又 由 shrink_inactive_1ist 和 shrink_page_1list 消 数 执行 ,二 
者 彼此 协作 来 执行 该 任务 。shrink_inactive_lists 将 zone->inactive_list 中 的 页 群集 为 块 ， 这 









































看 到 。 











除了 页 的 链表 以 及 通常 的 收缩 
作 模 式 的 选择 : PAGEOUT 
况 下 ， 写 请 求 传递 给 块 层 后 不 需要 进 





操作 完成 。 
1. 收缩 惰性 链表 
































有 利于 交换 聚集 ， 而 shrink_page_1l1ist 将 结果 链表 上 的 成 员 向 下 传递 并 将 页 发 送 给 相关 的 后 备 存储 
器 〈 这 意味 着 页 被 同步 、 换 出 或 丢弃 )。 但 这 个 看 起 来 很 简单 的 任务 会 导致 几 个 问题 ， 读 者 在 下 面 会 





空 和 














在 页 向 量 填 满 时 ， 对 页 向 量 调用 _pagevec_release， 该 函数 















































出 






















































































央 参 数 ，shrink_page_1ist 还 需要 另 一 个 参数 ， 以 控制 两 种 运 











IO_AsYNC 指 定 异 步 写 出 ， 而 PaAcEoUT_IO_SsYNc 指 定 同 步 写 出 。 在 第 一 种 情 


























所 示 。 





， 直 至 回收 了 






































的 页 ， 或 达 


里 页 的 最 大 
数目 限制 





步 的 工作 ， 在 第 二 种 情况 下 ， 内 核发 出 写 请 求 之 后 需要 等 待 写 








因为 shrink_inactive_1list 只 人 负责 从 zone->inactive_list 逐 块 移 除 页 ， 其 实现 不 是 特别 复 
杂 ， 如 图 18-16 的 代码 流程 图 


lru add drain 


isolate_lru pages 















shrink page_ list 

















处 理 直 接 回收 ” | 








将 不 可 释放 的 页 放 回 
LRU 链 表 























返还 回收 页 的 数 | 


























图 18-16 ”shrink_cache 的 代码 流程 图 





第 一 步 是 调用 我 们 熟悉 的 1ru_agg_qrain 函 数 , 将 LRU 组 存 当 前 的 内 容 分 配 到 各 个 内 存 域 的 活动 











链表 或 惰性 链表 。 为 涵盖 当前 系统 








PP 使 用 的 不 活动 页 ， 该 操作 是 必要 的 。 








接 下 来 重复 执行 一 个 循环 ， 直 至 扫描 页 的 数目 达到 了 最 大 允许 值 ， 或 已 经 回 写 了 所 需 数目 的 页 。 








这 两 个 值 都 以 参数 的 形式 传递 到 该 过 程 。 



































循环 内 部 将 调用 18.6.5 节 讨论 的 ijsolate_1lru_pages 函 数 ， 从 惰性 链表 的 尾部 删除 一 组 内 存 页 ， 
这 样 将 优先 换 出 了 最 不 活动 的 页 。 本 质 上 ， 内 核 会 将 删除 页 的 结果 链表 传递 给 shrink_page_l1ist， 








18.6 0UU000 803 

















该 函数 将 发 起 对 链表 中 的 页 的 回 写 操作 。 但 对 集中 回 写 来 说 ， 情 况 有 点 复杂 ; 

mm/vmscan.c 
nr_taken = isolate_ lru _ pages (sc->swap_cluster max, 

&zone->inactive_ list, 

&page_list, &nr_ scan, sc->order, 

(sc->order > PAGE ALLOC COSTLY_ ORDER)? 

ISOLATE BOTH : ISOLATE INACTIVE); 

nr_active = clear active flags (&page_ list); 

















/* 处 理 页 的 统计 信息 */ 





1 = shrink page_ list(&page list, sc, PAGEOUT_ IO_ASYNC); 

回想 前 文 ， 如 果 使 用 了 集中 回收 ，isolate_lru_pages 也 会 选取 与 链表 上 的 页 相 邻 的 页 帧 。 如 果 
导致 进行 当前 页 回收 操作 的 请 求 , 其 分 配 阶 比 PAGE_ALLOC_COSTLY_ORDER 指 定 的 阐 值 要 大 , 那么 内 核 
将 允许 集中 回收 同时 使 用 标记 页 相 邻 的 活动 和 不 活动 页 。 对 较 小 的 分 配 阶 ， 可 能 只 使 用 不 活动 页 。 这 
种 做 法 背后 的 原因 是 这 样 : 如 果 内 核 仅 限于 不 活动 页 ， 较 大 型 的 分 配 通常 无 法 满足 ， 对 繁忙 的 内 核 来 
说 , 较 大 的 连续 物理 内 存 区 间 中 包含 活动 页 的 可 能 性 是 非常 高 的 。 PAGE_ALLOC_COSTLY_ORDER 默 认 设 
9 为 3， 这 意味 着 内 核 认 为 分 配 8 个 (或 以 上 ) 连续 页 是 复杂 的 操作 。 

尽管 惰性 链表 上 所 有 页 都 可 以 保证 是 不 活动 的 ， 集 中 回收 可 能 导致 活动 页 出 现在 isolate_ 
lru_pages 的 结果 链表 上 。 为 正确 处 理 这 些 页 ， 辅 助 函 数 clear_active_flags 裔 历 所 有 页 ， 统 计 活 
动 页 ， 并 从 活动 页 清除 页 标志 PG_active。 最 后 ， 将 结果 链表 传递 给 shrink_page_1list， 以 便 写 出 。 
请 注意 ， 这 里 采用 了 异步 模式 。 

注意 ， 我 们 并 不 确定 所 有 被 选中 回收 的 页 都 是 实际 可 回收 的 。shrink_page_1list 将 不 可 回收 的 
页 留 在 传递 过 来 的 链表 上 ， 成 功 写 出 的 页 数目 返回 。 该 数值 必须 加 到 换 出 页 的 总 数 上 ， 以 确定 工作 在 
何 时 结束 。 

直接 回收 还 需要 男 一 个 步 又 : 

mm/vmscan.c 

if (nr_freed < nr taken && !current is kswapd() && 


Sc->order > PAGE ALLOC COSTLY_ ORDER) { 
congestion wait (WRITE, HZ/10); 


































































































































































































































































































Xr 





























nr_freed += shrink page_ list(&page list, sc, 
PAGEOUT_IO_SYNC) ; 





} 

如 果 并 非 所 有 进行 回收 的 页 都 被 回收 ， 即 nr_freed < nr_taken， 那 么 链表 中 的 某 些 页 可 能 被 锁 
定 ， 无 法 在 异步 模式 下 写 出 。” 如 果 内 核 在 直接 回收 模式 下 执行 当前 的 回收 操作 ， 即 回收 并 非 由 交换 
守护 进程 kswapd 调 用 ,回收 的 目的 是 为 了 满足 一 个 高 阶 分 配 ， 那么 回收 操作 首先 得 等 待 块 设备 上 的 拥 
塞 解除 。 然 后 ， 以 同步 横 式 再 执行 一 遍 写 出 。 这 种 做 法 的 缺点 在 于 ， 高 阶 分 配 会 有 一 点 延迟 ， 但 高 阶 
分 配 不 会 频繁 发 生 ， 因 而 这 不 是 问题 。 分 配 阶 小 于 PAGE_ALLOC_COSTLY_ORDER 的 分 配 会 频繁 发 生 , 但 
这 些 不 会 受到 干扰 。 

最 后 , 不 可 回收 的 页 必须 返回 到 LRU 链 表 。 集中 回收 和 失败 的 写 出 操作 可 能 导致 活动 页 出 现在 局 
部 链表 上 ， 因 而 活动 链表 和 惰性 链表 都 是 可 能 的 目的 地 。 为 保持 LRU 的 顺序 ， 内 核 将 从 尾部 到 头 部 裔 
历 局 部 链表 ,根据 页 是 否 活动 ,分别 使 用 add_page_to_active_1ist 或 adq_page to_inactive list 








五 
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这 也 可 能 由 其 他 原因 导致 例如， 失败 的 写 出 操作 ， 正 文中 提 到 的 是 基本 的 原因 。 
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返回 





到 对 应 的 LRU 链 表 








2. 执行 页 面 回收 


shrink_page_1ist 从 参数 取得 一 组 
储 器 。 这 是 策略 算法 执行 的 最 后 一 个 2 
shrink_page_1list 函 数 形成 了 内 核 的 
E 许 多 边界 情形 , 图 18-17 中 忽略 了 其 

















函数 需要 处 至 
的 操作 原则 。 











的 头 部 。 
数 器 都 进行 了 加 1。 页 向 量 现 在 月 











同样 ， 各 页 的 使 


日 于 确保 加 1 操作 尽 可 能 

















选中 加 





收 的 页 





用 计数 器 必须 减 1， 

















始 时 ， 使 月 





回收 处 理 
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因 开 











快 地 执行 , 医 














(一 个 链表 )， 试 图 将 各 页 写 巴 















































遍历 给 定 的 页 和 














Da 
这 十 


上 ， 








图 18-1 








之 间 
FP 的 一 


个 子 系统 





shrink page list 


检查 是 否 


步 怠 ， 所 有 其 他 的 一 切 都 是 页 交换 的 机 币 








| 部 分 的 职责 。 
在 图 18-17 给 








El 


色 io 


的 接口 。 相 关 的 代码 流程 
一 些 , 以 避免 无 关 紧 要 的 的 




















必须 保留 该 页 ， 或 该 








页 是 否 正 





是 没有 交换 槽 位 的 匿 





更 新 统计 信息 
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该 函数 的 框架 仍然 是 一 个 ， 裔 历 链表 的 各 个 表 项 的 循环 ， 直 至 全 部 处 理 完毕 


Ei 





F 回 写 过 程 中 











shrink_page_1list (第 1 部 分 ) 的 代码 流程 图 


罩 节 妨碍 考察 本 质 性 


日 计 
为 对 页 向 量 的 操作 是 成 块 执行 的 。 


到 对 应 的 后 备 存 


该 











EEC 














。 因 



































的 页 或 者 传递 到 页 交换 子 系统 的 更 底层 ， 或 者 
也 持续 
都 从 链表 


束 ， 而 不 会 无 限 
在 每 次 循环 中 ， 








下 去 


o 











大 





不 能 














保留 当前 页 。 这 可 能 是 
口 该 页 由 内 


并 进行 巴 














收 。 








出 于 以 


核 的 其 他 部 分 锁定 。 如 果 是 这 检 
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口 和 
链表 的 情形 : 


mm/vmscan.c 








referenced = page_ referenced(page, 


/* 处 于 
if 


活跃 的 使 





/* 设置 PG_active 标 志 ， 


page_referenced (] 


se 
即 不 能 


二 种 情况 更 为 复杂 。 








用 状态 ， 








过 8 页 。 





此 外 ， 


此 外 ， 





下 原因 。 








以 下 的 代码 片段 说 明了 


工 ) 汉 
还 是 确实 无 法 释放 ? 激活 它 。 





回收 证 


Ph 选择 一 页 《链表 是 从 头 到 尾 处 


fF£， 该 页 不 会 回收 ; 否 








j 放 到 








yy 

















里 的 )。 内 核 必须 得 


确定 是 

















和 前 代码 路 径 会 














一 个 内 存 页 不 能 回收 、 而 需要 返回 到 活动 L 


天 


(sc->order <= PAGE ALLOC COSTLY_ ORDER && 


referenced && page mapping_inuse (page)) 


并 保留 该 页 */ 
E 如 前 文 的 讨论 ) 检查 该 
当前 回收 操作 所 处 的 分 面 
































页 最 近 是 否 被 引用 过 。 
C 阶 必须 小 于 等 于 PAGE_ALLOC_COSTLY_ORD 
F 之 一 。 











该 页 必须 满足 下 列 条 伯 


不 


锁定 该 页 ， 


为 链表 上 
另 一 个 链表 上 ， 所 以 该 循环 迟早 会 结 


RU 


但 该 函数 本 身 还 不 足以 


PER， 
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口 该 页 被 映射 到 一 个 页 表 中 《可 以 由 page_mapped 检 查 ， 参 见 4.8.3 节 )， 或 在 用 户 态 虚 拟 地 址 空 
间 中 使 用 。 
口 该 页 包含 在 交换 缓存 中 。 
口 该 页 包含 在 匿名 映射 中 。 
口 该 页 通过 文件 映射 映射 到 用 户 层 。 这 种 情况 并 不 借助 于 页 表 检 查 , 而 是 通过 mapping->i_mmap 
和 mapping_i_map_nonlinear， 其 中 包含 了 普通 和 非 线 性 映射 的 映射 信息 。 
page_mapping_in_use 检 查 上 述 条 件 。 满 足 其 中 一 个 ， 并 不 意味 着 该 页 根本 不 能 
来 自 高 阶 分 配 的 压力 足够 大 。 
回想 前 文 ，shrink_inactive_list 可 能 调用 shrink_page_1list 两 次 : 是 异步 回 写 模式 ， 
然后 是 同步 回 写 模式 。 因 而 ， 可 能 发 生 这 样 的 情况 ， 所 述 页 当前 可 能 正 处 于 回 写 过 程 中 ， 由 页 标志 
PEG_writeback 表 示 。 如 果 蕊 Se 前 在 请 求 同 步 回 写 ， 那 么 将 使 用 wait_on_page_writeback 等 行 
该 页 上 所 有 竺 决 JO 操 作 完 
如 果 shrink_page_1ist 当 前 考虑 的 页 没有 关联 到 后 备 存储 器 ， 那 么 该 页 是 由 一 个 进程 匿名 创建 
的 。 在 必须 回收 此 类 内 存 页 时 ， 其 数据 将 写 入 到 交换 区 。 在 遇 到 此 类 型 内 存 页 ， 但 尚未 分 配 交换 区 醒 
位 时 ， 将 调用 aaa_to_swap 分 配 一 个 槽 位 ， 并 将 该 页 添加 到 交换 缓存 。 同 时 ， 将 相关 的 page 实 例 加 入 
到 swapper_space (参见 18.4.2 节 )， 使 得 该 页 能 够 像 其 他 已 经 建立 映射 的 页 一 样 处 理 。 
如 果 该 页 已 经 被 映射 到 一 个 或 多 个 的 进程 的 页 表 中 依旧 使 用 page_mapped 检 查 )， 指 向 该 页 的 
页 表 项 必须 从 所 有 引用 该 页 的 进程 的 页 表 移 除 。 为 此 rmap 子 系统 提供 了 try_to_unmap 函 数 ， 该 函数 
将 所 述 页 从 所 有 使 用 它 的 进程 解除 映射 (这 里 不 详细 讲述 该 函数 了 ， 因 为 其 实现 不 是 特别 有 趣 )。 此 
外 ， 特 定 于 体系 结构 的 页 表 项 将 替换 为 一 个 引用 ， 表 示 页 数据 目前 所 在 的 位 置 。 这 是 通过 try_to_- 
unmap_one 完 成 的 。 必 要 的 信息 可 以 从 页 的 地 址 空间 结构 获得 , 其 中 包含 了 所 有 后 备 存储 器 相关 数据 。 
重要 的 是 ， 新 页 表 项 中 不 要 设置 如 下 两 个 标志 位 。 
口 _PAGE_PRESENT 标 志 位 清除 表示 该 页 已 经 换 出 。 在 某 个 进程 访问 该 页 时 ， 这 是 很 重要 的 。 
为 将 产生 一 个 缺 页 异常 ， 内 核 需 要 检测 该 页 已 经 换 出 。 
口 _PAGE_FILE 标 志 位 清除 表示 该 页 在 交换 缓存 中 。 回 想 4.7.3 节 的 内 容 ， 用 于 非 线 性 映射 的 页 表 
项 也 不 会 设置 _PAGE_PRESENT， 但 可 以 通过 _PAGE_FILE 标 志 位 与 换 出 页 相 区 分 。 
用 ptep_clear_flush 清 除 页 表 项 时 ,会 返回 此 前 的 页 表 项 的 一 个 副本 。 如 果 该 页 表 项 的 脏 
标志 位 已 经 置 位 ， 则 对 应 的 页 在 逆向 映射 处 理 过 程 中 被 某 些 使 用 者 修改 。 在 shrink_page_ 
1ist 中 ， 它 需要 与 后 备 存储 器 〈 这 种 情况 下 是 交换 区 ) 同步 。 因 而 PTE 中 的 脏 标志 位 需要 转 
换 为 页 标志 位 PG_dirty。 
我 们 把 注意 力 转 回 到 shrink_page_list。 接 下 来 是 一 系列 查询 ， 根 据 页 状态 来 触发 回收 所 述 页 
的 所 有 操作 。 
PageDirty 检 查 该 页 是 否 为 脏 ， 如 果 为 脏 则 必须 与 底层 存储 介质 同步 。 这 也 包含 了 交换 地 址 空间 
中 的 页 。 如 果 页 是 脏 的 ， 则 需要 几 个 操作 ， 如 图 18-17 中 shrink_page_1list 第 二 部 分 的 代码 流程 图 表 
示 。 这 些 操作 最 好 通过 其 代码 来 进行 讨论 。 
口 内 核 通 过 调用 writepage 地 址 空间 例 程 确保 数据 写 回 (该 例 程 由 pageout 辅 助 函数 调用 ， 该 畏 
助 函 数 提供 了 writepage 所 需 的 所 有 参数 )。 如 果 数 据 是 映射 自 文件 系统 中 的 某 个 文件 ， 则 使 
特定 于 文件 系统 的 例 程 来 处 理 到 文件 的 同步 ， 而 交换 页 则 使 用 swap_writepage 写 入 到 所 分 
配 的 交换 槽 位 。 
口 根据 pageout 的 结果 ， 需 要 执行 不 同 的 操作 : 
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mm/vmscan.c 

/* 页 是 脏 的 ， 尝 试 在 这 里 写 出 */ 

switch (pageout (page, mapping, sync writeback)) { 
Case PAGE KEEP: 

goto keep_locked; 

Case PAGE_ACTIVATE : 

goto activate_locked; 

Case PAGE_SUCCESS : 

if (PageWriteback(page) || PageDirty (page)) 
goto keep; 
































case PAGE_ CLEAN: 
;/* 接 下 来 尝试 释放 该 页 */ 





} 








pageout 的 参数 sync_writeback 表 示 shrink_ page_1ist 的 回 写 模式 。 

我 们 最 希望 获得 的 返回 码 是 PAGE_CLEAN, 这 表示 数据 已 经 与 后 备 存储 器 同步 ,内存 可 以 回收 ， 
这 发 生 在 代码 流程 图 的 第 3 部 分 。 
如 果 写 请 求 成 功 发 送 到 块 层 ， 那 么 返回 PAGE_sUccESS。 在 异步 回 写 模式 中 ， 在 pageout 返 世 
时 ， 该 页 通常 仍然 处 于 回 写 过 程 中 ， 跳 转 到 标号 keep 只 是 将 该 页 湛 加 到 shrink_page_list 
函数 局 部 的 链表 ret_pages 上 ，ret_pages 中 的 页 在 shrink_page list 结 束 时 合并 到 
page_1ist 链 表 ， 而 后 义 返 回 到 LRU 链 表 。 在 写 操作 执行 之 后 ， 页 的 内 容 已 经 与 后 备 存储 器 同 
步 ， 下 一 次 调用 shrink_page_1ist， 该 页 将 不 再 是 脏 的 ， 因 而 可 以 换 出 。 
如 果 写 操作 在 pageout 返 回 时 已 经 完成 ， 那 么 数据 回 写 已 经 完成 ， 内 核 可 以 继续 第 3 部 分 。 

如 果 在 回 写 期 间 发 生 错 误 ， 结 果 可 能 是 PAGE_KEEP 或 PAGE_KEEP_ACTIVATE。 二 者 都 会 使 
shrink_page_1list 函 数 将 该 页 保留 在 前 述 的 返回 链表 上 ", 但 PAGE_KEEP_ACTIVATE 还 会 设置 
页 状态 PG_active〔( 这 是 可 能 发 生 的 , 例如 page 所 属 的 地 址 空间 没有 提供 writeback 方 法 ， 这 
使 得 页 的 同步 变 得 无 用 )。 

图 18-18 给 出 了 页 不 脏 情 况 下 的 代码 流程 图 。 请 记 住 ， 内 核 也 可 以 从 第 2 部 分 ?到 达 该 代码 路 径 。 


SI 让 

第 1 部 分 

页 有 缓冲 区 ? try > torelease Page 
是 

页 在 交换 缓存 中 ? Ti delete from swap_cache 


remove_from page_cache 
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将 页 返还 给 伙伴 系统 








图 18-18 ”shrink_1list (第 3 部 分 ) 的 代码 流程 图 





Q 实际 上 是 添加 到 局 部 链表 zet_pages， 函 数 结束 时 合并 到 page_list 链 表 返 回 。 一 一 译 者 注 
@ 原文 为 step 2， 疑 有 误 ， 根 据 上 下 文 改 为 第 2 部 分 。 一 一 译 者 注 
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口 如 果 页 有 私有 数据 因而 有 与 之 关联 的 缓冲 区 (对 包含 了 文件 系统 元 数据 的 页 来 说 ， 通 常 是 这 
样 ), 那么 将 调用 try_to_release。 该 函数 试图 使 用 地 址 空间 结构 中 releasepage 操 作 释放 该 
页 ， 如 果 该 页 没有 所 属 的 映射 ， 则 使 用 try_to_free_buffers 释 放 数 据 。 

口 内 核 接 下 来 将 页 与 其 地 址 空间 分 离 。 为 此 提供 了 辅助 函数 remove_mapping。 
如 果 页 保存 在 交换 缓存 中 ， 那 么 现在 可 以 确定 ， 其 数据 既 在 交换 区 中 ， 又 在 交换 缓存 中 。 由 于 
该 页 已 经 换 出 ,交换 缓存 已 经 完成 其 职责 ，, 可 以 用 _ gelete_from_swap_cache 将 该 页 从 交换 
缓存 删除 。 内 核 还 使 用 swap_free， 将 交换 区 中 对 应 横 位 的 使 用 计数 器 减 1。 这 是 必须 的 ， 
为 对 相应 槽 位 的 引用 减少 了 一 个 ， 需 要 反映 出 来 。 

口 如 果 页 不 在 交换 缓存 中 ， 则 使 用 _remove_from_page_cache 将 其 从 一 般 的 页 绥 存 删除 。 

岗 在 ， 可 以 确保 所 处 理 的 页 已 经 不 在 内 核 的 数据 结构 中 了 。 但是， 主要 问题 尚未 解决 ， 该 页 占用 

的 物理 内 存 尚未 释放 。 内 核 使 用 页 向 量 来 批量 释放 相关 的 物理 内 存 。， 使 用 pagevec_ad9 将 需要 释放 

的 页 插入 到 函数 局 部 的 freed_pvec 页 向量 中 。 在 页 向 量变 满 时 ， 使 用 _pagevec_release_nonlru 

集中 释放 其 全 部 成 员 。 在 18.6.2 节 讨论 过 ， 该 函数 将 这 些 页 占用 的 内 存 空间 返还 给 伙伴 系统 。 以 这 种 

方式 回收 的 内 存 可 以 用 于 更 重要 的 任务 ， 这 正好 是 页 交换 和 页 面 回 收 的 目的 。 

在 shrink_page_1ist 裔 历 了 所 有 传递 进来 的 页 之 后 ， 还 需要 洪 清 如 下 几 个 珊 人 碎 的 问题 。 

口 需要 更 新 内 核 的 页 交换 统计 信息 。 

口 需要 返回 所 释放 页 的 数目 。 


18.7 ”交换 令 牌 


避免 页 颠 艇 的 一 种 方法 是 交换 令 牌 ， 在 18.1.2 节 简要 地 讨论 过 。 该 方法 简单 但 有 效 。 在 多 个 进程 
并 发 进行 页 交换 时 ， 很 可 能 发 生 这 样 的 情况 : 大 多 数 时 间 都 花费 在 将 页 写 出 到 磁盘 和 再 次 读 入 内 存 
读 入 之 后 很 短 一 段 时 间 又 需要 换 出 。 这样, 大 部 分 可 用 时 间 都 花费 在 内 存 和 硬盘 之 间 来 回 传输 页 数据 ， 
而 真正 的 工作 几乎 无 法 进行 。 显 然 这 是 一 种 罕见 的 情况 ， 但 如 果 用 户 坐 在 椅子 上 ， 只 能 干巴 巴 地 观察 
人 硬盘 的 活动 ， 而 无 法 进行 实际 的 工作 ， 那 是 相当 令 人 泄气 的 事情 。 

为 防止 这 种 情况 ， 内 核 向 某 个 当前 换 入 页 的 进程 颁发 一 枚 所 谓 的 交换 令 牌 , 旦 整个 系统 内 只 颁发 
一 枚 。 交 换 令 牌 的 好 处 在 于 ， 持 有 交换 令 牌 的 进程 ， 其 内 存 页 不 会 被 回收 ， 或 至 少 可 以 尽 可 能 免 遭 回 
收 。 这 使 得 该 进程 换 入 的 页 都 可 以 保留 在 内 存 中 ， 增 加 了 完成 工作 的 可 能 性 。 

本 质 上 ， 交 换 令 牌 对 换 入 页 的 进程 实现 了 一 种 “上 位 调度 《但 是 ， 这 根本 不 会 改变 CPU 调度 器 
的 结果 !) 类 似 于 每 一 个 调度 器 ， 它 必须 保证 在 各 个 进程 之 间 的 公平 性 ， 因 此 ， 内 核 保证 进程 在 获得 
交换 令 牌 一 段 时 间 后 就 会 失去 ， 令 牌 将 传递 到 下 一 个 进程 。 原 始 的 交换 令 牌 建议 方案 〈 参 见 附录 F) 
使 用 了 一 个 超时 定时 器 ， 定 时 器 触发 时 会 将 令 牌 传递 到 下 一 个 进程 ， 在 内 核 版 本 2.6.9 最 初 集成 了 交换 
令 牌 方法 时 ， 就 采用 了 这 种 策略 。 在 内 核 版 本 2.6.20 开 发 期 间 ， 引 入 了 一 种 新 的 方案 来 抢占 交换 令 牌 ， 
其 工作 机 制 将 在 下 文 讨论 。 令 人 感 兴趣 的 是 ， 交 换 令 牌 的 实现 非常 简单 ， 大 约 只 包括 100 行 代码 ， 这 
于 次 证 明了 ， 好 主意 不 见得 是 复杂 的 。 

交换 令 牌 通过 一 个 全 局 指针 实现 ， 该 指针 指向 当前 拥有 令 牌 的 进程 的 mrm_struct 实 例 : 
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GO 实际 上 ， 内 存 区 可 能 在 几 个 进程 间 共 享 ， 而 交换 令 牌 是 关联 到 某 个 特定 内 存 区 的 ， 并 非 某 个 具体 的 进程 。 在 这 种 
意义 上 讲 ， 交 换 令 牌 可 能 同时 属于 多 个 进程 。 实 际 上 ， 它 属于 特定 的 内 存 区 。 但 为 简化 阐述 ， 这 里 假定 只 有 一 个 
进程 关联 到 交换 令 牌 所 属 的 内 存 区 。 一 一 译 者 注 
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mm/thrash.h 
struct mm struct *swap_token mm; 
static unsigned int global_ faults; 


全 局 变量 global_faults 计 算 调 用 do_swap_page 的 次 数 。 每 次 换 入 一 页 时 ， 都 调用 该 函数 〈 更 
多 相关 内 容 ， 请 参见 下 一 节 )， 并 对 该 计数 器 加 1。 这 提供 了 一 种 可 以 判断 进程 获取 交换 令 牌 的 频繁 程 
度 的 可 能 性 (与 系统 中 其 他 进程 相 比 )。struct mm_struct 中 有 3 个 字段 用 于 回答 上 述 问题 。 


<mm_types.h> 
struct mm_Stzuct { 
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unsigned int faultstamp; 
unsigned int token priority; 
unsigned int last_ interval; 


} 

faultstamp 包 含 了 内 核 上 一 次 试图 获取 令 牌 时 global_faults 的 值 。token_priority 是 一 个 与 
交换 令 牌 相关 的 调度 优先 级 ， 用 于 控制 对 交换 令 牌 的 访问 ， 而 last_interval 表 示 该 进程 等 待 交换 令 
牌 的 时 间 间 隔 的 长 度 。 

交换 令 牌 通过 调用 grab_swap_token 获 取 ， 考 察 其 源 代 码 ， 上 述 字 段 的 语义 会 变 得 很 显然 : 


mm/thrash.c 
void grab_swap_token (void) 


{ 























int current interval; 
global_faults++; 
current_interval = global_ faults -current->mm->faultstamp; 


/* 先 来 先 服务 */ 

if (swap_token mm == NULL) { 
current->mm->token priority = current->mm->token priority + 2; 
Swap_token mm = current->mm; 
可 GEG:- :Out> 











如 果 交 换 令 牌 尚未 分 配给 任何 进程 ， 获 取 令 牌 是 没有 问题 的 。 跳 转 到 标号 out 只 是 对 faultstamp 
和 1last_interval 的 设置 进行 更 新 ， 读 者 在 下 文 会 看 到 。 

很 自然 ， 如 果 交 换 令 牌 当前 由 某 个 进程 持 有 ， 那 么 事情 会 变 得 稍微 复杂 一 些 。 在 这 种 情况 下 ， 内 
核 必须 判断 新 进程 是 否 应 该 抢占 旧 的 进程 : 


mm/thrash.c 
if (current->mm != swap_token mm) { 
if (current_ interval < current->mm->last_interval) 
current->mm->token priority++; 













































































else { 
if (likely(current->mm->token priority > 0)) 
current->mm->token priority--; 


} 

/* 检查 新 请 求 的 进程 是 否 应 当 持 有 令 牌 */ 

if (current->mm->token priority > 

swap_token mm->token priority) { 
Current->mm->token priority += 2; 
swap_token mm = current->mm; 

















} else { 
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/* 令 牌 持 有 者 再 次 请 求 ! */ 


current->mm->token priority += 2; 


















































DN 




























































































级 ， 那 么 从 持 有 者 去 掉 交 换 令 牌 ， 赋 予 当 前 请 求 进程 。 
最 后 ， 需 要 更 新 当前 进程 的 令 牌 时 间 惟 ; 


mm/thrash.c 























out; 
current->mm->faultstamp = global_faults; 
current->mm->last_interval = current_ interval; 
return; 

} 























如 果 此 时 是 男 一 个 进程 持 有 令 牌 那么 在 当前 进程 的 等 待 时 间 已 经 不 少 于 其 上 一 次 等 待 时 间 时 ， 


将 该 进程 的 令 牌 优先 级 加 1， 和 否则 将 其 令 牌 优先 级 减 1。 如 果 当 前 进程 的 令 牌 优先 级 超出 持 有 者 的 优先 


首先 考虑 简单 的 情形 : 如 果 请 求 交 换 令 牌 的 进程 已 经 持 有 令 牌 〈 第 二 个 else 分 文 )， 这 意味 着 该 
进程 会 换 入 大 量 内 存 页 。 相 应 地 ， 由 于 进程 对 内 存 页 的 需求 非常 强烈 ， 因 而 应 该 增加 令 牌 优先 级 。 























请 注意 ， 如 果 进 程 无 法 获得 交换 令 牌 ， 它 仍然 可 以 换 入 内 存 页 ， 但 不 能 免 受 内 存 回收 的 影响 。 
grab_swap_token 只 从 内 核 中 一 处 调用 ， 即 dao_swap_page 开 始 时 ， 该 函数 负责 换 入 页 。 如 果 请 
































求 页 无 法 在 交换 缓存 找到 ， 需 要 从 交换 区 读 入 ， 那 么 将 获取 令 牌 : 


mm/memory.c 











static int do_swap_page(struct mm struct *mm, struct vm area_struct *vma, 


unsigned long address, pte t *page table, pmd 七 *pmd, 
int write_ access, pte_t orig_ pte) 




















{ 
page = lookup_swap_cache (entry); 
if (!page) { 
grab_swap_token(); /* 在 读 入 之 前 ， 首 先 试图 获取 令 牌 */ 
/* 读 入 页 */ 
} 
} 


























当 不 再 需要 当前 交换 令 牌 的 mm_struct 时 ， 必 须 使 用 put_swap_token 来 释放 当前 进程 的 交换 令 
牌 。disable_token 则 会 强制 性 地 剥夺 令 牌 。 在 实际 上 必须 换 出 页 时 ， 这 是 有 必要 的 ， 读 者 在 下 文 会 














看 到 这 样 的 情况 。 














交换 令 牌 实现 的 关键 在 于 ， 内 核 在 何 处 检查 当前 进程 是 否 是 交换 令 牌 的 所 有 者 ， 而 这 会 对 持 有 令 














牌 的 进程 有 何 种 影响 。has_swap_token 测 试 进程 是 否 有 交换 令 牌 。 但 该 检查 只 在 内 核 中 一 处 执行 ， 


























即 在 内 核 检查 一 页 是 否 已 经 被 引用 时 (回想 前 文 可 知 , 这 是 判断 一 页 是 否 将 要 被 
而 page_referenced_one 是 page_referenced 的 一 个 子 函 数 ， 只 在 那里 调用 ): 
mm/rmap.c 


static int page referenced one(struct page *page, 
struct vm area struct *vma, unsigned int *mapcount) 





























{ 























/* 如 果 进 程 有 交换 令 牌 而 且 正 处 于 缺 页 异常 处 理 过 程 中 ， 则 假装 该 页 被 引 


























if (mm != current->mm && has_swapb_ token (mm) && 
rwsem_is_locked(&mm->mmap_ sem)) 








回收 的 基本 要 素 之 一 ， 





Ch 
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referenced++; 
必须 区 分 如 下 两 种 情形 。 
(1) 所 述 页 所 在 的 内 存 区 属于 当前 运行 进程 ， 而 该 进程 持 有 交换 令 牌 。 由 于 交换 令 牌 的 所 有 者 可 
以 对 拥有 的 页 进行 任意 操作 ，page_referenced_one 和 忽略 了 交换 令 牌 的 效果 。 
这 意味 着 ,交换 令 牌 的 当前 持 有 者 不 会 阻止 页 的 回收 一 一 如 果 它 想 要 这 样 做 ,那么 该 页 实际 上 是 


不 必要 的 ， 回 收 该 页 不 会 妨碍 该 进程 的 工作 。 
(2) 当前 运行 进程 不 持 有 交换 令 牌 ， 但 操作 的 某 页 属于 交 ] 














下 ， 该 页 标记 为 被 引 月 








日， 不 会 移动 到 1 




















换 令 脾 持 有 者 的 地 址 空间 。 在 这 种 情况 























性 链 














但 还 需要 考虑 


作 负 蓓 具有 不 利 





旦 /人 
E44 











向 。 


牛 事情 ; 虽然 交换 令 牌 对 高 负荷 
区 

















大 








而 内 核 在 标记 页 的 引 

















原始 的 交换 令 牌 建议 方案 要 求 在 处 到 











LE 缺 页 异常 时 强人 

















不 容易 检测 ， 因 而 可 以 通过 检查 是 否 持 有 mmap_sem 信 号 量 
这 种 做 法 是 足够 的 。 





它 也 发 生 


『 缺 页 异常 代码 中 ， 作 为 近似 来 说 ， 





























在 系统 很 少 或 不 需要 页 交换 时 ， 发生 
么 发 生 缺 页 异常 的 概率 也 会 相应 增加 。 


: 洲 
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央 页 异 
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和 








六 4 


心 [ 














交换 令 牌 机 制 发 生 作 


和 的 机 会 也 相应 增加 。 这 六 


Le 
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应 ， 而 又 保持 了 高 负荷 系统 上 交换 令 牌 的 正 画 


18.8 ”处 理 交 换 











效果 。 














缺 页 异常 





， 因 而 


这 意味 着 ， 随 着 系统 


也 不 会 被 回收 。 
的 系统 共有 有 益 的 效用 ， 
前 增加 了 男 一 项 检查 ， 即 
施行 交换 令 牌 的 效应 。 由 于 
来 近似 。 虽 然 这 可 能 





























但 它 对 页 交换 很 少 的 工 
是 否 持 有 某 个 信和 号 

在 内 核 中 这 个 时 机 
因 几 种 原因 而 发 生 ， 但 





Pan 





- 恒 . 





量 。 























让 
































的 。 但 如 果 页 交换 的 压力 变 大 ， 那 
P 缺 页 异常 发 生得 越 来 越 多 ， 


了 交换 令 牌 在 页 交换 活动 很 少 的 系统 上 的 负面 效 


6 概率 是 非常 低 


























虽然 换 出 物理 


内 存 页 是 应 该 相对 复杂 的 行为 ， 作 








问 进程 虚拟 地 址 空间 

















| 换 入 页 要 简单 得 多 。 按 第 4 音 的 说 法 ， 当 试图 访 











注册 的 一 页 时 ， 如 果 该 页 未 映射 





这 并 不 一 定 意 味 着 
地 址 ， 或 涉及 了 一 个 
内 核 会 调用 体系 结构 机 








i 访问 了 
FE 线 性 
日 关 的 函数 handle_pte_fault 














个 换 出 页 。 举 例 来 说 ， 也 可 能 是 应 用 程序 访问 了 一 个 六 





























到 物理 内 存 中 ， 则 处 理 器 触发 一 个 缺 页 异常 。 
F 未 分 配给 该 进程 的 
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|= pe fs 5 


的 ， 











映射 。 因 而 内 核 首 多 


必须 查 明 











是 否 需 要 实际 换 入 一 页 ， 如 4.11 节 所 讲述 上 
来 检查 内 存 管理 数据 结构 ， 以 完成 这 一 任务 。 
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加 
18.8.1 换 入 页 

读者 已 经 从 第 4 章 了 解 到 , 访问 换 出 页 导致 的 缺 页 异常 , 由 mm/memory.c 中 的 do_swap_page 处 理 。 
如 图 18-19 给 出 的 代码 流程 图 所 示 , 换 入 一 页 比 换 出 要 容易 得 多 , 但 其 中 涉及 的 仍然 不 只 是 一 个 简单 的 
读 操 作 。 

内 核 不 仅 要 检查 所 请 求 的 页 是 否 仍然 或 已 经 在 交换 缓存 中 ， 它 还 使 用 了 一 种 简单 的 预 读 方 法 , 一 
次 性 从 交换 区 读 入 几 页 ， 预 防 未 来 可 能 出 现 的 缺 页 异常 

在 18.4.1 方 讨论 过 ， 换 出 页 所 在 的 交换 区 和 槽 位 信息 保持 在 页 表 项 中 实际 的 表示 因 具 体 的 体系 
结构 而 有 所 不 同 )。 为 获得 通用 值 ， 内 核 首先 对 页 表 项 调用 我 们 熟悉 的 pte_to_swp_entry 图 数 ， 获 得 
一 个 swp_entry_t 实 例 ， 其 中 用 独立 于 机 器 的 值 唯一 标识 了 换 出 页 。 
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do_swap_page 
lookup_swap_cache 失 败 ? 
grab_swap_token 


swapin_ readahead 
















read_swap_cache_async 
lock page 


mark page accessed | 


18-19 ”do_swap_page 的 代码 流程 


根据 这 些 数据 , 1ookup_swap_cache 检 查 所 需 的 页 是 否 在 交换 缓存 中 。 如 果 该 页 的 数据 尚未 写 出 ， 
或 该 页 是 共享 的 ， 此 前 已 经 由 另 一 个 进程 读 入 ， 那 么 就 可 能 在 交换 缓存 中 找到 。 
如 果 该 页 不 在 交换 缓存 中 ， 内 核 不 仅 必须 要 读 取 该 页 ， 还 必须 发 起 一 个 预 读 操作 ， 读 入 下 四 
预期 可 能 使 用 的 页 。 
口 grab_swapb_token 获 取 交 换 令 牌 ， 如 上 文 所 述 。 
口 swapin_readahead 负 责 执行 预 读 。 因 而 ， 要 对 所 需 页 对 应 槽 位 和 相 邻 槽 位 发 出 读 请 求 。 这 需 
要 的 工作 量 相 对 较 少 ， 但 对 系统 有 相当 的 加 速 作用 ， 因 为 进程 经 常 顺序 访问 内 存 中 的 数据 。 
发 生 这 种 情况 时 ， 对 应 的 页 已 经 通过 预 读 机 制 读 入 内 存 中 。 
口 对 当前 所 需 的 页 再 次 调用 reaq_swap_cache_async。 顾 名 思 义 ， 该 函数 进行 的 读 操作 是 异步 
的 。 但 内 核 使 用 了 一 个 技巧 ， 确 保 在 下 一 步 工 作 开 始 之 前 ， 所 需 数 据 已 经 读 入 。read_swap_ 
cache_async 在 向 块 层 发 送 读 请 求 之 前 ， 会 先 锁定 页 。 在 块 层 完成 数据 传输 时 ， 对 页 解锁 。 因 
而 ， 在 ao_swap_page 中 调用 lock_page 锁 定 该 页 就 足够 了 ， 该 操作 将 一 直 等 到 块 层 解锁 该 页 
为 止 。 但 从 块 层 的 角度 来 看 ， 解 锁 该 页 实际 上 是 确认 读 请 求 已 经 完成 。 
下 面 考察 一 下 这 两 个 操作 的 实现 。 
在 页 已 经 换 入 《如 有 必要 ) 后 ， 无 论 是 来 自 页 缓存 ， 还 是 从 块 设备 读 入 ， 都 必须 考虑 下 列 问 题 。 
首先 用 mark_page_accesseq 标 记 该 页 ， 使 得 内 核 将 其 认定 为 已 访问 过 , 在 这 里 可 以 回想 图 18-13 
中 的 状态 图 。 接 下 来 将 该 页 插入 到 进程 的 页 表 ， 如 有 必要 需要 刷 出 对 应 的 CPU 高 速 缓存 "。 此 后 ， 调 
用 page_adq_anon_rmap 将 该 页 加 入 到 第 4 章 讨论 的 逆向 映射 机 制 中 。 接 下 来 ， 我 们 熟悉 的 swap_free 
函数 将 检查 是 否 可 以 释放 交换 区 中 对 应 的 槽 位 。 该 函数 还 会 将 交换 数据 结构 中 的 使 用 计数 器 减 1。 如 
有 果 该 槽 位 不 再 需要 ， 且 相应 槽 位 在 当前 的 搜索 区 间 之 外 ， 那 么 该 例 程 将 修改 swap_info 实 例 
lowest_bit 或 highest_pbit 字 上 段 。 
如 果 该 页 是 以 读 / 写 模式 访问 ， 内 核 必 须 通 过 调用 do_wp_page 来 结束 操作 。 这 将 创建 该 页 的 一 个 

































































几 个 


























































































































































































































































































































































































































GD 这 里 的 cache 指 CPU 的 高 速 缓 在。 一 一 译 者 注 
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副本 ， 并 将 其 添加 到 导致 异常 的 进程 的 页 表 中 ， 且 将 原始 页 的 使 用 计数 器 减 1。 与 第 4 章 讨 论 的 写 时 复 
制 机 制 相 比 ， 这 里 执行 的 步骤 是 相同 的 。 

18.8.2 ” 读 取 数据 

有 了 两 个 函数 可 以 从 交换 区 将 数据 读 入 物理 内 存 。read_swapb_cache_async 创 建 必要 的 先决 条 
件 并 执行 额外 的 管理 任务 ， 而 swap_readpage 负 责 将 实际 的 读 请 求 提 交 对 块 层 。 图 18-20 给 出 了 
read_swap_cache_async 的 代码 流程 图 (假定 在 页 分 配 期 间 没有 发 生 错 误 ， 在读 入 换 出 页 时 也 没 
有 因 竞 态 条 件 而 导致 错误 )。 









































































































































read_ swap_cache async 


find get_page 
alloc_page_vma 


adqd to_ swap_cache 


lru_cache add active 
swap_readpage 


图 18-20 ”read_swap_cache_async 的 代码 流程 医 


首先 调用 find_get_page 来 检查 该 页 是 否 在 交换 缓存 中 。 因 为 预 读 操作 可 能 将 该 页 读 入 交换 组 
存 ， 所 以 可 能 出 现 这 样 的 情况 。 如 果 该 页 已 经 在 内 存 中 ， 那 么 很 好 ， 因 为 这 简化 了 处 理 : 可 以 立即 返 
可 所 要 的 页 。 
如 果 未 找到 该 页 ， 则 必须 调用 alloc_page_vma (在 非 NUMA 系 统 上 ， 最 终归 结 为 调用 _alloc_ 
pages) 来 分 配 一 个 新 的 内 存 页 ， 容 纳 从 交换 区 读 入 的 数据 "。 用 _alloc_pages 做 出 的 分 配 内 存 请 求 
具有 高 优先 级 。 例 如 ， 如 果 没 有 足够 的 空闲 空间 可 用 ， 内 核 会 试图 换 出 其 他 页 来 提供 新 的 内 存 。 该 函 
数 的 失败 〈 即 返回 NurI 指 针 ) 是 非常 严重 的 问题 ， 将 导致 直接 放弃 换 入 操作 。 在 这 种 情况 下 ， 高 层 代 
码 将 通知 OOM killer 关 闭 系 统 中 具有 相对 大 量 内 存 页 且 最 不 重要 的 进程 ， 获 得 空闲 内 存 。 
如 果 页 分 配 成 功 〈 通 常 都 是 这 样 ， 因 为 很 少 有 用 户 无 意 使 系统 的 负荷 高 到 必须 利用 OOM killer 的 
程度 ), 内 核 使 用 adg_to_swap_cache 将 添加 该 page 实 例 到 交换 缓存 , 并 使 用 lru_cache_adq_active 
将 其 添加 到 活动 页 的 ) LRU 缓 在。 接 下 来 ， 页 数据 通过 swap_readqpage 从 交换 区 传输 到 物理 内 存 。 
在 必要 的 先决 条 件 已 经 满足 后 ，swap_readpage 发 起 从 硬盘 到 物理 内 存 的 数据 传输 。 这 是 分 为 两 
个 简短 的 步骤 完成 的 。get_swap_bio 产 生 一 个 适当 的 BIO 请 求 ， 而 submit_bio 将 该 请 求 发 送 到 块 层 。 
下 面 两 件 事情 需要 特别 注意 。 
口 add page to_ swap_cache 自动 锁定 页 。 
口 swap_readpage 通 知 块 层 在 页 已 经 完全 读 入 后 调用 enq_swap_bio_read。 如 果 一 切 进展 顺利 ， 
该 函数 会 对 该 页 设置 PG_uptoqate 标 志 并 解锁 。 这 一 点 很 重要 ， 因 为 读 操 作 是 异步 的 。 但 在 页 
标记 为 PG_update 并 解锁 时 ， 内 核 可 以 确认 其 中 己 经 填充 了 所 需 的 数据 。 

















在 交换 缓存 中 ? 
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卢 : 









































































































































































































































































































































Q@ 原文 与 图 18-20 不 一 致 ， 对 照 代 码 ， 确 认 是 alloc_page_vma; 另外 ，alloc_page_vma 是 归结 为 、alloc_pages， 
不 是 alloc_page， 可 以 根据 内 核 源 代 码 确认 。 一 一 译 者 注 
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18.8.3 ”交换 预 读 


类 似 于 文件 的 读 取 ， 内 核 在 从 交换 区 读 取 数据 时 也 使 用 了 一 种 预 读 机 制 。 这 确保 了 数据 可 以 预先 
ON ee ee etm ee 因而 提高 了 系统 性 能 。 与 比较 复杂 的 文件 预 读 方 法 
相 比 ， 页 交换 子 系统 的 预 读 机 制 相 对 人 简单， 如 下 列 代码 所 示 : 


mm/memory.c 
void swapin readahead(swp_entry t entry, unsigned long addr, struct vm area struct *vma) 


{ 



























































int i, num; 
struct page *new_ page; 
unsigned long offset; 


/* 
* 获取 我 们 要 进行 预 读 TI/o 操 作 的 句柄 的 数目 。 
*/ 

















num = valid swaphandles (entry, &offset); 
for (i = 0; i < num; offset++, i++) { 
/* 好 ， 现 在 进行 异步 预 读 */ 
new_page = readq_swap_cache_async(Swp_entry(Swp_type(entry) ， 
offset), vma, addr); 























if (Inew page) 
break; 
page_cache_release (new_ page); 
} 
lru adgd drain(); /* 现在 将 新 页 转移 到 LRU 链 表 */ 




















内 核 调 用 valiaq_swaphandles 来 计算 预 读 页 的 数目 。 通 常 将 预 读 2"*" 页，page_cluster 是 一 
个 全 局 变量 ， 在 小 于 16 MiB 内 存 的 系统 上 设置 为 2， 在 所 有 其 他 的 系统 上 设置 为 3。 这 产生 了 一 个 4 页 
或 8 页 的 预 读 窗口 (/proc/sys/vm/page-cluster 可 用 来 从 用 户 空间 调整 该 变量 ， 可 以 将 其 设置 为 0， 
从 而 禁用 换 入 预 读 )。 但 在 以 下 情形 中 ， 通 过 valiqd_swaphandles 计 算 的 值 必须 降低 。 

口 如 果 请 求 的 页 靠近 交换 区 的 末尾 ， 必 须 减 少 预 读 页 的 数目 ， 以 防 读 取 操 作 超出 交换 区 的 边界 。 

口 如 果 预 读 窗 口 包含 了 空闲 或 未 使 用 的 页 ， 内 核 只 读 取 这 些 页 之 前 的 有 效 数 据 。 

read_swap_cache_async 顺 次 将 对 选中 的 各 页 的 读 请 求 提 交 到 块 层 。 如 果 该 函数 因为 没有 内 存 
AR 
制 也 没有 解决 系统 当前 的 内 存 缺 乏 状 况 那 么 重要 了 。 


18.9 发 起 内 存 回 收 


18.1 节 阐述 过 ， 到 目前 为 止 讨论 过 的 页 面 选 择 和 换 出 例 程 都 由 一 个 抽象 层 控制 ， 该 层 会 决定 在 何 
时 回收 多 少 页 内 存 。 该 决策 会 重 定向 到 两 个 地 方 : 首先 是 kswapd 守 护 进程 ， 该 守护 进程 试图 在 没有 内 
存 密集 型 应 用 程序 运行 时 ， 维 护 系 统 中 内 存 使 用 的 均衡 ; 其 次 是 一 种 应 急 机 制 ， 在 内 核 认为 出 现 严重 
的 内 存 不 足 时 启用 。 


18.9.1 用 kswapa 进 行 周期 性 内 存 回收 


kswapd 是 一 个 内 核 守 护 进程 ， 每 当 系 统 启动 时 由 kswap_init 激 活 。 只 要 计算 机 在 运行 ， 该 守护 
进程 将 一 直 执行 : 

mm/vmscan.c 

int kswapd run(int nid) 
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pg_data t *pgdat = NODE_DRATRA(nid) ; 
int ret = 0; 


pgdat->kswapd = kthread_ run(kswapd, pgdat, "kswapd%d", nid); 


return ret; 


} 


static int _ init kswapd init(void) 
{ 
pg_data tt *pgdat; 


swap_setup(); 

for_each node_ state(nid, N_HIGH MEMORY) 
kswapd_run (nid); 

return 0; 














上 述 代 人 码 表 明 ， 对 每 个 NUMA 内 存 域 ， 都 会 激活 一 个 独立 的 kswapqa 实 例 。 在 一 些 机 器 上 ， 这 用 
来 提高 系统 性 能 ， 因 为 这 补偿 了 访问 不 同 内 存 区 速度 不 同 的 问题 。 不 过 ， 非 NUMA 系 统 只 使 用 一 个 
kswapd。 

更 有 趣 的 是 ，mm/vmscan.c 中 的 kswapd 函 数 所 实现 的 kswapa 守 护 进程 的 执行 过 程 。 在 必要 的 初 
始 化 工作 完成 后 ，" 将 执行 下 列 无 限 循环 : 


mm/vmscan.c 
static int kswapd(void *p) 
{ 
































unsigned long order; 

pg_data_t *pgdat = (pg_data_t*)p; 
struct task_struct *tsk = current; 
DEFINE _ WAIT (wait); 


current->reclaim state = &reclaim state; 

tsk->flags |= PF_MEMALLOC | PF_SWAPWRITE | PF_KSWAPD; 

order = 0; 

EOE (7 Fy 
unsigned long new_ order; 
prepare_ to wait(&pgdat->kswapd wait, &wait, TASK INTERRUPTIBLE); 
new_order = pgdat->kswapd max_order; 


pgdat->kswapd max_order = 0; 
if (order < new_ order) { 


* 如 果 需 要 更 高 阶 的 分 配 ， 则 不 能 进入 睡眠 




















} else { 





schedule(); 
order = pgdat->kswapd max_order; 


} 
finish wait(&pgdat->kswapd wait, &wait); 


balance pgdat (pgdat, 0, order); 

















G 在 NUMA 系 统 上 ，set_cpus_alloweq 会 将 守护 进程 的 执行 限制 到 与 内 存 域 相 关联 的 处 理 器 上 。 
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} 
return 0; 


# 
口 prepare_wait 会 将 进程 置 于 一 个 与 NUMA 内 存 域 相关 的 等 待 队列 上 ， 等 待 队 列 是 作为 参数 的 
部 分 传递 给 守护 进程 的 。 

口 该 函数 记录 了 上 一 次 对 该 结 点 执行 均衡 操作 时 所 使 用 的 分 配 阶 。 如 果 kswapa_max_order 指 定 

的 分 配 阶 大 于 上 一 次 的 值 ， 则 调用 balance_pgaat 来 再 次 均衡 该 结 点 〈 稍 后 讨论 )。 和 否则 ， 内 

核 通过 schedule 将 控制 权 传递 到 另 一 个 函数 或 用 户 空间 。 

如 果 内 核 认为 必须 调用 守护 进程 ， 则 可 以 通过 wake_up_interruptible 进 行 。 

如 第 14 章 所 述 ，finish_wait 在 进程 唤醒 之 后 执行 必要 的 清理 工作 。 

口 在 scheaqule 和 唤醒 进程 之 后 ， 内 核 首先 再 次 均衡 该 结 点 ， 然 后 重新 开始 处 理 过 程 。 如 果 当 前 

分 配 阶 大 于 上 一 次 执行 均衡 操作 的 分 配 阶 ， 则 用 较 大 的 分 配 阶 再 次 调用 balance_pgdat; 盏 

则 守护 进程 进入 睡眠 。 

图 18-21 给 出 了 定义 在 mm/vmscan.c 中 的 balance_pgdqat 函 数 的 代码 流程 图 。 在 该 函数 中 ， 内 核 
确定 了 将 释放 的 内 存 页 的 数目 ， 并 将 该 信息 传递 给 前 文 讨论 过 的 shrink_zone 函 数 。 

最 高 优先 级 ? 


确定 参数 


























































































































































































































































disable_ swap_token 




























民 | 冬 
时 | 三 
时 | 下 
汝 | 总 
铀 授 所 有 内 存 域 都 是 正常 的 ? 停止 扫描 
拉 EN 

草 


congestion wait 











图 18-21 balance_pgaat 的 代码 流程 图 


内 核 在 balance_pggdat 开 始 完成 所 有 必需 的 管理 工作 (主要 任务 是 创建 一 个 swap_control 实 例 ) 
后 ， 会 执行 两 个 撕 套 的 循环 。 外 层 循 环 的 控制 变量 是 priority， 初 始 值 为 DEF_PRIORITY (在 
mm/vmscan.c 中 通常 声明 为 12)， 按 递 降 次 序 进 行 循环 。 该 控制 变量 充当 shrink_zone 的 优先 级 。 数 
值 较 高 ， 对 应 的 优先 级 较 低 ;这 对 refil1_inactive_zone 中 页 面 选择 行为 的 计算 有 相应 的 影响 。 通 
过 按 递增 的 优先 级 进行 处 理 "， 内 核 试图 达到 两 个 目标 ， 即 工作 量 最 低 ， 对 系统 的 破坏 作用 最 小 。 内 
层 循环 遍历 NUMA 结 点 的 所 有 内 存 域 。 

在 进入 内 层 循环 之 前 ， 内 核 必须 确定 扫描 结束 于 哪个 内 存 域 ( 最 初 是 ZONE_DMA)。 为 此 ， 内 层 循 
环 按 递 降 次 序 裔 历 各 内 存 域 ， 并 使 用 zone_watermark_ok 检 查 其 状态 (该 函数 在 第 3 章 详细 讨论 过 )。 
如 果 扫 描 以 最 高 优先 级 〈 即 优先 级 0〉 执 行 ， 将 停 用 交换 令 牌 ， 因 为 在 非常 需要 内 存 的 情况 下 ， 阻 止 
内 存 页 换 出 来 加 速 某 些 进程 是 不 可 取 的 。 
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Q@ 原文 为 按 递减 优先 级 处 理 ， 似 有 误 ， 对 照 前 一 二 句 ， 优 先 级 值 越 高 ， 优 先 级 越 低 ， 而 优先 级 值 是 递减 的 ， 因 而 优 
先 级 是 递增 的 。 一 一 译 者 注 
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mm/vmscan.c 
static unsigned long balance pgdat (pg_data t *pgdat, unsigned long nr_ pages, 
int order) 


{ 


for (priority = DEF_PRIORITY; priority >= 0; priority--) { 
int end_zone = 0; /* 包括 在 内 。0 = ZONE_DMA */ 
unsigned long lru pages = 0; 


/* 交换 令 牌 阻碍 了 换 出 ... */ 
if “(Briority) 
disable_ swap_token(); 





all_zones ok = 1; 











/* 
* 扫描 从 高 端 内 存 域 到 DMA 内 存 域 的 方向 进行 ， 以 查找 需要 扫描 的 位 置 最 高 的 内 存 域 
闪光 
for (i = pgdat->nr zones -1; i >= 0; i--) { 
struct zone *zone = pgdat->node zones + i; 


If (!populated zone (zone)) 
continue; 


if (zone_is all unreclaimable(zone) && 
priority != DEF_PRIORITY) 
continue; 


if (!zone watermark_ ok (zone, order, zone->pages_high, 
0 -07 
engd zone = i; 
break; 


} 


竺 下 . 必 生 . 雪 :的 
goto out; 








zone 是 struct zone 实例 ， 用 于 定义 内 存 域 的 特征 数据 。 该 结构 的 布局 和 语义 在 第 3 章 讨论 ; 














如 下 3 个 辅助 函数 可 用 于 查找 适当 的 内 存 域 。 


口 zone_is_all1_unreclaimable 检 查 标志 ZONE_ALI_， UNRECLAIMABLE。 如 果 该 内 存 域 充满 














































































































该 内 存 域 是 不 用 考虑 进行 页 轩 
地 清除 该 标志 。 
口 populated_zone 检 查 该 内 存 域 是 否 有 内 存 页 存在 。 





下 




















收 的 。 在 该 内 存 域 至 少 有 一 页 返还 给 伙伴 系统 层 时 ， 会 


























zone->pages_highl0UD0O0O0OUO0O0O0000000000000000D0 pases 
lowl] pages_min[| DUO 











了 钉 


住 的 页 ， 则 会 设置 该 标志 , 例如 ,可 能 所 有 内 存 页 都 用 mlock 系 统 调用 锁定 了 。 在 这 种 情况 下 ， 


自动 





口 zone_watermark_ok 检 查 是 否 仍 然 可 以 从 内 存 域 获得 内 存 。 参 见 3.5.4 节 ， 那 里 讨论 了 该 函数 。 

















在 找到 一 个 状态 “不 受 欢迎 的 ”的 内 存 域 之 后 ， 内 核 立 即 跳 转 到 scan 标 号 并 开始 扫描 。 但 很 
所 有 内 存 域 都 是 正常 的 ， 这 种 情况 下 内 核 什么 都 不 需要 做 ， 直 接 跳 转 到 lpbalance_pgqdat 结 束 处 即 
在 扫描 开始 之 前 ， 要 确定 内 存 域 中 需要 进行 扫描 的 所 有 LRU 页 : 


mm/vmalloc.c 































































































for (i = 0; i <= end zone; i++) { 


可 能 


可 。 
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struct zone *zone = pgdat->node zones + i; 
lru_pages += Zone _ page state(zone, NR_ACTIVE) 
+ Zone page_state(zone, NR_INACTIVE); 





] 


} 





如 代码 流程 图 所 示 ， 内 核 将 遍历 所 有 内 存 域 。 其 方向 是 从 高 端 内 存 域 到 DMA 内 存 域 。 对 每 个 内 
存 域 都 必须 调用 两 个 函数 (不 包含 页 的 内 存 域 或 所 有 页 都 钉 住 的 内 存 域 将 跳 过 )。 
口 shrink_zone 启 动 18.6.4 节 讨论 的 页 面 选择 和 物理 内 存 页 回收 机 制 。 
口 shrink_slab 由 内 核 调 用 , 用 于 收缩 借助 slab 系 统 为 各 种 数据 结构 分 配 的 缓存 。18.10 节 将 讨论 
该 函数 .尽管 页 缓存 在 内 存 使 用 中 占据 了 最 大 的 份额 , 但 收缩 其 他 缓存 如 aentry 或 inode 缓 存 ， 
也 具有 切实 的 效果 。 
如 果 内 核 遍 历 了 所 有 的 内 存 域 ， 并 确认 它们 处 于 可 接受 的 状态 ,那么 按 所 有 优先 级 遍历 的 外 层 循 
环 就 可 以 结束 了 。 和 否则 ， 如 果 已 经 扫描 了 内 存 页 ， 且 扫描 优先 级 小 于 DEF_PRIORITY - 2， 那 么 将 调 
用 第 17 章 讨论 过 的 congestion_wait 函 数 。 该 函数 将 防止 块 层 因为 请 求 过 多 而 拥塞 。 


18.9.2 ”在 严重 内 存 不 足 时 换 出 页 
try_to_free_pages 例 程 用 于 紧急 、 非 预期 的 内 存 回收 操作 。 图 18-22 给 出 了 该 函数 的 代码 流程 
图 。 
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try_to_ free pages 
最 高 优先 级 ? disable_swap_ token 


确定 LRU 链 表 上 页 的 数 


shrink_ zone 











































shrink_zone 


释放 了 足够 
多 的 页 ? 

















遍历 所 有 适 
当 的 内 存 域 


shrink_ slab 
需要 进行 pdflush? wakeup_pdflush 
i 


存储 优先 级 






按 优先 级 递增 进行 遍历 


















































图 18-22 try_to_free_pages 的 代码 流程 图 
首先 必须 确定 LRU 链 表 中 页 的 数目 ， 后 续 的 函数 需要 该 信息 。 内 核 获 得 该 信息 的 方式 与 18 
balance_pgdat 相同 。 同 样 ，try_to_free_pages 的 主体 部 分 也 是 一 个 很 大 的 循环 ， 裔 历 从 
DEF_PRIORITY 到 0 的 所 有 优先 级 。 如 果 内 核 以 最 高 优先 级 运作 ， 将 禁用 交换 令 牌 。 
释放 多 少 页 的 决策 委托 给 mm/vmscan.c 中 实现 的 shrink_zones 函 数 。 
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类 似 了 
内 存 域 i 
那么 将 晶 
在 
足够 的 页 。 














4 
| 

















倘若 如 此 


Fkswapdq 机 制 ，shrink_zones 遍 历 当 前 NUMA 结 
用 shrink_zone。 如 果 内 存 域 中 没有 页 或 所 有 页 莉 
kb 过 shrink zonel 
dshrink_slabl| 





改 缩 slab 绥 存 之 后 〈 更 多 的 信 ， 


点 的 所 有 内 存 域 ， 如 有 可 能 ， 对 遍历 到 的 
F 操 作 该 内 存 域 ， 














bp 被 钉 住 或 当前 CPU 不 允 访 

















周 用 ， 但 这 是 非常 罕见 的 。 

















央 请 参见 下 一 节 )， 内 核 必 须 确定 是 否 已 经 释放 了 

















于 已 经 达到 目标 ，try_to_free_pages 可 以 结束 了 (内 核 接 下 来 跳 转 到 函数 





» 

















末尾 的 out 标 号 )。 士 





E 下 站 


的 代码 片段 中 ， 





目前 为 止 已 经 释放 的 页 数 : 


二 








nr_reclaimed 表 示 到 














mm/vmscan.c 
Fo 

















(priority = DEF_PRIORITY; priority >= 0; priority--) 


{ 


total_scanned += sc.nr_scanned; 






























































































































































if (nr_reclaimed >= sc.swap_cluster max) { 
ret = 1; 
goto out; 
} 
if (total_ scanned > sc.swap_cluster max + 
sc.swap_cluster max / 2) { 
wakeup_pdflush(laptop mode ? 0 : total_ scanned); 
sc.may_writepage = 1; 
} 
/* 休息 一 下 ， 等 待 一 些 回 写 操作 完成 */ 
If (sc.nr_scanned && priority < DEF_PRIORITY -2) 
congestion wait (WRITE, HZ/10); 
} 
根据 释放 的 页 数 ， 内 核 将 唤醒 pdaflush 守 护 进程 ， 启 用 周期 性 的 回 写 机 制 。 请 注意 ， 刷 出 页 的 数 
目 通常 受 限 于 扫描 的 页 数 。 但 在 膝 上 模式 中 ， 页 数 是 不 受 限 的 。 按 17.13 节 的 讨论 ， 如 果 人 硬盘 必须 从 省 
电 状态 加 快 旋 转 ， 那 么 它 应 该 在 再 次 进入 省 电 状态 之 前 ， 尽 可 能 多 做 一 些 工 作 。 内 核 还 调用 了 
congestion_wait， 通 过 等 待 几 个 刷 出 操作 成 功 完成 ， 防 止 块 层 的 拥塞 。 
最 后 ， 将 这 一 裔 成 功 处 理 的 优先 级 保存 在 zone 数 据 结构 的 prev_priority 成 员 中 ， 因 为 refi11_ 
该 信息 来 计算 页 交换 的 压力 。 

















inactive_zone 将 使 


18.10 ”收缩 其 他 缓存 


除了 页 缓存 之 外 ， 内 核 还 各 
术语 slab 指 代 ) 机 


slabUUUUOOOO0O0D0DO 








在 下 文中 将 统一 使 朋 





























常 基于 第 3 章 讨 论 的 slab (或 slub/slob， 但 











里 着 其 他 缓存 ， 这 些 缓存 通 
| 。 
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三 ; ™ 
第 | 
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使 用 此 类 缓存 和 








内 内 





调用 ， 释 放 一 些 已 月 
其 





除了 注 
节 中 仔细 考察 。 


18.10.1 
内 核定 义 了 月 
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数据 结构 
上 于 
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# 述 收缩 器 函数 特征 的 数据 

















以 向 内 核 动态 地 沪 收缩 器 ”函数 。 这 些 函 数 在 可 用 内 存 较 低 时 


核子 系统 可 E 册 “ 
内 存 空间 (从 技术 上 看 ， 收 缩 器 函数 与 slab 没 有 什么 固定 的 关联 ， 但 当前 没有 
































也 使 用 收缩 器 的 缓存 类 型 )。 
FE 册 和 删除 收缩 器 函数 的 例 程 之 外 ， 内 核 还 必须 提供 发 起 缓存 收缩 的 方法 。 这 些 将 在 以 下 各 
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一 品 


构 : 
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mm/vmscan.c 
struct shrinker { 
int (*shrink) (int nr_to_scan, gfp_t gfp_ mask) 
int seeks; /* 重 建 缓存 对 象 所 需 的 饥 数 才 / 


/* 这 些 供 内 部 使 用 */ 
struct list head list; 
long nr; /* 竺 删除 对 象 的 数目 */ 





























口 shrink 是 一 个 函数 指针 ， 指 向 用 于 收缩 缓存 的 函数 。 每 个 收缩 器 函数 都 必须 接受 两 个 参数 ， 
即 押 检查 的 内 存 页 的 数目 和 内 存 类 型 ， 返 回 值 是 一 个 整数 ， 表 示 有 0 D 个 对 象 仍然 在 缓存 中。 


有 


如 果 返 回 -1， 表 示 该 函数 不 能 进行 任何 收缩 。 在 内 核 想 要 查询 缓存 的 长 度 时 ， 可 以 将 
nr_to_scan 参 数 传递 0 值 。 
口 seeks 是 一 个 因子 ， 用 于 调整 缓存 相对 于 页 缓存 的 权重 。 在 讨论 如 何 收缩 缓存 时 ， 我 们 来 更 详 
细 地 讲述 该 成 员 的 作用 。 
口 所 有 注册 的 收缩 器 保存 在 一 个 标准 的 双 链 表 上 。1ist 用 作 链 表 元 素 。 
口 nz 是 由 收缩 器 函数 释放 的 对 象 数目 。 内 核 使 用 该 值 来 启用 对 象 的 批 处 理 ， 以 提高 性 


18.10.2 ”注册 和 删除 收缩 器 
register_shrinker 用 于 注册 一 个 新 的 收缩 器 : 


mm/vmscan.c 

void register _ shrinker(struct shrinker *shrinker) 

该 函数 需要 一 个 shrinker 实 例 ， 其 中 的 seek 和 shrink 应 该 已 经 设置 好 适当 的 值 。 此 外 ， 该 函数 

只 保证 将 shrinker 添 加 到 全 局 链表 shrinker_list。 

目前 ， 内 核 中 只 有 少量 收缩 器 ， 如 以 下 几 个 。 

口 shrink_icache_ memory 收缩 第 8 章 中 讨论 的 inode 缓 在， 并 管理 struct Inode 对 象 。 

口 shrink_dqcache_memory 负 责 第 8 章 讨 论 的 daentry 绥 存 。 

口 mb_cache_shrink_fn 收 缩 一 个 用 于 文件 系统 元 数据 的 通用 缓存 〈 当 前 用 于 实现 Ext2 和 Ext3 文 
件 系统 中 的 增强 属性 )。 

remove_shrinker 子 数 根据 shrinker 实 例 ， 从 全 局 链表 删除 对 应 的 收缩 器 : 

mm/vmscan.c 

void remove_ shrinker(struct shrinker *shrinker) 


18.10.3 ”收缩 缓存 


shrink_slab 用 于 收缩 所 有 注册 为 可 收缩 的 缓存 。 其 参数 包括 指定 内 存 类 型 的 分 配 掩 码 和 页 面 回 
收 期 间 扫描 页 的 数目 。 本 质 上 ， 它 会 裔 历 shrinker_1ist 中 所 有 的 收缩 器 : 
mm/vmscan.c 


static int shrink_ slab(long scanned, unsigned int gfp_mask) 
{ 
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struct shrinker *shrinker; 
unsigned long ret = 0; 


880 0180 UUOUOUOU0O0DO 





list_for each entry(shrinker, &shrinker_ list, list) { 


为 实现 页 缓存 收缩 和 收缩 器 缓存 收缩 之 间 的 均衡 ， 需 要 根据 scanned 值 来 计算 所 删除 缓存 项 的 数 
目 ， 而 scanned 又 是 根据 缓存 的 seek 因 子 和 当前 收缩 器 可 释放 缓存 项 的 最 大 数目 加 权 计 算 而 来 : 


mm/vmscan.c 














unsigned long long delta; 
unsigned long total_ scan; 
unsigned long max pass = (*shrinker->shrinker) (0, gfp mask); 


delta = (4 * scanned) / shrinker->seeks; 
delta *= max_ pass; 

do_div(delta, lru pages + 1); 
shrinker->nr += delta; 


if (shrinker->nr > max pass * 2) 
shrinker->nr = max_ pass * 2: 


按照 惯例 ， 用 0 作为 参数 调用 收缩 器 函数 将 返回 缓存 中 对 象 的 数目 。 内 核 还 保证 释放 的 对 象 不 会 
超过 缓存 项 的 半数 ， 因 而 不 会 发 生 无 限 循环 。 

计算 出 来 的 释放 对 象 数 累 积 到 shrinker->nr 中 。 当 该 值 超 过 sHRINK_BATCH 疯 值 (通常 定义 为 
128) 时 ， 将 触发 缓存 的 收缩: 


mm/vmscan.c 






































I 























total_scan = shrinker->nr; 

shrinker->nr = 0; 

while (total_ scan >= SHRINK_ BATCH) { 
long this_ scan = SHRINK_ BATCH; 
int shrink_ ret; 
int nr_before; 


nr_before = (*shrinker->shrink) (0, gfp mask); 
shrink ret = (*shrinker->shrink) (this_scan, gfp_ mask); 
if (shrink ret == -1) 

break; 
IE (shrink ret < nr_before) 

ret += nr_before - shrink_ ret; 
mod_page_state(slabs_scanned, this_ scan); 
total_scan -= this_ scan; 


cond_resched (); 


} 


shrinker->nr += total_scan; 


缓存 中 的 对 象 按 128 个 一 组 释放 ， 确 保 系统 不 会 被 阻塞 太 长 时 间 。 在 收缩 器 函数 的 各 次 调用 之 间 ， 
cond_rescheq 疝 内 核 提供 了 调度 时 机 ， 使 得 在 缓存 收缩 期 间 系统 延迟 不 会 变 得 太 高 。 


18.11 “小结 
Linux 内 核 的 基本 设计 决策 之 一 是 ， 绥 存 通常 不 是 固定 长 度 的 ， 但 可 以 动态 增长 ， 直 至 用 尽 所 有 
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物理 内 存 。 读 者 在 本 章 已 经 看 到 ， 向 物理 内 存 填充 信息 是 件 好 事情 ， 因 为 未 使 用 的 内 存 实际 上 是 资源 
的 浪费 ， 但 内 核 需要 一 种 机 制 ， 以 便 在 有 更 紧急 的 任务 需要 内 存 时 能 够 收缩 缓存 。 本 意向 读者 介绍 ] 
判断 内 存 页 是 否 被 活跃 使 用 的 机 制 。 这 可 以 用 于 从 内 存 逐 出 很 少 使 用 的 页 ， 根 据 页 的 用 法 ， 可 以 将 
丢弃 、 同 步 或 换 出 。 最 后 一 种 选项 实现 了 缓 在 的 道 ， 块 设备 可 用 于 扩展 实际 可 用 内 存 的 数量 ， 但 这 是 
以 访问 速度 为 代价 的 。 

内 核 使 用 两 种 机 制 来 回收 内 存 ; 一 个 周期 性 的 守护 进程 不 断 监视 内 存 的 使 用 ， 试 图 将 大 多 数 活动 
页 保持 在 物理 内 存 中 ， 还 有 一 些 例 程 来 处 理 严重 的 内 存 不 足 。 
虽然 页 面 回收 和 页 交换 是 按 页 进行 处 理 的 ， 但 内 核 还 提供 了 收缩 缓存 〈 缓 存 中 是 比较 小 的 对 象 
的 机 制 ， 本 章 末 向 读者 介绍 了 相关 的 例 程 。 
































































































































































































































通 


第 19 章 
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让 





常 ， 内 核 开 发 者 会 对 观察 和 检验 











于 很 多 原因 ， 























对 内 核 因 错误 配置 而 作出 








的 错误 


内 核 做 了 什么 的 人 。 例 如 ， 



































系统 






























































尺码 内 部 的 运作 情况 比较 感 兴趣 。 但 他 们 并 非 唯 一 想 知 道 
管理 员 可 能 想 要 观察 内 核 所 采取 的 决策 和 执行 的 操 
这 样 做 都 是 有 好 处 的 ， 如 增加 安全 性 、 对 出 现 故 障 的 东西 进行 事后 调查 等 。 例 如 ， 
































吴 决 策 进行 观察 很 有 意思 ， 而且 了 解 到 利用 了 错误 决策 的 进程 或 





同样 有 趣 。 本 章 将 描述 内 核 为 此 提供 的 方法 。 
19.1 概述 





显然， 























管理 员 在 监视 系统 方面 


























趣 ， 而 管理 












































的 计算 机 通常 作为 生产 机 器 。 








口 用 于 选择 所 记录 事件 类 型 
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图 19- 





wd 


内 核 模块 。 








口 在 使 用 审计 特性 时 ， 


影 加 


1 给 出 了 审计 子 系统 总 























发 的 机 
这 对 审计 机 制 
的 规则 ， 
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答 这 些 




















系统 性 能 









































需求， 这 与 开发 者 颇 为 不 同 。 程 序 员 通常 对 相对 底层 的 信息 感 兴 























避 题 ， 内 核 提 供 了 审计 子 系统 。 





























不 能 
































是 出 了 如 下 两 个 关键 性 的 约束 。 




















下 降 太 多 。 而 禁用 审计 机 制 ， 也 不 应 该 对 系统 性 

































































员 则 更 需要 一 个 高 层 的 视图 : 哪个 进程 打开 了 网 络 连 接 ? 哪个 用 户 启动 了 程序 ?内 核 在 何 
时 授予 或 拒绝 了 特定 的 权限 ? ”为 

程序 员 可 以 在 专用 于 开 器 上 进行 试验 ， 而 管理 员 面 对 的 是 一 个 不 同 的 问题 : 他 们 必须 监控 
必须 能 够 动态 改变 。 特 别 是 ， 不 能 要 求 重启 系统 或 插入 / 移 


能 带 来 负 





\ 体 设计 的 略图 。 内 核 包含 了 一 个 规则 数据 库 ， 其 规则 用 于 指定 记录 哪 
些 事件 。 该 数据 库 由 用 户 层 借助 auqaitct1 工 具 填 写 。 如 果 特 定 事 件 发 生 ， 而 内 核 根 据 数据 库 尖 
FF， 则 会 向 auditdq 守 护 进程 发 送 一 个 消息 。 该 守护 进程 可 以 将 消息 存储 到 一 个 日 志文 件 ， 供 


| 断 必 须 











一 步 检 查 。 用 户 层 和 内 核 之 间 的 通信 (规则 操作 和 消息 传输 〉 借助 一 个 netlink 套 接 字 进 行 ( 这 种 连 


0 章 讨 论 过 )。 














不 那么 频繁 的 事件 ， 审 计 对 


auditing framework )。 


为 进 一 
口 系统 调用 审计 : 允许 


所 





内 核 的 影 
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向 会 降 到 最 低 





步 降 低 对 系统 性 





能 的 影响 ， 


























记录 事件 的 数目 (如 限制 到 
用 系统 调用 审计 ， 对 系统 性 能 
口 所 有 不 直接 关联 至 

只 记录 特定 类 型 的 事件 。 这 对 





























QD 这 包括 检查 是 否 有 《以 及 哪个 ) 用户 


I 系统 调 
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在 内 核 进入 或 退出 系统 调用 时 进行 记录 。 
































审计 








特定 和 
造成 一 



































机 制 会 区 ee sl 如 下 所 述 。 























定 的 影响 是 不 可 避免 的 。 




















的 其 他 类 型 事件 ， 都 会 单独 处 理 。 完 全 可 以 禁用 系统 调 














系统 负荷 仅 有 极 轻微 的 影响 。 


比较 游 3 

















F 好 闲 ， 去 帘 视 他 们 无 权 访 问 的 文件 。 
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审计 机 制 的 内 核 和 用 户 层 部 分 是 彼此 依赖 的 。 因 为 如 果 只 记录 出 现 得 相对 
限度 ， 其 实现 亦 称 为 DD DDODDDDO dightweight 


管 可 以 指定 附加 约束 ， 限 制 
UID)， td hey 因而 ， 如 果 采 





和 计 ， 
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EE 


重要 的 是 ， 读 者 应 该 理 
个 被 审计 的 进程 通过 分 支 创 















































解 审计 和 
建 子 进程 ， 
































19-1 
I 更 规范 性 














那么 与 审 











trail) ， 对 从 整体 上 观察 某 个 应 
粹 的 系统 调用 追踪 (由 ptrace 实 1 











程序 的 行为 ， 或 昌 
现 ) 相 比 ， 审 计 机 种 





申 审计 子 有 统 概述 


的 技术 如 系统 
必 计 相关 的 属性 
民 跌 特定 


D 








将 








| 允许 以 一 种 











的 视角 ) 来 跟踪 《受信 任 的 ) 应 月 
有 部 分 都 可 以 通过 代码 进行 扩展 ， 

尽管 审计 是 
的 竞争 者 ， 未 包含 在 


19.2 ”审计 规则 


如 何 设置 约束 ， 对 特定 的 事 伯 
tr 
。 通 常 ， 
























































auditctl ( 一 个 审计 

0 
用 入 口 来 说 ， 

口 口 可 以 是 NEVI 
义 的 ， 因 
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ER 或 ALWAYS。 

















日 程 请 


官方 的 内 核 源 代码 中 ， 


类 型 4 
日 途 。 但 读者 还 应 该 查阅 与 
规则 由 以 
ee 人 00 对 给 出 
过 滤器 是 entry， 对 


为 给 定 过 滤器 类 型 的 





。 各 种 产生 








讨 











事件 的 持 





来 发 送 特定 上 


的 审计 
个 相当 通用 的 机 制 , 但 该 特性 


最 值得 当 
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消息 。 





























下 几 阐 








后 者 用 了 
所 有 规则 

















通过 将 一 个 NEVER 规 则 放 寿 

















EF 本 由 


1， 可 以 








过 滤器 将 可 审计 事件 的 集 





合 划分 为 更 小 的 类 另 


成 审 记 


但 被 OpenSU 





审计 
分 组 成 。 

的 。D 表示 该 规 由 
创建 进程 来 说 ， 
F 启 用 规则 ， 





都 
〈 暂 
由 ， 











多 的 约束 ， 才 能 选择 可 实际 探 人 
是 内 核 可 
口 和 0 可 
事件 。 这 里 可 以 使 
[有 具 ， 通 常 如 下 调 





以 对 字段 指 















































用 : 








判 的 事件 了 
以 观测 的 量 。 例 如 ， 这 可 以 是 某 个 UID、 
定 一 些 条 件 。 如 果 这 些 条 伯 


F、 小 于 等 于 , 等 等 ) 


用 常见 的 比较 运算 符 (小 于 、 


己 侍 




















人 oo 芝 吕 | 
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SE 采 月 


调用 追踪 之 间 的 差别 (和 关系 〉。 


] 户 的 操作 ， 都 是 很 


主意 的 使 朋 
上 )。 


Wp netlink 连 接 
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如 果 
建 YO0OO0ODO (audit 
重要 的 。 通 常 ， 与 纯 
更 面向 任务 的 方式 〈 即 从 一 个 更 高 


钧 发布 在 内 核 中 各 处 ， 但 几乎 内 核 














被 继承 。 这 人 允许 
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日 者 是 SELinux 和 AppArmor (SELinux 





志 记录 ?这 是 借助 


让 





EE 架 相 关 的 


有 计 规 则 完成 的 ， 本 章 将 讨论 审 
以 获得 更 多 信息 ， 特 别 是 


三 - 











手册 页 ， 


I 所属 的 事件 的 种 类 。 例 如 ， 对 系统 调 
过 滤器 是 task。 


























时 ) 禁止 对 可 
但 这 些 类 别 














而 前 者 用 


保存 在 一 个 列表 中 ， 匹 配 的 第 一 个 规则 将 被 应 用 。 





于 禁止 产生 审计 事件 。 这 是 非常 有 意 




















F 计 事件 的 规则 的 处 理 。 








产生 审 








| 分 宽泛 。 需 要 更 


所 涉及 的 内 容 仍然 - 
元 引 





























进程 
满足 ， 则 生成 一 条 审计 记录 事 








标识 符 、 


通过 指定 者 十 0 口 们 口 口 侣 元 


组 来 约束 。 字 上段 
设备 号 或 某 个 系统 调用 的 参数 。 0 口 
件 。 否则 ， 不 生成 审计 
所 规则 是 通过 auaitct1 





















































。 向 内 核 提 供 六 








root@meitner # auditctl1 -a filter,action -F field=value 








考察 一 个 例子 ， 如 何 对 root 




















户 创建 间 








折 进 程 的 所 有 习 








但 





root@meitner # auditctl -a task,always -F euid=0 








在 审计 系统 调用 时 ， 也 可 能 
列 例子 通知 内 核 记录 UID 为 1000 的 
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这 是 非常 可 





取 的 ) 限制 只 














] 户 未 能 打开 


文件 


的 所 有 事件 : 


进行 审计 ， 





对 特定 的 系统 调用 生成 审 1 



































884 01%0 0 0 
root@meitner auditctl1 -a exit,always -59 open -F success=0 -F auid=1000 
如 果 该 用 户 试 图 打开 /etc/shadow， 但 未 能 提供 所 需 的 凭据 ， 将 产生 以 下 日 志 记 录 : 
root@meitner cat /etc/audit/audit.1og 


type=SYSCALL msg=audit(1201369614.531:1518950): 





arch=c000003e 


syscall=2 


success=no exit=-13 a0=71ac78 al=0 a2=1b6 a3=0 items=1] ppid=3900 pid=8358 
auid=4294967295 uid=1000 gid=100 euid=1000 suid=1000 fsuid=1000 egid=100 


sgid=100 fsgid=100 tty=pts0 comm="cat" 


19.3 ”实现 





审计 实现 属于 内 核 最 核心 的 部 分 〈 其 源 代码 位 于 kernel/ 目 录 下 )。 这 些 凸 显 了 内 核 
要 性 的 强调 。 与 核心 内 核 目 录 下 的 所 有 
该 代码 基本 上 分 布 在 以 下 3 个 文件 中 。 
了 核心 的 审计 机 制 。 


























并 尽 可 能 干净 。 
口 kernel/audit.c 提 供 
口 kernel/auditsc.c 实 现 了 系统 调用 审计 。 
口 kernel/auditfilter.c 包 含 了 过 滤 审 计 事件 的 机 制 。 
男 一 个 文件 是 kernel/audit_tree.c, 其 








审计 。 
论 该 选项 。 














所 用 记录 格式 的 详细 文档 、 相 关 了 
redhat.com/peterm/audit 上 找到 ， 相 应 的 手 














述 的 实现 细节 之 中 了 ! 


与 内 核 的 大 部 分 内 容 相似 ， 一 旦 
数据 结构 
的 数据 结 


19.3.1 
审计 机 制 
这 对 系统 调用 审 








全 有 


计 是 特别 习 





























其 他 代码 相似 , 天 


exe="/usr/bin/cat" 


key= (null) 














发 者 对 该 框 











F 发 者 花费 了 很 多 心思 , 使 得 该 代码 紧凑 、 

















1 于 这 个 方面 需要 相当 多 代码 ， 而 实现 带 来 的 收益 村 











具 的 








AAA 


Ph 包含 了 一 些 数据 结构 和 例 程 , 可 以 对 整个 目录 树 进行 
对 较 小 ， 所 以 为 


痢 单 起 见 本 章 不 进一步 讨 
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要 与 用 户 层 实用 





程序 建立 


种 通信 机 











计 上 














下 文 存储 与 系统 调 月 
用 于 在 内 核 和 用 户 空间 传输 审 

















task_struct 








里 解 了 4 


构 分 为 3 个 主要 的 类 别 。 

















也 进行 了 描述 。 记 住 这 些 ， 


计 框 架 的 数据 结 








等 信息 ， 都 可 以 在 天 
读者 就 可 以 深入 到 本 节 所 描 



































构 ， 就 向 理解 其 实 玫 


F 发 者 的 网 站 http://people. 

















见 迈 出 了 一 大 步 。 





构 ， 





首先 ， 需 要 向 进 
要 的 。 其 次 ， 审 计 事件 、 过 滤 规 则 等 都 需要 
出。 





在 内 
































程 中 加 入 一 个 各 任务 数据 结 














核 中 表示 出 来 。 最 后 ， 需 


图 19-2 说 明了 各 种 不 同 数据 结构 的 关联 ， 这 些 形成 了 审计 机 制 的 核心 。task_struct 中 加 入 了 审 
昌 相 关 的 所 有 数据 ， 建 立 了 一 个 包含 所 有 审计 规则 的 


数据 库 。 我 们 在 这 里 ， 对 




















计数 据 的 数据 结构 不 是 特别 感 兴 趣 ， 因 而 图 19-2 中 没有 包括 进去 。 
audit_filter_list 
== 











审计 数据 库 





struct audit_ context 





audit_context 











图 19-2 


audit_ aux_data 





aux 




















审计 机 制 使 用 的 数据 结构 


































































































































































































19.3 DO 885 
1. 对 task_struct 的 扩展 
系统 中 的 每 个 进程 都 表示 为 一 个 struct task_struct 实 例 ， 这 在 第 2 章 讨论 过 。 该 结构 的 一 个 指 
针 类 型 的 成 员 用 于 癌 进 程 增加 审计 上 下 文 ， 如 下 所 示 : 
<sched.h> 
struct task_struct { 
struct audit_context *audit_context; 
} 
注意 ，augit_context 可 能 是 一 个 NULL 指 针 。 这 是 因为 , 仅 当 对 特定 进程 请 求 进行 系统 调用 审计 
时 ， 才 会 分 配 一 个 audit_context 实 例 。 如 果 没 有 进行 审计 ， 在 一 个 多 余数 据 结 构 上 消耗 内 存 是 不 必 
要 的 。struct audit_context 的 定义 如 下 : 
kernel/auditsc.c 
/* 各 进程 审计 上 下 文 。*/ 
struct audit_context { 
int in_syscall; /* 如 果 进 程 处 于 系统 调用 中 ， 则 为 1 */ 
enum audit_state state; 
unsigned int serial; /* 审计 记录 的 序列 号 */ 
struct timespec ctime; /* 系统 调用 进入 的 时 间 */ 
uid_ t loginuid; /* 登录 的 uid (身份 ) */ 
int major; /* 系统 调用 编号 */ 
unsigned long argv[4]; /* 系统 调用 参数 */ 
it return valid; /* 返回 码 是 有 效 的 ? */ 
long return_ code; /* 系统 调用 返回 码 */ 
int auditable; /* 如 果 应 该 写 出 记录 ， 则 为 1 */ 
IE name_count; 
struct audit names names{[AUDIT_ NAMES]; 
char * filterkey; /* 触发 该 记录 的 审计 规则 的 键 */ 
struct dentry * pwd; 
struct vfsmount * pwdmnt; 
struct audit_ context *previous; /* 于 舱 套 的 系统 调用 */ 
struct audit_aux_data *aux; 
struct audit_ aux_ data *aux_ pids; 


Bid. t 

Ls 

gid 七 
unsigned long 
it 


}3 








/* 保存 一 些 数据 ， 以 便 输出 task_struct */ 


Bid; 

uid, euid, suid, fsuid; 
gid, egid, sgid, fsgid; 
personality; 

arolry 


该 数据 结构 的 大 多 数 成 员 es 简要 描述 了 ， 源 代码 中 没有 给 出 文档 的 各 成 员 如 下 。 








口 state 表 示 审 计 的 活动 级 别 。 


系统 调用 )、AUDIT_BUILD_CONTI 

















i! 


能 的 状态 由 auqait_state 定 义 ， 即 AUDIT_DISABLED (不 记录 
ww 在 系统 调用 进入 时 填写 系统 调用 数据 )、 











D0, 














































































































AUDIT_RECORD_CONTEXT〔 创 建 审计 上 上 下文， 在 系统 调用 进入 时 填写 数据 ， 在 系统 调用 退出 时 

写 出 审计 记录 ) a 

人 周 用 审计 曾经 活动 ， 但 已 经 停止 的 情况 下 ，AUDIT_DISABLED 才 是 有 意义 的 。 如 果 
没有 进行 过 审计 ， 那 么 不 会 分 配 auqit_context， 也 不 需要 状态 。 











@ 另 一 个 选项 (AUDIT_SETU 


P_CONTEXT) 也 可 以 在 snum audit_state 的 定义 中 找到 ， 但 当 

















前 未 使 用 。 
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结构 的 准确 
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==) 
代 














IT 











FE 段 ; 


kernel/auditsc.c 
struct audit names { 


}3 


该 结构 的 各 成 员 描述 了 文 从 


const char 
he 

unsigned long 
dev_t 

umode_t 

uid 七 

GT 友 - 蕊 

dev_t 

U32 














内 容 ， 将 稍 后 定义 ) 
口 audit_aux_gdata 存 储 审计 上 下 文 之 外 的 辅助 数据 (相关 的 数据 结构 也 在 稍 后 描 
该 结构 的 成 员 为 aux 和 aux_pids， 前 者 
有 系统 调用 被 审计 时 接收 信号 。 
pid、sgid、personality 等 成 员 定义 在 结构 尾部 ， 与 task_struct 中 的 对 应 成 员 
一 个 给 定 task_struct 的 实例 复制 而 来 的 ， 以 便 在 不 访问 task_struct 的 情况 下 


在 审计 系统 调用 时 ,会 出 现 需 要 存储 文件 系统 对 象 有 关 信 息 的 需求 。 下 列 数据 结构 
储 该 信息 的 好 


口 names 数 组 可 以 存储 多 达 AUDIT_NAMES (通常 设置 为 20) 个 文件 系统 对 象 的 数据 ( 
。name_count 记 录 了 当前 处 于 使 用 中 的 数组 项 数 






























































] 于 一 般 用 途 ， 后 者 用 于 注册 进程 的 PID 








audit_ names 
目 。 
述 ) 。 类 型 为 


， 这 些 进 程 将 















































*name; 


name_len; 


ino; 
dev; 
mode; 
uid; 
gd; 
rdev; 
osid; 





2 hr 


/* name 的 字符 数 */ 











context 中 的 数组 names 可 以 存储 多 达 AUDIT_NAMES (通常 设置 为 20) 个 该 结构 的 实例 。 





进程 当前 的 外 
的 审计 模式 之 间 切 换 。 但 操作 的 名 称 ， 与 为 state 定 义 的 
































有 计 状 态 保 存在 audit_context 的 state 字 段 中 。 内 核定 义 了 审计 规则 

















常数 名 不 同 。 下 列 代 码 片 段 来 


成 对 照 。 其 
岂可 获取 这 些 


1 








提供 了 一 种 存 


F 系 统 对 象 的 常见 属性 ， 本 节 不 费力 解释 细节 了 。struct audit_ 


， 以 便 在 不 同 
源 于 规则 处 理 









































状态 机 ， 描 述 了 操作 名 与 常数 名 的 关系 (关于 如 何 将 审计 规则 传输 到 内 核 的 更 多 信息 ， 


他): 


kernel/auditsc.c 


switch 


(rule->action) 


Case AUDIT_NEVER: 
Case AUDIT_ALWAYS : 


} 


可 以 借助 augi 





结构 : 











kernel/auditsc.c 


struct audit _ aux data { 


}3 


next 实 现 了 aux_data 实 例 的 


*state 
*state 


t_context->aux 癌 audit_context 实 例 附 加 





break; 
break; 


AUDIT_DISABLED; 
AUDIT_RECORD_ CONTEXT; 





























struct audit_ aux data *next; 


int 





在 于 嵌入 到 











个 更 高 层 的 数据 结构 
出 了 如 何 存储 IPC 对 象 的 审计 信息 : 





kernel/auditsc.c 
struct audit aux data ipcctl f{ 
struct audit_aux data 


struct ipc_ perm 


type; 























个 





Ph， 后 者 提供 实际 数据 。 为 








有 链表， 而 type 表 示 





























d; 
p; 


请 参考 19.3.1 


甫 助 数 据 。 内 核 为 此 采用 了 下 列 数据 


甫 助 数 据 的 类 型 。audit_aux_data 的 作用 
例子 来 说 明 这 一 点 ， 下 


列 代码 片段 给 


19.3 吕 口 887 





unsigned long qbytes; 
uid 七 i; 
gid 七 gid; 
mode_t mode; 
u32 osid; 


二 


注意 ，struct audit_aux_data 实 例 位 于 audit_aux_data_ipc 最 开始 处 ， 接 下 来 才 是 实际 的 数 

据 。 这 就 可 以 使 用 通用 的 链表 遍历 和 操作 方法 。 转 化 为 具体 的 数据 类 型 即 可 显示 正确 的 信息 。 
当前 ， 内 核 为 大 量 对 象 类 型 定义 了 辅助 数据 结构 ， 如 下 所 述 。 
口 audit_aux data_ipcctl (用 于 AUDIT_IPC 和 AUDIT_IPC_SET_PERM 类 型 的 辅助 对 象 )。 
口 audit_aux_data_socketcall (类 型 AUDIT_SOCKETCALL ) 。 

口 audit_aux_data_sockaddr (类 型 AUDIT_SOCKADDR)。 

口 audit_aux _ data_datapath (类 型 AUDIT_AVC_PATH)。 

口 audit_aux_data_data_execve〔( 类 型 AUDIT_EXECVE)。 








































































































口 audit aux data mq {open, sendrewcv, notify, getsetattr} (类 型 AUDIT_MO_{OPEN,，, 
SENDRECV, NOTIFY, GETSETATTR} )。 






































口 audit_aux_ data_ fq pair (类 型 AUDIT_FD_PAIR)。 

于 所 有 其 他 辅助 审计 数据 结构 的 布局 都 类 似 ， 所 以 本 节 不 一 一 次 述 。 其 定义 ， 读 者 可 以 参考 
kernel/auditsc.c。 

2. 记录 、 规 则 和 过 滤 

用 于 格式 化 一 个 审计 记录 的 基本 数据 结构 定义 如 下 : 

kernel/audit.c 

struct audit_ buffer { 







































































struct list_head 1 

struct sk_buff *Skb; /* 已 格式 化 的 skb， 准 备 发 送 */ 
struct audit_context *ctx; /* NULIL 或 相关 联 的 审计 上 下 文 */ 
gfp. t gfp_mask; 


ji 


list 是 一 个 链表 元 素 , 用 于 将 审计 缓冲 区 存储 在 各 种 链表 上 。 由 于 netlink 套 接 字 用 于 在 内 核 和 用 
户 层 之 间 通 信 ， 消 息 使 用 了 一 个 sk_buff 类 型 的 套 接 字 缓冲 区 进行 封装 。 与 审计 上 下 文 的 关联 由 ctx 
实现 (如果 因 为 禁用 了 系统 调用 审计 , 而 没有 审计 上 下 文 存在 , 该 成 员 也 可 能 是 NULL 指 针 ), gfp_mask 
确定 了 从 哪个 内 存 域 分 配 内 存 。 
于 审计 缓冲 区 经 党 使 用 ， 内 核 保持 了 若干 预 分 配 的 audit_puffer 实 例 ， 随 时 可 使 用 。 
audqit_buffer_alloc 负 责 分 配 和 初始 化 新 缓冲 区 ，auqit_buffer_free 负 责 释 放 缓 冲 区 ， 对 审计 组 
冲 区 缓存 的 处 理 是 由 这 些 函数 隐 式 进行 的 。 其 实现 比较 简单 ， 因 此 在 这 里 不 进一步 讨论 了 。 
从 用 户 空 间 传输 到 内 核 的 审计 规则 ， 由 下 列 数据 结构 表示 : " 
<audit.h> 
struct audit_ rule data { 
_u32 flags; /* AUDIT_ PER_ {TASK,CALL}、 AUDIT PREPEND */ 
_u32 action; /* AUDIT_NEVER、 AUDIT POSSIBLE、 AUDIT ALWAYS */ 
_u32 field count; 
_u32 mask[AUDIT _BITMASK_SIZE]; /* 影响 的 系统 调用 */ 
_u32 fields[AUDIT_MAX_FIELDS] ; 























































































































































































































































































































Q@ 前 一 个 内 核 版 本 采用 了 稍微 简单 些 的 struct audit_rule， 它 不 允许 使 用 非 整数 或 变 长 的 字符 串 数 据 字 段 。 该 
结构 仍然 存在 于 内 核 中 ， 以 便 向 用 户 空间 提供 后 向 兼容 性 ， 但 新 代码 不 能 使 用 该 结构 。 


















































888 0 190 0 [0 





__u32 values [AUDIT MAX_ FIELDS]; 


_u32 fieldflags[AUDIT MAX_ FIELDS]; 
__u32 buflen; /* 字符 串 字 段 的 总 长 */ 








char buf[0]; /* 字符 串 字 段 缓冲 区 





























和 


| 选择 可 用 : 























户 ] 





























生 的 消息 应 用 规则 */ 

















ER_TASK 0x01 /* 在 进程 创建 〈 不 是 系统 调用 ) 时 应 用 规 
ER_ENTRY 0x02 /* 在 系统 调用 进入 时 应 用 规则 */ 
该 规则 监视 文件 系统 */ 

































































}; 
首先 ，flags 表 示 该 规则 激活 的 时 机 。 有 下 图 
<audit.h> 
define AUDIT_FILTER_USER 0x00 /* 对 
define AUDIT_ FILTI 
define AUDIT_ FILT] 
define AUDIT_FILTER_WATCH 0x03 /* 应 用 
define AUDIT_ FILTI 
define A 
在 规则 匹配 时 ， 可 以 进行 两 种 操作 (由 action 表 示 )。AU 




















ALWAYS 生 成 审计 记录 。? 














如 果 局 用 了 系统 调用 审计 ，mask 通 过 位 串 指 定 了 审计 操作 影响 的 系统 调用 。 











ER_EXIT 0x04 /* 在 系统 调用 退出 时 应 用 规则 */ 
UDIT_FILTER_TYPE 0x05 /* 在 audit_log_start 了 时 应 用 规则 */ 


DIT_NEVER 表 示 什 么 都 不 做 ，AUDIT_ 










































































字段 / 值 对 〈 即 fieldas 和 values 两 个 数组 ) 用 于 指定 审计 规则 适用 的 条 件 。 






































则 */ 











字段 中 指定 的 量 标识 





| 











内 核 内 部 的 基 个 对 象 ， 例 如 ， 可 能 为 一 个 进 和 ID。 





等 ) ， 指 定 可 触发 审计 事件 的 字段 值 集合 。 一 个 特定 的 例子 就 是 ， 
队列 时 ， 创建 一 个 审计 记录 ”。fields 和 values 数 组 表示 这 样 的 对 儿 ， 而 运 
fieldflags 成 员 中 。 fiela_count 表 示 规 则 中 包含 的 字段/ 值 对 














而 1 


直 则 与 一 些 比 较 运 算 符 联 月 








的 数目 。fields 数 组 项 的 可 能 值 在 


日 (例如, 小于、 大 于 ， 























“在 PID 为 0 的 进程 打开 一 个 消息 





运算 符 标志 则 保存 在 














LI 











<augit.h> 中 列 出 。 内 核 为 此 定义 了 许多 值 ， 本 市 不 可 能 全 部 详细 列 出 ， 读 者 可 以 参考 用 户 层 审计 工 









































<audit.h> 
#define AUDIT PID 0 
#define AUDIT UID 1 
#define AUDIT EUID 2 
#define AUDIT_ SUID 3 




















values 数 组 只 能 指定 数值 ， 
struct _ audit_rule_data 尾 部 添加 了 一 个 字符 日 
buflen 表 示 。 








IL 








struct audit_rule_data 用 于 从 用 户 空 间 向 内 核 传输 规则 ， 


构 来 表示 规则 。 其 定义 如 下 : 


kernel/audit.h 

struct audit fielgqd { 
u32 type; 
u32 val; 
U3 Op 


} 

struct audit krule { 
int vers_ops; 
u32 flagss: 


U32 listnrey 
u32 action; 





@ AUDIT_POSSIBLE 仍 然 作 为 另 一 个 选项 列 出 ， 但 该 值 已 经 废弃 ， 不 再 使 用 。 


有 其 的 文档 。 通 常 ， 所 定义 的 常数 名 称 都 是 自明 的 ， 如 以 下 例子 所 示 











| 





如 果 要 创建 涉及 文件 名 等 非 数 值 量 的 规则 ， 
成 员 。 它 可 以 通过 伪 数 组 bu 





由 
























































这 是 不 够 的 。 因 而 向 
f 访 问 ， 字 符 串 长 度 由 


























而 内 核 内 部 则 使 用 另外 两 个 数据 结 






































































































































19.3 DO 889 
u32 mask[AUDIT BITMASK_ SIZE]; 
u32 buflen; /* 用 于 在 列 出 规则 时 分 配 的 数据 */ 
u32 field count; 
char *filterkey; /* 将 事件 绑 定 到 规则 */ 
struct audit. field *fields; 
}; 
其 内 容 类 似 于 struct audit_rule_qdata， 但 采用 的 数据 类 型 能 够 更 方便 地 操作 和 人 遍历。 所 有 的 
规则 都 包含 在 fields 指 向 的 数组 中 ， 每 个 规则 由 一 个 struct audit_field 实 例 表 示 。 
为 在 两 种 审计 规则 之 间 表 示 转 换 ， 内核 提 供 了 辅助 函数 augit_rule_to_entry。 由 于 该 变换 在 一 
定 程度 上 是 一 个 机 械 的 过 程 ， 不 会 使 我 们 更 深入 了 解 规 则 的 工作 方式 ， 因 而 本 节 不 会 费力 详细 讨论 相 
关 代 码 。 读 者 只 需要 知道 ， 该 例 程 获取 一 个 struct audit_rule 实 例 ， 将 其 转换 为 一 个 struct 








audit_entry 实 例 ， 
kernel/audit.h 





struct audit_ entry { 


SEEUCE LL 


st_head list; 


struct rcu_ head rcu; 
struct audit_ krule rule; 


全 





kernel/auditsc.c 























后 者 是 audit_krule 的 容器 。 


该 容器 将 规则 存储 在 过 滤器 链表 上 。augdit_filter_1list 提 供 了 6 个 不 同 的 过 滤器 链表 。 








































































































static struct list head audit_ filter list[AUDIT NR_FILTERS] = { 
LIST HEAD INIT(audit filter list[0]), 
LIST_HEAD_INIT(audit_filter list[5]), 
}3 
每 个 链表 都 对 应 着 一 个 AUDIT_FILTER_ 宏 ， 该 宏 定义 了 应 用 规则 的 特定 时 机 ， 而 满足 条 件 的 所 有 
规则 ， 都 保存 在 对 应 的 链表 上 。 
注意 ， 在 audaitq 守 护 进程 向 内 核发 送 适 当 的 请 求 时 ， 将 调用 auait_adqq_rule 添 加 新 的 规则 。 由 
于 该 例 程 同样 相当 技术 化 ， 基 本 上 比较 无 趣 ， 所 以 本 节 不 会 详细 讨论 该 函数 。 
19.3.2 ”初始 化 
审计 子 系统 的 初始 化 由 augdit_init 执 行 。 除了 设置 数据 结构 之 外 , 该 函数 还 创建 一 个 netlink 套 接 
子 ， 与 用 户 层 通信 ， 如 下 : 
kernel/audit.c 
static int _ init audit init(void) 
{ 


audit_sock = netlink kernel create(&init net, NETLINK_AU. 


a 
F 述 代码 片段 显示 ， 任 何 





DLE:;. “0 


audit_ receive, NULL, THIS_ MODULE 








接收 的 分 组 都 























1audit_receive 处 班 








请 注意 ， 有 一 个 内 核 


人 和 人、 人 
命令 








-组 














mw 


EE 


enable_audit 中 。 如 果 设 置 为 0， 则 完全 
况 下 没有 提供 任何 规则 ， 仅 在 向 内 核 提 供 了 适当 规则 的 情况 、 


已 实现 了 一 个 分 配器 ， 稍 后 讨论 。 
































行 参数 (audit) 可 以 设置 为 0 或 1。 在 初始 化 期 间 ， 该 值 存储 在 全 局 变 
禁用 审计 。 在 该 值 设 置 为 1 时 ， 将 启用 审计 ， 但 在 默认 情 
下 ， 才 会 生成 审计 事件 。 
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还 有 一 个 内 核 线 程 用 于 审计 机 制 。 
户 空间 守护 进程 auditad 发 送 第 一 条 消 ， 


乎 寻常 的 方式 : 


程 执行 的 函数 是 kauditq_thread,， 
因为 审计 事件 可 能 寿 

















旦 用 


























该 线程 并 非 在 子 系统 初始 化 期 间 


县 ， 即 启动 





1 














启动 ， 而 采用 了 一 种 有 些 异 
内 核 线 程 kaugdit_ 





task。 该 线 














负责 ; 


每 准备 好 的 消息 从 内 核发 送 到 
E 中 断 处 理 


用 



























































该 守护 进程 是 必要 的 ， 
使 用 ， 完 成 的 审计 记录 将 被 放 在 一 个 队列 上 ， 














息 的 发 送 和 


I 接收 者 

















19.3.3 ”处 理 请 求 





"是 通过 




















稍 后 由 内 核 守护 进程 ”处理 ， 将 其 发 送 


和 和 标准 的 队列 处 理 









































简单 的 netlink 操 




















户 空间 应 月 








程序 可 能 《依赖 通常 的 安全 检查 结果 ) 向 日 























个 例 程 的 实现 都 比较 相似 ， 本 节 只 讨论 分 派 机 制 以 及 一 个 范例 。 




















每 当 有 一 个 新 的 请 求 通过 netlink 套 接 字 到 达 时 ， 网 络 子 系统 都 会 调 
代码 流程 图 如 图 19-3 所 示 。 








audqit_receive 处 班 











如 果 请 求 明 
个 确认 。 
在 图 

















19-4 中 的 代码 流 























audit_ receive 


audit receive_skb 


丢弃 无 效 请 求 

























audit_ receive msg 


图 19-3”audit_receive 的 代码 流程 图 















E 所 需 的 锁 并 将 实际 工作 委托 给 augi 
的 请 求 。 长 度 无 效 的 请 求 会 被 直接 丢弃 ， 不 会 另 有 通知 。 正 
第 要 求 进 行 确认 (由 NLM_F_ACK 标 志 表 示 ) 9 或 请 求 处 理 
























































失败 ， 则 
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且 不 站 





户 空间 守护 进程 。 
程序 内 部 结束 ， 但 netlink 函 数 不 能 在 该 上 下 文中 


请 注意 ， 














户 空间 。 消 


回 用 





函数 完成 ， 如 第 12 章 讲述 的 。 


FF 计 子 系统 发 出 请 求 。 满 足 此 类 请 求 的 各 


jaudit_receive。 该 函数 的 


上 _skb_receive。 后 者 遍历 队列 中 未 完成 
的 请 求 将 转送 给 audit_receive_msg。 
jnetlink_ack 发 送 一 


图 中 ，audit_receive_message 首 先 使 用 audit_netlink_ok 来 验证 发 送 











省 是 否 允 许 执行 该 请 求 。 如 果 请 求 得 到 授权 ， 该 函数 会 验证 内 核 守护 进程 








不 全 已 




















有 发 送 过 请 求 ， 导 致 内 核 守护 进程 没有 运行 ， 则 启动 kaugditad。 


audit_ receive msg 










audit netlink_ ok 


kauditd 没 有 运行 ? 


根据 请 求 类 型 分 派 


图 19-4 audit_receive_msg 的 代码 流程 








启动 kauditd 




















图 








经 运行 。 如 果 山 


前 没 


该 函数 剩余 的 部 分 是 一 个 分 配器 ， 在 从 netlink 消 息 中 提取 出 押 需 的 信息 之 后 ， 根 据 请 求 的 类 型 调 











请 注 ; 





um 








的 守护 ; 








程 是 指 内 核 线程 。 





19.3 吕 DU 891 



































用 具体 的 处 理 函 数 。 照 例 ， 该 分 配器 是 通过 一 个 大 的 switch 语 句 实现 的 。 

现在 ， 我 们 将 注意 力 集中 到 有 关 请 求 处 理 的 一 个 特定 例子 上 ， 即 内 核 如 何 向 规则 数据 库 添 加 新 的 
审计 规则 。 对 于 AUDIT_ADD_RULE 类 型 的 请 求 ， 分 配器 委托 augit_receive_filter 进 行进 一 步 处 理 ， 
下 述 代码 片段 负责 处 理 该 请 求 : 


kernel/auditfilter.c 
switch (type) { 















































Case AUDIT_ADD: 
Case AUDIT_ADD_RUDE : 
if (type == AUDIT_ADD) 
entry = audit_ rule to_ entry(data); 





else 

entry = audit data to_ entry(data, datasz); 
if (IS_ERR(entry)) 

return PTR_ERR (entry); 





err = audit adqd rule(entry, 
&audit filter list[entry->rule.listnr]); 
audit_ log _ rule change(loginuid, sid, "add", &entry->rule, !err); 


break; 


} 

内 核 仅 对 后 向 兼容 性 支持 请 求 类 型 AyDIT_ADD， 因 此 该 类 型 在 这 里 是 不 重要 的 。 此 前 提 到 过 
audit_data_to_entry: 它 获取 一 个 来 自用 户 空间 的 struct audit_rule_data 实 例 ， 将 其 转换 为 
struct audit_krule 的 一 个 实例 ， 后 者 是 内 核 内 部 对 审计 规则 的 表示 。 接 下 来 ，audit_adq_rule 
负责 将 新 构建 的 对 象 置 于 auqait_filter_list 中 适当 的 审计 规则 链表 上 。 由 于 添加 审计 规则 是 一 个 值 
得 记忆 的 决策 ，augit_log_rule_change 准 备 一 个 对 应 的 审计 记录 消息 , 该 消息 将 被 发 送 到 用 户 层 的 
审计 守护 进程 。 

19.3.4 ”记录 事件 

在 所 有 基础 设施 都 就 位 之 后 ， 现 在 开始 详细 讲述 审计 是 如 何 实 际 实现 的 。 该 过 程 分 为 3 个 阶段 。 
首先 ， 用 audit_log_start 开 始 记 录 过 程 。 然 后 ， 用 audit_log_format 格 式 化 一 个 记录 消息 ， 最 后 
用 audit_log_engd 结 束 该 审计 记录 ， 消 息 将 排队 传输 到 审计 守护 进程 。 

1. 开始 审计 

调用 audit_1log_start 开 始 审计 。 相 关 的 代码 流程 图 在 图 19-5 给 出 。 


audit_ log_ start 


考虑 积压 队列 的 长 度 限 制 和 发 送 数据 的 速率 限制 


audit_ buffer _ alloc 


audit_get_stamp 


audit_ log format 


图 19-5”auqdit_log_start 的 代码 流程 图 






































































































































































































本 质 上 ，audit_1log_start 的 工作 是 建立 一 个 audit_buffer 实 例 ， 并 将 其 











回 给 调用 者 ; 但 在 
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此 之 前 ， 需 要 考虑 积压 队列 的 长 度 限制 和 发 送 数据 的 速率 限制 。 

积压 队列 ( 即 存储 完成 后 的 审计 记录 的 队列 ) 的 最 大 长 度 由 全 局 变量 audit_backlog_1limit 给 出 。 
如 果 队 列 长 度 大 于 该 值 ，” 那 么 audit_1log_start 将 调度 一 个 超时 定时 器 ， 以 便 在 稍 后 重 试 该 操作 ， 
预期 在 此 期 间 审 计 记 录 的 积压 已 经 减轻 。 此 外 ， 还 需要 检查 数据 发 送 速 率 ， 确 保 每 秒 发 送 的 消息 数 不 
超过 特定 的 限制 。 全 局 变量 audqit_rate_limit 确 定 了 最 大 的 数据 发 送 速 率 。 如 果 超 过 该 速率 ， 则 向 
守护 进程 发 送 一 个 消息 表明 该 情况 ， 并 停止 分 配 audqit_buffer 实 例 。 为 避免 拒绝 服务 攻击 ， 这 些 措 
施 是 必要 的 ， 它 们 针对 发 生 频率 过 高 的 审计 事件 提供 了 保护 。 

如 果 积 压 队列 长 度 和 数据 速率 限制 的 检查 都 能 够 通过 ， 即 允许 创建 新 的 审计 缓冲 区 ， 则 使 用 
audit_pbuffer_alloc 来 分 配 一 个 audit_buffer 实 例 。 在 该 缓冲 区 返回 给 调用 者 之 前 ，audit_get_ 
stamp 提 供 了 一 个 唯一 的 序列 号 ， 并 向 缓冲 区 写 入 一 个 初始 的 记录 消息 ， 其 中 包含 创建 时 间 和 序列 号 。 

2. 写 入 记录 消息 

audit_log_format 用 于 向 一 个 给 定 的 审计 缓冲 区 写 入 一 条 记录 消息 。 该 函数 的 原型 如 下 : 


kernel/audit.c 
void audit_ log format(struct audit buffer *ab, const char *fmt, ...) 


根据 函数 的 原型 定义 可 以 判断 出 ，audit_log_format 是 printk 的 一 个 变 体 。 它 会 计算 fmt 给 出 
的 格式 串 并 用 va_args 参 数列 表 给 出 的 参数 进行 填充 ， 结 果 囊 写 入 到 与 审计 缓冲 区 相关 的 套 搂 字 组 六 
区 的 数据 空间 。 

3. 结束 审计 记录 

es 已 经 写 入 到 审计 缓冲 区 之 后 ,需要 调用 audit_1log_enq 确 保 将 审计 记录 
发 送 给 用 户 空间 守护 进程 。 该 函数 的 代码 流程 图 如 图 19-6 所 示 。 


检查 数据 发 送 速 率 



































































































































































































































































































将 套 接 字 绥 冲 





区 加 入 队列 















audit buffer free 
图 19-6” audit_log_engd 的 代码 流程 图 


在 进行 数据 发 送 速 率 的 检查 后 〈 如 果 消 息 发 送 太 频繁 ， 那 么 当前 的 消息 会 丢失 ， 且 会 将 一 个 “ 数 
据 发 送 速率 超 限 ”的 消息 发 送 给 守护 进程 )》 ， 与 该 审计 缓冲 区 相关 联 的 套 接 字 缓冲 区 就 被 放置 到 一 个 
队列 上 ， 稍 后 由 kauqitq 处 理 : 


kernel/audit.c 
void audit log end(struct audit buffer *ab) 


{ 

















































































































struct nlmsghdr *nlh = (struct nlmsghdr *)ab->skb->data; 
nlh->nlmsg_len = ab->skb->len - NLMSG_ SPACE(0); 

skb_ queue tail(&audit_ skb queue, ab->skb); 

ab->skb = NULL; 

wake_up_interruptible(&kauditdqd wait); 








Q@ 请 注意 ， 分 配 时 没有 指定 _GFP_WaTT 标 志 的 审计 记录 ， 内 核 将 认为 这 种 审计 记录 更 为 紧急 。 阻 止 此 类 审计 记录 创 
建 的 积压 队列 长 度 阔 值 ， 比 其 他 分 配 类 型 的 阔 值 要 高 一 些 。 
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} 
注意 ， 内 核 提 供 了 便捷 函数 audit_1og， 它 浓缩 了 上 述 3 项 任务 (开始 一 个 审计 记录 ， 写 入 消息 ， 
结束 该 记录 ) 。 其 原型 如 下 : 

<audit.h> 

struct audit buffer *audit log_ start(struct audit context *ctx, 


gfp_t gfp mask, int type, 
Senat. Char. “tm emily 























19.3.5 ”系统 调用 审计 


到 现在 为 止 , 已 经 描述 了 系统 调用 审计 所 需 的 所 有 数据 结构 和 机 制 ， 本 节 将 描述 系统 调用 审计 的 
实现 。 系 统 调用 审计 不 同 于 基本 的 审计 机 制 ， 它 依赖 task_struct 中 扩展 出 的 审计 上 下 文 ， 这 在 前 面 
的 内 容 中 已 经 介绍 过 了 。 

1. 分 配 审计 上 下 文 
首先 ， 需 要 考虑 是 在 何 种 环境 下 分 配 审计 上 下 文 。 因 为 这 是 一 个 代价 很 高 的 操作 ， 所 以 仅 在 显 式 
启用 了 系统 调用 审计 的 情况 下 ， 才 会 执行 该 操作 。 如 果 确 实 启 用 了 系统 调用 审计 ， 那 么 将 在 
copy_process ( 源 于 fork 系 统 调用 ) 中 调用 audit_alloc 来 分 配 一 个 新 的 struct audit_context 
实例 。 图 19-7 给 出 了 auqit_context 的 代码 流程 图 。 


过 滤器 操作 的 结果 是 AUDIT_DISABLED? 函数 不 分 配 审计 上 下 文 ， 执 行 结束 


设置 TIF_SYSCALL_AUDIT 标 志 





































































































































































图 19-7 augdit_context 的 代码 流程 图 


首先 ，augdit_filter_task 确 定 是 否 需 要 对 当前 进程 激活 系统 调用 审计 。 如 果 完 全 停 用 了 审计 系 
统 , 连 此 调用 都 不 需要 , 因而 可 以 立即 退出 audit_alloc 该 函数 应 用 注册 类 型 为 AUDIT_FILTER_TASK 
的 过 滤器 。 如 果 处 理 相 关 过 滤器 得 出 的 判定 是 AUDIT_DISABLED，audit_alloc 可 以 立即 返回 而 无 须 
分 配 audqit_context 实 例 ， 因 为 不 需要 系统 调用 审计 《审计 子 系统 的 其 余 代 码 很 容易 检查 这 一 点 ， 这 
种 情况 下 task_struct 的 audit_context 成 员 是 NULL 指 针 )。 
如 果 需 要 系统 调用 审计 , 则 audit_alloc_context 分 配 一 个 新 的 audit_context 实 例 。 该 例 程 准 
备 审计 上 下 文 实例 ， 并 将 state 成 员 设置 为 过 滤器 操作 给 出 的 状态 值 。 

最 后 ， 内 核 保存 当前 运行 进程 的 登录 UID 〈 这 对 于 创建 审计 线索 是 必要 的 ， 因 为 进程 通过 fork 等 
系统 调用 分 文 时 ， 审 计 上 下 文 仍然 可 以 维持 原 有 的 登录 UID)， 如 下 : 


kernel/auditsc.c 
int audit alloc(struct task_ struct *tsk) 


{ 



















































































































































































/* 保存 登录 的 uiqd */ 





894 0 190 0 0 





context->loginuid = -1; 
if (current->audit_ context) 
context->loginuid = current->audit _ context->loginuid; 


tsk->audit_context = context; 
set_tsk thread flag(tsk, TIF_SYSCALL AUDIT); 
return 0; 


} 

另外 , 在 当前 进程 对 应 的 task_struct 实 例 中 ， 还 需要 设置 TIF_SYSCALL_AUDIT 标 志 。 要 使 底层 
的 中 断 处 理 代码 在 中 断 进入 和 退出 时 调用 审计 相关 函数 ， 这 样 做 是 必须 的 ， 否 则 ， 中 断 处 理 代码 将 因 
为 性 能 原因 而 跳 过 这 些 步骤 。 
注意 ， 对 audit_alloc 的 调用 源 自 fork 系 统 调用 的 处 理 过 程 ,因此 每 当 进 程 创建 自身 的 一 个 副本 
时 ， 都 需要 决定 是 否 需 要 启用 系统 调用 审计 。 这 确保 了 对 系统 中 的 每 个 进程 都 会 执行 相关 的 检查 。 

2. 系统 调用 事件 

在 系统 调用 进入 和 完成 时 会 涉及 审计 子 系统 , 进入 时 将 调用 audit_syscall_entry, 完成 时 将 调 
用 auqit_syscall_exit。 这 需要 底层 、 特 定 于 体系 结构 的 中 断 处 理 代 码 的 支持 。 该 支持 集成 在 
do_syscall_trace 中 ， 每 当中 断 发 生 或 中 断 处 理 完成 时 ， 底 层 的 中 断 处 理 代 码 都 会 调用 该 函数 。" 对 
于 IA-32 体 系 结 构 ， 其 实现 如 下 : 


arch/x86/kernel/ptrace_32.c 
_ attribute _ _((regparm(3))) 
int do_syscall trace(struct Pt_regs *regs, int entryexit) 


{ 



































































































































































































































































































































if (unlikely(current->audit context) && !entryexit) 
audit_syscall_ entry(current, AUDIT ARCH 1386, regs->orig eax, 
regs->ebx, regs->ecx, regs->edx, regs->esi); 


if (unlikely (current->audit_ context)) 
audit_syscall_ exit (current, AUDITSC_ RESULT (regs->eax), 


regs->eax); 


图 19-8 给 出 了 audit_syscall_entry 的 代码 流程 图 


audit_ syscall entry 


j 于 和 嵌 套 系统 调用 


o 














































































FP 保存 系统 调用 


audit_ filter_ syscall 


19-8 ” audit_syscall_entry 的 代码 流程 图 






































现 









































Q@ 此 外 ， 还 需要 设置 TIF_SYSCALL_AUDIT 标 志 。 在 audit_alloc 中 ， 如 果 审 计 过 滤器 确定 需要 对 一 个 进程 激活 审计 ， 


Ee 


则 设置 该 标志 。 
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如 果 系 统 调用 发 生 在 另 一 个 系统 调用 被 审计 期 间 , 那么 可 能 需要 将 多 个 审计 上 下 文 连接 起 来 一 一 
分 配 一 个 新 的 审计 上 下 文 ， 将 前 一 个 与 它 连接 起 来 ， 新 分 配 的 审计 上 下 文 的 用 法 与 前 一 个 类 似 。 

系统 调用 编号 、 传 递 到 系统 调用 的 参数 (由 al... a4 表 示 ) 及 系统 体系 结构 (如 IA-32 为 
AUDIT_ARCH_i386， 还 有 表示 其 他 体系 结构 的 常数 ， 都 定义 在 <audit.h> 中 ) ， 这 些 都 保存 在 审计 上 
下 文中 ， 如 下 : 

kernel/auditsc.c 

void audit_ syscall entry(struct task_ struct *tsk, int arch, int major, 


unsigned long al, unsigned long a2, 
unsigned long a3, unsigned long a4) 
















































































{ 
context->arch = arch; 
context->major = MajOry 
context->argv[0] 千 力 二 3 
context->argv[1] = 2 
context->argv[2] 和 
context->argv[3] = a4: 

; 











根据 进程 的 审计 模式 ， 需 要 使 用 audit_filter_syscall 来 进行 过 滤 ， 该 函数 将 应 用 内 核 中 注册 
的 所 有 适当 的 过 滤器 ， 如 下 : 
kernel/auditsc.c 
state = context->state; 


if (!context->dummy && (state == AUDIT SETUP CONTEXT | | state == AUDIT BUILD CONTEXT)) 
state = audit filter syscall (tsk, context, &audit filter list[AUDIT FILTER FNIRY]); 






































if (likely(state == AUDIT DISABLED)) 
return; 
context->serial = 0; 


context->ctime = CURRENT_ TIME; 
context->in _ syscall = 1; 
context->auditable = !!(state == AUDIT RECORD_ CONTEXT); 




















注意 ， 如 果 启 用 了 审计 ,但 没有 定义 审计 规则 ， 则 context->dummy 会 设置 为 非 0 值 。 在 这 种 情况 
下 ， 过 滤 显 然 是 不 必要 的 。 
我 们 现在 把 注意 力 转向 系统 调用 退出 时 如 何 处 理 审计 。audit_syscall_exit 的 代码 流程 图 在 图 
19-9 给 出 。 最 重要 的 部 分 是 对 audit_1log_exit 的 调用 , 其 中 对 审计 上 下 文 包含 的 信息 创建 了 一 个 审计 
记录 ， 如 下 : 
kernel/auditsc.c 


static void audit_ log_ exit(struct audit_ context *context, struct task_ struct *tsk) 
# { 


Pe 




























































































audit_ log_ format(ab, "arch=%x syscall=%d", 
context->arch, context->major); 


if (context->return valid) 
audit log _ format(ab, " success=%s exit=%ld", 
(context->return valid==AUDITSC _ SUCCESS) ?"yes":"no", 
context->return code); 


audit_log_ format (ab, 
" a0=%$1lx al=%$]x a2=%l]lx a3=%lx items=%d" 





896 0 190 0 [0 





" pid=%d auid=%u uid=%u gid=%u" 
" euid=%u suid=%u fsuid=%u" 

" egid=%u sgid=%u fsgid=%u", 
context->argv[0], 
Context->argv[1], 
context->argv[2], 
context->argv[3], 
context->name_count, 

context->pid, 

context->loginuid, 

context->uid, 

context->gid, 

context->euid, context->suid, context->fsuidqd, 
context->egid, context->sgid, context->fsgid); 


i 
上 述 代 码 将 系统 调用 编号 、 系 统 调用 返回 值 和 一 些 进 程 相 关 的 一 般 性 信息 都 记 入 到 审计 记录 中 。 
audit_syscall_exit 必 须 确 保 将 前 一 个 审计 上 下 文 《如果 存 在 ) 恢复 为 当前 审计 上 下 文 ， 另 外 ， 还 
需要 释放 不 再 使 用 的 资源 。 

















































































audit_syscall_ exit 








audit_log_ exit 







































是 嵌 套 的 系统 调 激活 前 一 个 系统 调用 的 上 下 文 





















audit_ free names 























图 19-9 ”audit_syscall_exit 的 代码 流程 医 
3. 访问 向 量 缓 存 审计 
有 些 情 况 下 ,审计 会 成 为 相当 重要 的 功能 需求 ,一 个 突出 的 例子 就 是 SELinux 访 问 向 量 缓存 (access 


























vector cache )。 授 予 或 拒绝 权限 由 avc_audit 函 数 执行 ,每 当 一 个 权限 查询 传递 到 安全 服务 器 时 ， 都 会 
lavc_has_perm 调 用 avc_audit。 首 先 , 该 函数 需要 检查 当前 情况 下 是 否 需 要 审计 ( 即 授予 或 拒绝 权 
限 是 否 需 要 审计 )， 如 下 : 


security/selinux/avc.c 
void avc_audit(u32 ssid, u32 tsidqd, 
ul6 tclass, u32 requested, 
struct av_decision *avd, int result, struct avc_audit _ data *a) 













































































struct task_struct *tsk = current; 
struct inode *inode = NULL; 

u32 denied, audited; 

struct audit_ buffer *ab; 


denied = requested & “avd->allowed; 
if (denied) { 
audited = denied; 
if (!(audited & avd->auditdeny)) 
return; 
} else if (result) { 
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audited = denied = requested; 
} else { 
audited = requested; 
if (!(audited & avd->auditallow)) 
return; 














如 果 需 要 创建 一 个 审计 消息 ， 将 如 下 生成 基本 信息 授予 或 拒绝 、 所 述 访问 向 量 、 进 程 的 PID): 


security/selinux/avc.c 
ab = audit_1og_statrt (current->audit context, GFP_ ATOMIC, AUDIT_ AVC); 





























if (!ab) 
return; /* 已 经 调用 Jaudit_panic */ 
audit_ log_ format(ab, "avc: %s ", denied ? "denied" : "granted"); 
avc_dump_av(ab, tclass,audited); 
audit log _ format(ab, " for "); 


if (a && a->tsk) 
tsk = a->tsk; 

if (tsk && tsk->pid) { 
audit_ log_ format (ab, " pid=%d comm=", tsk->pid); 
audit_ log untrustedstring(ab, tsk->comm); 




















avc_dump_av 用 于 以 人 类 可 读 的 形式 来 显示 一 个 访问 向 量 〈 这 是 纯粹 装饰 性 的 转换 )。 如 果 有 与 
该 查询 相关 的 辅助 数据 ， 也 将 其 放 入 审计 记录 。 然 后 即 可 完成 该 记录 。 


security/selinux/avce.c 
if (a) { 

Switch (a->type) { 

Case AVC_AUDIT_ DATA_IPC: 
audit_ log_ format(ab, " key=%d", a->u.ipc_ id); 
break; 

Case AVC_AUDIT_ DATA_CAP: 
audit_ log_format(ab, " capability=%d", a->u.cap); 
break; 














case AVC_AUDIT DATA_NET: 
/* 审 计 网 络 相关 信息 */ 




















} 
} 
audit_ log format (ab, " "); 
avc_dump_query (ab, ssid, tsid, tclass); 
audit_log_end(ab); 
} 


4. 标准 挂钩 

尽管 对 大 多 数 系统 调用 来 说 ， 只 记录 进入 和 退出 就 足够 了 ,但 有 些 系统 调用 为 审计 子 系统 提供 了 
更 多 信息 。19.3.1 节 提 到 过 ， 审 计 上 下 文 提供 了 存储 辅助 数据 的 能 力 ， 有 几 个 系统 调用 利用 了 该 特性 。 
在 所 有 情形 中 ， 实 现 这 些 的 方法 几乎 都 是 相同 的 ， 因 此 这 里 只 以 sys_socketcal1 为 例 进行 说 明 。 下 
列 挂钩 函 数 可 用 于 分 配 和 填充 辅助 数据 : 


kernel/auditsc.c 
Int audit socketcall(int nargs, unsigned long *args) 


{ 






























































t 






































站 



































struct audit_ aux data_ socketcall *ax; 
struct audit_context *context = current->audit_context; 
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if (likely(!context || context->dummy)) 
return 0; 
ax = kmalloc(sizeof(*ax) + nargs * sizeof (unsigned long), GFP_ KERNEL); 
ax->nargs = nargs; 
memcpy (ax->args, args, nargs * sizeof (unsigned long)); 
ax->d.type = AUDIT_ SOCKETCALL; 
ax->d.next = context->aux; 
context->aux = (void *)ax; 
return 0; 
} 
如 果 禁 用 了 系统 调用 审计 ， 那 么 就 没有 分 配 审计 上 下 文 ， 该 例 程 可 以 立即 退出 。 否 则 ， 将 问 审计 
上 下 文 添加 十 助 上 下 文 。 
每 次 调用 sys_socketcall 时 ， 该 函数 都 会 调用 audit_socketcall， 如 下 所 示 : 
net/socket.c 
asmlinkage long sys_socketcall(int call, unsigned long 





{ 
err = 


} 











_ user *args) 


audit_ socketcall (nargs[calll/sizeof (unsigned long), a); 








sys_socketcal1 中 的 其 余部 分 可 以 使 用 该 辅助 上 下 文 来 存储 特定 的 套 接 字 相 关 的 信息 ， 这 些 信 





























息 可 以 传递 到 用 户 空 间 审计 工具 。 
19.4 小结 
有 很 多 理由 使 研究 系统 内 部 运作 机 制 很 有 趣 。 本 章 介 









































审计 是 一 种 低 


























了 内 核 如 何 收集 相应 的 数据 并 将 其 转送 到 用 户 层 。 





销 机 制 ， 可 以 在 稳定 的 产品 系统 上 使 用 ， 可 以 获得 与 系 乡 
会 对 系统 性 能 有 太 大 的 影响 。 审 计 规 则 可 以 指定 感 兴趣 的 信息 ， 本 章 在 介绍 了 审计 规则 之 后 ， 还 讨论 

















+ 绍 了 内 核 为 此 提供 的 一 种 有 具体 的 解决 方案 : 
运作 相关 的 全 面 信 息 ， 而 不 





























体系 结构 相关 知识 























内 核 很 重要 的 优点 是 : 大 部 分 内 核 代码 是 体系 结构 无 关 的 ,由 于 大 部 分 源 代码 是 以 C 语 言 编写 ， 
因此 实现 的 算法 没有 绑 定 到 特定 种 类 的 CPU 或 计算 机 上 。 在 理论 上 , 如 果 有 适当 的 C 语 言 编 
译 器 可 用 ， 只 要 一 定 的 工作 量 即 可 将 其 移植 到 任何 平台 。 不 可 避免 地 ， 内 核 必须 提供 到 底层 硬件 的 接 
口 ， 执 行 各 种 涉及 大 量 细节 、 特 定 于 系统 的 任务 ， 并 且 利 用 处 理 器 的 特殊 功能 。 这 些 通常 必须 用 汇编 
语言 编程 。 但 还 有 一 些 特定 于 体系 结构 的 数据 结构 是 用 C 语 言 定 义 的 ， 因 此 特定 于 体系 结构 并 不 一 定 
导致 特定 于 汇编 器 。 本 附录 讲述 了 比较 重要 的 Linux 移 植 版 的 一 些 特定 于 硬件 的 方面 。 


A.1 概述 


为 便于 扩展 到 新 的 体系 结构 ， 内 核 严 格 隔离 了 体系 结构 0 D 和 体系 结构 0 口 的 代码 。 内 核 中 特定 
于 处 理 器 的 部 分 ， 包 含 定义 和 原型 的 头 文件 保存 在 ijnclude/asm-arch/ 目 录 下 ， 而 C 语 言 和 汇编 程序 
源 程序 码 实 现 则 保存 在 arch/arch/ 目 录 下 。 在 内 核 源 代码 中 ,支持 每 种 体系 结构 所 需 的 代码 量 ， 平 均 
在 1 MiB 至 3 MiB 之 间 。 这 样 的 代码 量 确实 挺 庞大 , 但 作为 一 个 完全 的 抽象 层 来 说 , 相对 而 言 还 算 紧 凑 。 
基本 上 有 两 类 特定 于 体系 结构 的 代码 。 

口 专门 由 内 核 特定 于 体系 结构 的 部 分 使 用 和 调用 的 组 件 。 就 体系 结构 无 关 的 代码 而 言 ， 这 些 代 

码 的 位 置 和 被 调用 的 函数 其 实 是 不 相干 的 。 

口 每 个 体系 结构 都 口 口 定义 的 接口 函数 ， 由 体系 结构 无 关 的 代码 调用 。 例 如 ， 每 个 移植 版 都 必 

须 提供 一 个 switch_to 函 数 ,， 用 于 在 两 种 进程 之 间 切 换 时 维护 硬件 控制 方面 的 细节 。 调 度 器 会 
判断 接 下 来 运行 哪个 进程 (与 体系 结构 无 关 ) ， 然 后 调用 该 函数 ， 将 实际 的 进程 切换 工作 委 
托 给 特定 于 处 理 器 的 代码 。 

内 存 管理 也 使 用 了 各 种 接口 函数 和 定义 ， 例 如 指定 页 面 大 小 或 更 新 高 速 缓存 。 

本 章 针 对 内 核 支持 的 各 种 最 流行 的 体系 结构 , 简 述 各 种 特定 于 系统 的 任务 是 如 何 执行 的 。 事 实 上 ， 
内 核 必 须 利 用 大 量 依 处 理 器 而 不 同 的 硬件 特性 ， 还 需要 对 各 种 体系 结构 有 深入 的 了 解 。 因 为 每 种 处 理 
器 家 族 的 参考 手册 都 不 少 于 1 000 页 ,才能 够 讲 清楚 体系 结构 的 微妙 和 奇异 之 处 ， 因 此 如 果 要 在 本 书 中 
涵盖 对 内 核 有 意义 的 所 有 细节 ， 那 基本 上 是 不 可 能 的 。 因 此 ， 本 章 只 是 概述 Linux 移 植 文 持 方 面 的 大 
略 结构 。 此 外 ， 本 书 也 讲述 了 一 些 移植 版 的 各 种 特别 的 特性 。 
联 编 系 统 也 考虑 到 在 一 般 代码 可 能 需要 借助 于 特定 于 体系 结构 的 机 制 。 所 有 特定 于 处 理 器 的 头 文 
件 都 位 于 include/asm-arch。 在 内 核 配 置 为 针对 特定 的 体系 结构 之 后 ， 则 建立 符号 链接 inclugde/ 
asm， 指 问 具 体 硬 件 所 对 应 的 目录 。 例 如 在 Alpha AXP 系 统 上 ， 该 链接 会 是 include/asm ->include/ 
asm-alpha。 这 使 得 内 核 通 过 #include<asm/file.n> 即 可 访问 特定 于 体系 结构 的 头 文 件 。 

本 书 只 是 简略 概述 各 个 移植 版 必须 提供 的 标准 头 文 件 ， 以 及 这 些 头 文件 必须 声明 的 函数 和 定义 
〈 以 及 实现 )。 要 想 涵 盖 所 文 持 的 每 种 体系 结构 细节 ， 则 还 需要 另外 一 整 本 书 。 
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A.2 数据 类 型 
内 核 区 别 下 列 3 种 基本 数据 类 型 








口 C 语 言 程序 所 用 的 标准 数据 类 型 
这 些 类 型 的 比特 位 数目 。 只 保证 
































少 于 int 的 。 






































从 可 移植 性 的 角度 来 说 ,应 该 注意 到 不 同体 系 结 


o 














口 具有 固定 数目 比特 位 的 数据 类 型 内 核 提 供 了 特殊 的 整数 类 









































和 s16 (u 表 示 无 符号 ，s 表 示 有 符号 )。 各 个 体系 结构 必 
typedef)〉 到 对 应 的 基本 数据 类 型 。 


























蜡 。 例 如 unsignedq long、void *、char。C 语 言 标 准 并 未 固定 
一 些 不 等 式 是 成 立 的。 例如 ，unsigneqd long 的 比特 位 数 不 











构 上 标准 数据 类 型 的 比特 位 长 度 可 能 是 不 同 的 。 




















型 ， 具 有 预定 义 的 比特 位 数 ， 如 u32 
须 定 义 这 些 缩写 ， 使 之 映射 《使 用 














口 特定 于 子 系统 的 类 型 ， 从 来 都 不 会 直接 操作 ， 而 总 是 使 用 专门 编写 的 函数 。 转 换 数 据 类 型 定 
义 是 很 容易 的 ， 因 为 使 用 此 类 数据 类 型 的 所 有 子 系统 都 不 会 直接 操作 这 些 类 型 的 数据 ， 而 是 
委托 特定 子 系统 提供 的 函数 进行 。 因 而 只 需要 修改 标准 的 操作 函数 ， 而 内 核 其 余 的 部 分 无 须 

















改动 。 

































































举例 来 说 ，piqg_t 和 sector_t 就 属于 特定 于 子 系统 的 数据 类 


扇 区 编号 。 








位 长 固定 的 数据 类 型 定义 在 <asm-arch/ types.h> 中 。 







































































型 。 前 者 管理 pid， 而 后 者 用 于 标识 














加 


加 
DOTOOUOOOUOOUOUDO. gOUOUUOUVUO 








A.3 对齐 
将 数据 对 齐 到 特定 的 内 存 地 址 ， 

















对 于 高 效 使 用 处 理 器 高 速 缓存 和 提升 性 能 ， 都 很 有 必要 。 一 些 体 
































系 结构 0 口 口 D 对 特定 长 度 的 数据 类 型 进行 特定 的 对 齐 。 即 使 能 够 处 理 随 机 对 齐 的 体系 结构 ， 在 一 定 








的 对 齐 条 件 下 ， 其 读 写 性 能 也 比 不 对 齐 的 访问 要 快速 。 通 常 ， 对 齐 是 指 对齐 到 数据 类 型 的 字 节 长 度 可 








整除 的 字 节 地 址 。 在 某 些 情况 下 ,会 要 求 稍 大 一 些 的 对 齐 尺 度 。 省 














结构 文档 中 给 出 。 将 数据 类 型 对 齐 到 





在 内 核 中 某 些 地 方 ， 可 能 需要 访问 非 对 齐 的 数据 类 型 。 各 


<asm-arch/unaligned.h> 中 )。 
































目 关 信息 一 般 会 在 所 述 处 理 器 的 体系 


1 其 自身 的 字 节 长 度 ， 称 之 为 DD DD (natural alignment)。 


























值 val。 








F 非 对 齐 内 存 位 置 的 一 个 指针 ， 


口 get_unaligqned (ptr) 对 位 于 


























体系 结构 必须 为 此 定义 两 个 宏 〈 在 





进行 反 引 用 操作 。 








口 put_unaligned(val，Pptr) 向 Ptz 指 定 的 一 个 非 对 齐 《〈 因 而 不 适合 直接 访问 ) 内 存 位 置 写 入 
































这 些 宏 支 持 将 相应 的 值 复制 到 另 一 个 内 存 位 置 ， 并 在 新 的 位 置 进 行 访问 。 在 GCC 为 各 种 struct 
或 union 组 织 内 存 布局 时 ， 会 自动 选择 适当 的 对 齐 ， 使 得 程序 员 无 须 手工 进行 操作 。 











A.4 内 存 页 面 
























































在 许多 《〈 并 非 所 有 ) 体系 结构 上 ， 内 存 页 长 度 为 4KiB。 更 现代 的 处 理 器 也 支持 长 达 几 MiB 的 页 。 




















在 特定 于 体系 结构 的 文件 asm-arch/page.h 中 必须 定义 以 下 宏 ， 来 表示 所 使 用 的 页 长 度 。 
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口 PAGE_SHITET 指 定 了 页 长 度 以 2 为 底 的 对 数 。 内 核 隐 式 假 定 页 长 度 可 以 表示 为 2 的 需 次 ， 在 内 核 
支持 的 所 有 体系 结构 上 ， 这 一 点 都 成 立 。 




















D PAGE_SIZ 











E 指 定 了 内 存 页 的 长 度 ， 单 位 为 字 节 。 





口 PAGE ALIGN(addr)n 


以 将 任何 地 址 对 齐 到 页 边界 。 











D copy_page (to， 


还 必须 实现 对 页 的 两 个 标 ;# 





全 操作 ， 通 


说 








是 通过 优化 的 





中 











D clear page (start) 


from) 


二 


除 从 start 开 始 的 一 页 ， 并 ; 












































PAGE_OFFSET 宏 指定 了 物理 
也 定义 了 用 户 地 址 空间 的 长 度 ， 或 将 整个 地 址 空 




















间 。AMD64 是 另 一 个 例外 ， 





asm-arch/process.h 中 定义 的 TASK_sIZE 常 数 来 太 


A.5 系统 调用 


发 出 系统 调用 的 机 制 ， 实际 上 是 进行 一 个 从 用 户 空间 到 内 核 空 间 的 可 控 切 换 ， 在 
上 都 有 所 不 同 。 但 标准 文件 <asm-arch/unistd.h> 负 责 与 系统 调用 相关 的 以 下 两 方 























用 于 所 有 体系 结构 。Sparc 就 是 其 中 一 个 例外 情况 ， 基 








大 














口 它 定义 了 预 处 理 





器 


_NR_chdqir 和 _NR_sendq 等 。 
的 OSF/1、Sparc 上 的 Solaris) 所 





常数 ， 将 所 有 系统 调用 


口 它 定 义 了 在 内 核 内 部 调 














A.6 字符 串 处 理 


编 指令 来 完成 。 





各 其 中 填充 0 字 节 。 
将 from 处 的 页 数据 复制 到 to 处 。 
EE 页 帧 在 虚拟 地 址 空间 中 映射 到 的 位 置 。 在 大 多 数 体系 结构 上 ， 这 隐 合 
司 划分 为 内 核 地 址 空 











间 和 用 


户 地 址 





























为 它 对 内 核 和 用 























为 其 虚拟 地 址 空间 在 中 部 有 





个 不 可 寻 址 的 空洞 。 





室 间 。 但 这 
户 空 间 使 用 了 两 个 独立 的 地 址 空 
因而 ， 必 须 使 用 









































HE 


] 户 空间 的 长 度 ， 而 不 能 使 








的 
为 各 体系 结 
] 的 描述 符 
所 用 的 











田 








因 


构 会 
































系统 调 








] 于 自动 生成 代码 的 内 联 汇编 。 


$ 述 符 关联 到 
尽力 与 特定 的 本 地 操作 系统 
的 数值 
有 了 一 种 预 处 


保持 一 致 ， 各 体系 结构 所 
函数 。 通 常 ， 为 此 使 月 


Ar 启 . 刘 ， 


付 态 吊 




















了 PAGE_OFFSET。 





所 有 支持 的 平 

















面 任务 。 















































内 核 中 各 处 都 会 处 理 











专门 
速 ， 











对 此 所 有 体系 结 
口 im 
口 











Ln 














D in 


字符 
的 汇编 指令 来 执行 所 需 的 任务 ， 或 者 
构 在 <asm-arch/string.h> 中 都 定义 了 
har * ct) 逐 字符 


t _ Stzmncmp (Const char * cs,const char * ct,size t count) 类 似 于 strcmp， 但 


t strcmp(const char * cs, 


友人 


多 只 比较 count 个 字符 。 
int strnicmp(const char *sl, const char *s2，size t len) 类 似 于 strncmp， 但 




















的 时 间 要 求 很 严格 。 











电 
PP > 


因而 对 字符 串 处 理 








二 


























const C 


较 字符 时 不 考虑 大 小 写 。 


口 
口 





口 size 七 strlcpy 








Char * s 





Char * s 


多 只 








果 源 字符 串 的 字符 数目 多 于 size， 那 么 
trcat (char * dest, const char * src) 将 src 字 符 目 


char * strcpy(char * dest,const char *src) 将 一 个 0 结尾 字 
Char * strncpy (char * dest,const char *src,size t count) 
的 最 大 长 度 不 超过 count 个 字 节 或 字符 。 
(char *dest, const char *src, size t size) 类 似 于 strncpy， 作 
标 字 符 串 仍然 是 以 0 结尾 的 。 
附加 到 gest 字 
trncat (char *dest, const char *src，size t count) 类 似 于 strcat,， 但 
复制 count 个 字 节 。 























优化 的 























自身 的 各 种 


» ts Fle 








类 





比较 两 个 字符 

















器 机 制 ， 连 











于 很 多 体系 结构 都 提供 
[ 编 代码 可 能 比 编译 器 生成 的 代码 更 为 忆 
字符 串 操作 。 


串 。 


不 适 





js 
口 


数 。 这 些 常 数 的 名 称 诸如 
列 如 ，Alpha 上 
可 能 是 不 同 的 。 


同 


下 



































串 从 src 复 制 到 aqest。 
似 卫 

















日 复 


六 stzcpy， 作 

















AAA 


符 串 。 


制 





1 如 
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口 size t strlcat (char *dest, const char *src，size t count) 类 似 于 strncat， 但 结 


果 字 符 串 的 长 度 〈 并 非 所 复制 的 字 节 数目 ) 不 超出 count 个 字 贡 。 















































char * strchr(const char * s，int c) 在 字符 串 s 中 查找 字符 c 出 现 的 第 一 个 位 置 。 
char * strrchr(const char * s，int c) 在 字符 串 s 中 查找 字符 c 出 现 的 最 后 一 个 位 置 。 








size t strlen(const char * s) 确定 一 个 0 结尾 字符 串 的 长 度 。 
size_t strnlen(const char * s，size_t count) 类 似 于 strlen, 但 长 度 最 大 不 超过 count。 
size t strspn(const char *xs，const char *accept) 计算 s 中 完全 由 accept 中 字符 组 成 
的 子 串 的 长 度 。 
口 size t strcspn(const char *s, const char *reject) 类 似 于 strspn， 但 计算 的 是 s 中 
完全 0 0 0 reject 中 字符 的 子 串 的 长 度 。 
口 char * strstr(const char * sl,const char * s2) 在 si 中 查找 子 串 s2。 
口 char * strpbrk(const char * cs,const char * ct) 查找 字符 串 ct 中 的 字符 在 字符 串 cs 
中 出 现 的 第 一 个 位 置 。 
D char * strsep(char **s, const char *ct) 将 字符 串 划分 为 由 ct 分 隔 的 标记 。 
下 列 操作 作用 于 一 般 的 内 存 区 ， 而 非 字 符 串 。 
口 void * memset (void * s,int c,size t count) 用 c 指 定 的 值 ， 从 地 址 s 开 始 ， 填 充 count 
不 第 节 。 
口 memset_io 所 做 的 工作 是 相同 的 ， 但 用 于 IO 内 存 区 。 
口 char * bcopy(const char * src，char * dest，ijint count) 将 一 个 长 度 为 size 的 内 存 
区 从 src 复 制 到 dest。 
口 memcpy_fromio 所 做 的 工作 相同 ， 但 它 是 将 数据 从 WO 地 址 空间 的 一 个 区 域 复制 到 普通 的 地 址 
空间 。 
口 void * memcpy (void * dest,const void *src,size_t count) 类 似 于 bcopy， 但 使 用 voida 
指针 作为 参数 来 定义 所 涉及 的 区 域 。 
口 void * memmove (void * dest,const void *src,size t count) 类 似 于 memcpy， 但 也 适 
用 于 重 且 的 源 和 目标 内 存 区 。 
口 int memcmp (const void * cs,const void * ct,size t count) 逐 字 节 比 较 两 个 内 存 
口 void * memscan(void * addr，int c，size t size) 扫描 由 aaqr 和 size 指 定 的 内 存 
查找 字符 c 第 一 次 出 现 的 位 置 。 
口 void xmemchr (const void *s，int c，size_t n) 类 似 于 memscan， 但 如 果 未 找到 字符 c， 
则 返回 NULL 指 针 (memscan 如 果 没 有 找到 , 则 会 返回 一 个 指向 扫描 区 域 之 后 第 一 个 字 节 的 指针 )。 
所 有 这 些 操作 ， 都 是 用 来 蔡 换 用 户 衬 间 中 所 用 的 C 标 准 库 的 同名 函数 ， 以 便 在 内 核 中 执行 同样 的 











DOODODODO 




































































































































































































































































区 。 
区 ， 























































































































对 于 每 个 由 体系 结构 自身 以 优化 形式 定义 的 字符 串 操 作 来 说 ， 都 必须 定义 相应 的 _HAVE_ARCH_ 
OPERATION 宏 。 例 如 ， 对 memcpy 必 须 设 置 “HAVE_ARCH_MEMCcPY。 体 系 结构 相关 代码 未 能 实现 的 所 有 
函数 ， 都 替换 为 1ib/string.c 中 实现 的 体系 结构 无 关 的 标准 操作 。 

A.7 线程 表示 


一 个 运行 进程 的 状态 ， 主 要 由 处 理 器 寄存 器 的 内 容 定义 。 当 前 未 运行 的 进程 ， 必 须 将 该 数据 保存 
在 相应 的 数据 结构 中 ， 以 便 在 调度 器 激活 进程 时 ， 从 中 读 取 数据 并 迁移 到 适当 的 寄存 器 。 用 于 完成 该 
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工作 的 结构 定义 在 下 列 文件 中 。 

口 <asm-arch/ptrace.h> 中 定义 了 用 于 保存 所 有 寄存 器 的 pt_regs 结 构 ， 在 进程 因为 系统 调用 、 
中 断 、 或 任何 其 他 机 制 由 用 户 状 态 切换 到 核心 态 时 ， 会 将 保存 各 寄存 器 值 的 pt_regs 结 构 实例 
放置 在 内 核 栈 上 。 该 文件 也 通过 预 处 理 器 常数 定义 了 各 寄存 器 在 栈 上 的 顺序 。 在 跟踪 调试 
个 进程 而 需要 从 栈 读 取 寄存 器 值 时 ， 这 是 必需 的 。 

口 <asm-arch/processor.h> 中 包含 了 thread_struct 结 构 , 它 用 于 描述 所 有 其 他 寄存 器 和 所 有 
其 他 进程 状态 信息 。 该 结构 通常 进一步 分 为 很 多 特定 于 处 理 器 的 部 分 。 

口 <asm-arch/thread.h> 中 定义 了 thread_info 结 构 ( 不 要 与 threagd_struct 泥 淆 )， 其 中 包含 
了 为 实现 进入 和 退出 内 核 态 、 汇 编 代 人 码 必 须 访问 的 所 有 task_struct 成 员 。 

pt_regs 和 thread_struct 在 最 流行 的 一 些 体系 结构 上 的 定义 ， 将 在 后 续 各 节 给 出 ， 以 便 概 览 相 

关 平 台 的 寄存 器 集合 。 


A.7.1 IA-32 
IA-32 体 系 结构 的 寄存 器 严重 不 足 ， 因 此 在 进入 内 核 态 时 没有 太 多 需要 保存 的 ， 其 pt_regs 定 义 如 下 ; 


include/asm-x86/ptrace.h 

struct pt_regs { 
long ebx:; 
long ecx; 
long edx; 
long esi; 
long edi; 
long ebp; 
long eax; 
int Xdss 
int xes; 
long orig_ eax; 
long eip; 
int Xcess 
long eflags; 
long esp; 
int xss; 



















































































































































































































































































下 

这 里 显得 比较 突出 的 是 ， 除 了 寄存 器 值 之 外 ，orig_eax 字 段 包含 了 一 个 额外 的 值 。 其 用 途 是 ， 
在 进入 核心 态 时 存储 eax 寄 存 器 中 传递 的 系统 调用 编号 。 因 为 eax 寄 存 器 也 用 于 向 用 户 空间 传输 结果 ， 
它 在 系统 调用 过 程 中 必定 会 修改 。 但 即使 修改 之 后 ， 也 能 通过 orig_eax 确 定 系 统 调用 的 编号 《例如 ， 
在 使 用 ptrace 跟 踪 进 程 时 ， 就 可 能 需要 这 样 做 ) 。 
该 体系 结构 的 新 版 本 使 用 了 一 个 大 得 多 的 寄存 器 集合 ， 但 内 核 仅 在 需要 时 才 保存 。 因 而 ， 新 增 寄 
存 器 的 值 保 存在 threaa_struct 结 构 中 ， 如 下 所 示 : 


include/asm-x86/processor_32.h 
struct thread_ struct { 
/* 缓存 的 TLS 描 述 符 。 */ 
struct desc_struct tls_array[lGDT_ENTRY_TLS_ENTRIES]; 
unsigned long esp0; 
unsigned long sysenter cs; 
unsigned long eip; 
unsigned long esp; 
unsigned long fs; 
unsigned long gs; 


/* 硬件 调试 寄存 器 */ 
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unsigned long debugreg[8]; /* %%db0-7 debug registers */ 
/* 异常 信息 */ 
unsigned long cr2, trap_no, error_code; 
/* 浮 点 信息 */ 
union i387_union i387; 
/* 虚拟 86 模 式 信息 */ 
struct vm86_struct _ user * vm86_info; 
unsigned long screen bitmap; 
unsigned long v86flags, v86mask, saved esp0; 
unsigned int saved_fs, saved gs; 
/* IO 权限 */ 
unsigned long *io_ bitmap_ptr; 
unsigned long iopl; 
/* 位 图 中 最 大 允许 的 端口 ， 单 位 为 字 节 : ”*/ 
unsigned long io_ bitmap_ max; 
js 
根据 处 理 器 版 本 不 同 ， 协 处 理 器 提供 了 不 同 的 寄存 器 集合 ， 由 i387_union 定 义 : ” 
include/asm-x86/processor_32.h 
union i387_union { 
struct i387_fsave_struct fsave; 
struct i387_fxsave_struct fxsave; 
struct i387_soft_struct soft; 
于 
比较 老 的 80386 和 80486SX 处 理 器 没有 硬件 协 处 理 器 ， 在 内 核 中 采用 了 软件 模拟 ， 其 状态 保存 在 
i387_soft_struct 中 。 对 于 协 处 理 器 只 文 持 通常 的 寄存 器 《〈 即 ，8 个 10 字 节 宽 的 浮 点 寄存 器 ) 的 处 理 
器 ， 其 数据 保存 在 1387_fsave_struct 中 。 因 为 大 部 分 寄存 器 决 不 会 单独 使 用 ， 而 总 是 逐 块 读 写 ， 内 
核 将 这 些 寄 存 器 保存 到 一 个 连续 的 内 存 区 域 中 ， 该 内 存 区 由 结构 中 的 一 个 数组 提供 : 








include/asm-x86/processor_32.h 
struct 1387_fsave_Sstruct { 





































































































long cwd; 
long swd; 
long twd; 
long 下 二 六 六 
long EC 
long foo; 
long fos; 
long st_space[20]; /* 8 个 浮 点 寄存 器 ， 每 个 10 字 节 ， 共 80 字 节 */ 
long status; /* 软件 状态 信息 */ 
}3 
更 新 的 处 理 器 使 用 稍 宽 的 寄存 器 ， 并 文 持 第 二 组 浮 点 寄存 器 ， 称 之 为 XMM。 
include/asm-x86/processor_32.h 
struct i387_fxsave_struct { 
ul6 cwd; 
ul6. swd; 
ul6 twd; 
ul6 fop; 
u64 Ei; 
u64 rdp; 
u32 mMmXCSr; 
u32 mxcsr_mask; 
u32 st_space[32]; /* 8 个 浮 点 寄存 器 ， 每 个 16 字 节 ， 共 128 字 节 */ 
u32 xmm_space[64]; /* 8 个 XMM 寄 存 器 ， 每 个 16 字 节 ， 共 128 字 节 */ 





中 这 上 


有 有 一 个 巧合 ， 在 内 核 版 本 2.6.17 中 ，i38 











FE 好 位 于 所 在 文件 的 387 行 。 








7_union 的 定义 了 
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u32 padding[24]; 
} _attribute ((aligned 


A.7.2 |IA-64 





16))); 


IA-64 是 日 渐 老 化 的 IA-32 体 系 结构 的 指定 继承 者 ， 在 其 设计 中 ,英特尔 赶 上 了 时 代 的 步伐 ,向 该 
处 理 器 提供 了 一 个 大 得 多 的 寄存 器 集合 〈 命 名 方式 也 更 为 系统 ) 。 























include/asm-ia64/ptrace.h 
struct pt_regs { 








/* SAVE_MIN 模 式 下 会 保存 下 列 寄存 器 : */ 


unsigned long 
unsigned long 


unsigned long 
unsigned long 


unsigned long 
unsigned long 
unsigned long 
unsigned long 


unsigned long 
unsigned long 

















be6; 
Ts 


ar_csd; 
ar_ssd; 


re 
9; 
r10; 
kh 


Cr IDSrE; 
ep uh oy 


/* 
/* 


/* 
/* 















































seraters */ 

Seraten. */ 

由 cmp8xchg16 使 用 (scratch) */ 
保留 给 未 来 使 用 (scratch) */ 
scratch (返回 值 寄存 器 0) */ 
scratch (返回 值 寄存 器 1) */ 
scratch (返回 值 寄存 器 2) */ 
scratch (返回 值 寄存 器 3) */ 

被 中 断 进程 的 psr */ 

















被 中 断 进 程 的 指令 指针 */ 














* 被 中 断 进程 的 函数 状态 ， 如 果 比 特 位 63 清 零 ， 则 包含 了 系统 调用 的 ar.pfs.pfm : 


unsigned long 
unsigned long 
unsigned long 
unsigned long 
/* 仅 当 cr_ipst. 
unsigned long 
unsigned long 


unsigned long 
unsigned long 
unsigned long 


unsigned long 
unsigned long 
unsigned long 


unsigned long 
unsigned long 























/* 用 于 系统 调用 ， 








unsigned long 
unsigned long 
unsigned long 


Cr Fe 
ar_unat; 
dr DDE: 
Ar=rSes 


ar_rnat; 











/* 被 中 断 进 程 的 Na 寄存 器 〈 保 留 ) */ 

/* 先前 的 函数 状态 */ 

/* RSE 了 配置 */ 

cpl > 0 || ti->flags & _TIF_MCA_INIT 时 ， 以 下 两 个 寄存 器 才 有 效 */ 


/* RSE NaT 


ar_bspstore; 


pr; 
DO 
loadrs; 


焉 汪汪 
二 


bo 有 罗 ] 


ar_fpsr; 


/* 
A/* 
/* 
/* 
/* 
/* 


/* 





/* RSE bspstore */ 


人 








64 个 谓词 寄存 器 〈 每 个 比特 位 对 应 于 一 个 ) */ 
返回 的 指针 (pp) */ 


size of 





dirty partition << 16 */ 


gp 指针 */ 
被 中 断 进程 的 内 存 栈 指针 */ 








线程 指针 */ 


浮 点 状态 (保留 


工 工 5 /* ‘seratoah *y 








/* 在 SAVE_REST 模 式 下 ， 下 列 寄 存 器 将 保存 : 














unsigned long 
unsigned long 
unsigned long 
unsigned long 
unsigned long 
unsigned long 





剩余 的 寄存 器 不 保存 。 */ 
rl14; /* Seraten 
道人 2 汪 /* erateh 
EE /* Oraten 
r16; /* scratch 
EL /* erateh 
r18; /* Serateh 
rl9; /* ‘Seraten 
¥20s /* scratch 
Ea 和 /* scratch 





_ 


A 


水 从 
#7 
六 


4 
4 
WA 
4 
*/ 
6 
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unsigned long r22; /* serateh */ 
unsigned long r23; /* secratehs */ 
unsigned long r24; /* Seratelt *7y 
unsigned long r25; /* scratch */ 
unsigned long r26; /* SCEatcHn */ 
unsigned long r27; /* seratch */ 
unsigned long r28; /* Serately */ 
unsigned long r29; /* Seratels #7/ 
unsigned long r30; /* scratehn */ 
unsigned long r31; /* scratch */ 
unsigned long ar_ccv; /* 比较 /交换 值 (scratch) */ 


4 内核 考 虑 的 浮 点 寄存 器 scratch) ， */ 





struct ia64_ fpreg f£6; /:* serateh *} 
struct ia64_ fpreg £7; /* SCraten YX 
struct ia64_ fpreg f8; /* scratch */ 
struct ia64_ fpreg f£9; /* scrateh */ 
struct ia64_ fpreg f10; /* Scratch */ 
struct ia64_ fpreg f£11; /* scratehs */ 


} 
线程 数据 结构 不 仅 包 含 了 调试 (dbr 和 ibr) 和 浮 点 寄存 器 (fphn) ， 而 且 还 存储 了 IA-32 仿 真 所 
需 的 信息 (如 果 内 核 配 置 启用 了 该 选项 )， 如 下 所 示 : 


include/asm-ia64/processor.h 
struct thread struct { 














































































































_ u32 flags; /* 各 种 线程 标志 (参见 TA64_THRERAD_*) */ 

/* on_ustack 的 写 操作 对 性 外 i 对 此 值得 花费 8 个 比特 位 来 表示 . . . */ 

_ u8 on ustack; 在 用 户 栈 上 执行 ? */ 

_u8 pad[3]; 

_u64 ksp; /* 内 核 栈 指 针 */ 

__u64 map_base; /* get_unmapped_area() 的 基地 址 */ 

__ u64 task size; /* 用 户 空间 长 度 的 限制 * 

_u64 rbs_bot; /* RBS 的 基地 址 */ 

int last_fph_cpu; /* 可 能 持 有 f32 到 f127 内 容 的 CPU */ 
#ifdef CONFIG IA32_SUPPORT 

__u64 eflag; /* IA32 EFLAGS 寄 存 器 */ 

_u64 fsr; /* IA32 浮 点 状态 寄存 器 */ 














_ u64 fcr; /* {控制 寄存 器 */ 

_u64 fir; /* 学 点 异常 指令 寄存 器 */ 

_u64 fdr; /* IA32 浮 点 异常 数据 寄存 器 */ 

__u64 old kl; /* ar.kl 的 旧 值 */ 

__u64 olgd_ iopb; /* 旧 的 IOBase 值 */ 

struct partial_page_list *ppl; /* 用 于 解决 4K 页 长 度 问 题 的 部 分 页 面 列表 */ 














/* 缓存 的 TLS 描 述 符 。 */ 
struct desc_struct tls_array[lGDT_ ENTRY_TLS_ENTRIES]; 
#endif /* CONFIG IA32_SUPPORT */ 
#ifdef CONFIG PERFMON 
__u64 pmcs[IA64_ NUM PMC REGS]; 
__u64 pmds[IA64_ NUM PMD REGS]; 
void *pfm context; /* 指向 详细 的 PMU 上 下 文 的 指针 */ 


























unsigned long pfm needs_checking;  /* 在 >0 时 ， 需 要 在 内 核 退 出 时 进行 性 能 监视 工作 */ 
#endif 

__u64 dbr[IA64_ NUM DBG_ REGS]; 

__u64 ibr[IA64_ NUM DBG REGS]; 

struct ia64_ fpreg fph[96]; /* 按 需 保存 或 加 载 */ 
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IA-64 也 提供 了 一 个 0 0 0 子 系统 。 如 果 内 核 配置 为 


外 的 寄存 器 。 
A.7.3 ARM 

















可 以 与 该 子 系统 互 操作 ， 那 么 必须 保存 额 



































的 处 理 器 

















ARM 系 统 有 两 种 版 本 ， 因 为 有 两 种 不 同 字 长 














统 都 是 32 位 字 长 ， 本 附录 上 只 包含 了 对 应 于 这 种 机 器 类 型 
pt_regs 结 构 定 义 如 下 ， 该 结构 只 由 一 个 数组 组 成 ， 包 含 了 核心 态 操作 的 所 有 寄存 器 的 值 : 





























include/asm-arm/ptrace.h 
struct pt_regs { 
long uregs[18]; 
}; 
寄存 器 的 符号 名 称 及 其 在 数组 内 部 的 位 置 都 


include/asm-arm/ptrace.h 























include/asm-arm/processor.h 
struct thread struct { 

















/* 异常 信息 
unsigned long address; 
unsigned long trap_no; 
unsigned long error_code; 


/* 调试 */ 
struct debug_info debug; 
站 











define ARM cpsr uregs[16] 
define ARM pc uregs[15] 
define ARM lr uregs[14] 
define ARM sp uregs[13] 
define ARM ip uregs[12] 
define ARM fp uregs[11] 
define ARM r10 uregs[10] 
define ARM r9 uregs[9 
define ARM r8 uregs[8 
define ARM r7 uregs[7 
define ARM r6 uregs[6 
define ARM r5 uregs[5 
define ARM r4 uregs[4 
define ARM r3 uregs[3 
define ARM r2 uregs[2 
define ARM rl1 uregs[1 
define ARM r0 uregs[0 
define ARM ORIG r0 uregs[17] 
不 必 为 ARM 保 存 任何 浮 点 寄存 器 ， 因 为 ARM 处 必 




















， 分 别 是 26 位 和 32 位 。 因 为 所 有 较 新 的 系 


的 定义 。 

































































年 过 预 处 至 


器 常数 定义 ， 


器 对 序 点 操作 只 提供 软件 支持 ; 





但 可 以 将 机 器 指令 《以 操作 码 形式 ) 连同 内 存 地 址 一 同 保存 ， 以 供 调试 使 用 ， 如 下 所 示 : 





include/asm-arm/processor.h 
union debug_insn { 
32 arm; 
ul6 thumb; 
二 


struct debug_entry { 
U32 address; 
union debug_insn insn; 
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}; 


struct debug_info { 
int nsaved; 
struct debug_entry bpl[2]; 
}; 


A.7.4 Sparc64 


Sparc64 处 理 器 在 pt_regs 结 构 中 也 使 用 了 数组 来 为 各 个 寄存 器 提供 内 存 空 间 。 各 寄存 器 的 名 称 和 
位 置 通过 预 处 理 器 常数 分 配 ， 如 下 所 示 : 


include/asm-sparc64/ptrace.h 
struct pt_regs { 
unsigned long u_ regs [16]; /* globals and ins */ 
unsigned long tstate; 
unsigned long tpc; 
unsigned long tnpc; 
unsigned int y; 
unsigned int fprs; 














































































































二 
define UREG_G0 0 
define UREG_G1 1 
define UREG_ G2 2 
define UREG_ G3 3 
define UREG_ G4 4 
define UREG_ G5 5 
define UREG_ G6 6 
define UREG_ G7 7 
define UREG_I0 8 
define UREG_ I1 9 
define UREG_ I2 10 
define UREG_I3 11 
define UREG I4 12 
define UREG_I5 13 
define UREG_I6 14 
define UREG_I7 5 
define UREG_ FP UREG_I6 
define UREG RETPC UREG_I7 
与 其 他 体系 结构 相 比 ，Sparc64 试 图 将 一 些 通常 保存 在 threaa_struct 中 的 寄存 器 保存 到 
chread_info 中 。 照 例 ， 该 平台 必须 能 够 将 自身 与 其 他 移植 版 区 分 开 来 。 如 果 内 核 编译 时 没有 配置 自 
























































ee 则 该 结构 可 以 为 空 。 但 由 于 一 个 〈 早 期 的 ) GCC 错误 〈Sparc 移 植 版 的 开发 者 可 不 怎么 
欣赏 这 一 点 ， 从 下 述 源 代 码 的 注释 可 以 看 出 ) ， 该 结构 包含 了 一 个 伪 成 员 : 


include/asm-sparc64/processor.h 
/* 特定 于 sparc 处 理 器 的 thread_struct。*/ 
/* XXX 这 个 应 该 消亡 了 ， | 以 进入 到 thread_info。 */ 
struct thread_ struct 
#ifdef CONFIG DEBUG 3 
/* 该 线程 持 有 的 自 旋 锁 数目 。 
* 用 于 自 旋 锁 调 试 ， 以 捕获 持 有 锁 却 进入 睡眠 的 进程 。 
4 
int smp_lock_ count; 
unsigned int smp_lock pc; 
































































































































#else 
int dummy; /* 绕 过 gcc 的 pug */ 
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#endif 
} 
用 于 保存 浮 点 寄存 器 和 口 口 口 口 (lazy state) 的 内 存 位 置 保存 在 threaa_info 中 ， 如 下 所 示 : 


include/asm-sparc64/thread_info.h 
struct thread info { 
/* DSS line 1 */ 
struct task_struct 
unsigned long 
_u8 
_u8 
unsigned long 


/* DS$ line 2 */ 
unsigned long 
struct pt_regs 
struct exec_ domain 
和 雹 0 

_u8 

ug 

_ul6 


unsigned long 


struct reg_window 
unsigned long 


unsigned long 
unsigned long 


_u64 _ user 
_u64 _ user 
_u64 
_u64 
_u64 


struct restart_block 


struct pt_regs 
unsigned int 








*task; 
flags; 

cpu; 
fpsaved[7]; 
ksp; 


fault_address; 
*kregs; 
*exec_domain; 
preempt_count; 
new_child; 
syscall_noerror; 
— pad; 


*utraps; 


reg_window [NSWINS]; 
rwbuf_stkptrs [NSWINS]; 


gsrl7]? 
Ear [7 


*user_cntd0; 
*user_cntdl1; 
kernel_cntqdo0, 
pcr_reg; 


kernel_ cntdl; 


cee_stuff; 
restart_block; 


*kern una regs; 
kern una_insn; 


_attribute _ ((aligned(64))); 

















unsigned long fpregs[0] 
9 
A.7.5 Alpha 
作为 经 典 的 RISC 机 器 ，Alpha CPU 采 月 








到 





识 。 前 文 提 
































了 一 个 很 大 的 寄存 器 集合 ， 各 寄存 器 主要 通过 编号 顺 次 标 
| ，Alpha 体 系 结构 使 用 了 PAL (privileged architecture level， 即 口 口 口 口 口 口 口 〉》 代 码 来 











执行 系统 任务 。 该 代码 也 用 于 系统 调用 的 实现 。 内 核 的 C 代 码 或 汇编 代码 无 须 保存 pt_regs 中 列 出 的 
所 有 寄存 器 ， 因 为 其 中 一 些 由 PAL 代 码 例 程 自 动 地 保存 在 栈 上 。 需 要 保存 的 寄存 器 如 下 所 示 : 





























include/asm-alpha/ptrace.h 

struct pt_regs { 
unsigned long 
unsigned long 
unsigned long 
unsigned long 


r0; 
bh 
a 
天 光志 
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了 溢 点 寄存 器 之 外 ， 也 


unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 


long 
long 
long 
long 
long 
long 
long 
long 
long 
long 
long 
long 
long 
long 
long 
long 


rs 
ED 
rbs 
六 项 
r8; 


rl19; 
r20s 
pn 本 
六 
3 
a 
EaDs 
rabs 
3 
r2B; 


hae; 


’ 














/* JRP - 这 些 是 PAL 代 码 为 a0 到 a2 提 供 的 值 */ 
long trap_a0; 
unsigned long trap_al; 
unsigned long trap_a2; 





unsigned 





/* 这 些 














unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 





3} 


PAL 代 码 保存 : 


long 
long 
long 
long 
long 
long 


2 


ps; 
pe; 
gp; 


ri0; 
在 了 
87 











该 体系 结构 同样 使 用 了 一 个 空 的 threaaq_struct 结 构 : 





include/asm.-alpha/processor. h 
/* 该 结构 已 经 消亡 。 一 切 都 已 经 迁移 到 了 thread_info 中 。*/ 


struct thread 





_struct { }; 


学 点 寄存 器 f0 到 f31 的 内 容 没有 保存 在 thread_info 里 ， 而 是 使 用 以 下 弓 


证 刘 ， 








include/asm-alpha/ptrace.h 
struct switch stack { 


unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 





Fs 
内 核定 义 了 以 下 





long 
long 
long 
long 
long 
long 
long 
long 
long 


结构 ， 以 便 


arch/alpha/kernel/ptrace.c 
#define PT_REG(reg) \ 


(PAGE_ 





#define SW_REG(reg) \ 








(PAGE 
+ offsetof 








保存 了 一 些 整数 寄存 器 


工 8 7 














Elis 
他] 
hi 
3 
这 和 站 
二 赴 场 
ra6> 


fp 





32]; 








站 定 栈 上 各 个 寄存 器 的 位 置 : 








SIZE*2 - sizeofl(s 


truct pt_regs) 





SIZE*2 - sizeofl(s 
struct switch_ stack, 


truct pt_regs) 
reg)) 


坦 帅 ， 


B13 二 | 














这 些 整数 寄存 器 不 是 内 核 需 


1 Ee 7/ 





+ offsetof(struct pt_regs, 


- sizeof (struct Switch_stack) 





吉 构 保存 在 栈 上 其 
要 的 》: 


reg)) 


\ 
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static int regoff[] = 
PT_REG( 地 
PT_REG ( r4) 
PT_REG( r8) 
SW_REG ( i 
PT_REG( ri16 
PT_REG( r20 
PT_REG ( r24 
PT_REG( r28 
SW_REG (fp[ 0 
SW_REG(fpl[ 4 
SW_REG(fpl[ 8 
SW_REG (fp[12 
SW_REG (fp[16 
SW_REG (fp[20 
SW_REG (fp[24 
SW_REG (fp[28 
PT_REG( pe 

es 

A.7.6 Mips 




















Mips 处 理 器 在 pt_regs 中 


















































， PT_REG( rl1), PT_REG( 

， PT_REG( r5), PT_REG( 

， SW_REG( r9), SW_REG( 

), SW_REG( r13), SW_REG( 

), PT_REG( r17), PT_REG( 

), PT_REG( r21), PT_REG( 

), PT_REG( r25), PT_REG( 

), PT_REG( gp), 

), SW_REG(fp[ 1]), SW_REG(fpl[ 
), SW_REG(fp[ 5]), SW_REG(fpl 
), SW_REG(fp[ 9]), SW_REG (fpl 
), SW_REG(fp[13]), SW_REG(fpl 
), SW_REG(fp[17]), SW_REG(fpl[ 
), SW_REG(fp[21]), SW_REG(fpl[ 
), SW_REG(fp[25]), SW_REG(fpl 
), SW_REG(fp[29]), SW_REG(fpl 
) 

使 用 一 个 数组 来 存储 主要 的 处 到 

















的 32 位 和 64 位 版 本 实际 上 使 用 的 是 同一 个 结构 : 


include/asm-mips/ptrace.h 
struct pt_regs { 
#ifdef CONFIG 32BIT 























/* 填充 字 节 ， 














unsigned long 
#endif 
/* 主要 的 处 理 器 
unsigned long 
/* 保存 的 特殊 寄 
unsigned long 
unsigned long 
unsigned long 
unsigned long 
unsigned long 
unsigned long 
下 

















因为 Mips 处 理 器 未 必 有 数字 协 处 型 
如 下 所 示 : 


于 栈 上 保存 参数 的 空间 。 
Pad0 [6]: 





wf 





寄存 器 保存 在 这 里 。 
regs[32]; 


存 器 。*/ 
cp0_status; 
hi; 

LO 
cp0_badvaddr; 
cp0_cause; 
cp0_epc; 





2/ 

















PT_REG ( r3) 
PT_REG ( r7) 
SW_REG ( r11) 
SW_REG ( r15) 
PT_REG( r19) 
PT_REG ( r23) 
PT_REG ( E27) 

= 
SW_REG(fp[ 3]) 
SW_REG (fp[ 7]) 
SW_REG (fp[11]) 
SW_REG (fp[15]) 
SW_REG (fp[19]) 
SW_REG (fp[23]) 
SW_REG (fp[27]) 
SW_REG (fp[31]) 


器 寄存 器 ， 如 下 列 代码 所 示 。 该 处 至 






































include/asm-mips/processor.h 


struct thread_ struct 
/* 主要 的 处 理 器 
unsigned long 
unsigned long 
unsigned long 





/* 保存 的 cp0。 
unsigned long 


{ 
寄存 器 保存 在 这 里 。*/ 





regl16; 

regl7, regl8, regl19, 
reg29, reg30, reg31; 
6 

cp0_status; 


/* 保存 的 fpu/fpu 仿 真相 关 数 据 。*/ 


union mips_fpu union fpu; 


reg20, 


reg21, 





reg22, 


reg23; 











于 


器 , 可 能 不 需要 保存 浮 点 寄存 器 , 只 需要 保存 软件 模拟 的 状态 ， 


912 U0OA UDO0UUUOO 





/* 保存 的 DSP ASE 的 状态 (如 果 有 ) 。* 
struct mips_dsp_state dsp; 


/* 与 该 线程 相关 的 其 他 数据 。 */ 

unsigned long cp0_badvaddr; /* J 
unsigned long cp0_baduaddr; Pa 
unsigned long error_code; 

unsigned long trap_no; 

unsigned long mflags; 

unsigned long irix trampoline; /* Wheee... */ 
unsigned long irix oldctx; 

struct mips_abi *abi; 

















个 用 户 异 常 */ 
一 次 访问 USEG 的 内 核 异常 */ 











}; 
A.7.7 PowerPC 
PowerPC 将 大 多 数 寄存 器 保存 在 pt_regs 的 数组 成 员 中 : 


include/asm-powerpc/ptrace.h 

struct pt_regs { 
unsigned long gpr[32]; 
unsigned long nip; 
unsigned long msr; 
unsigned long orig_ gpr3; 
unsigned long ctr; 
unsigned long link; 
unsigned long xer; 
unsigned long ccr; 

#ifdef _ powerpc64 _ 





























Se 

* 

T 

1 

上 
jen 
[ny 


由 系统 调用 */ 







































































































































































unsigned long softe; /* 启用 或 停 用 软件 模拟 */ 
#else 
unsigned long mq; /* 只 用 于 PowerPC 601〔 目 前 不 使 用 ) ， 在 APU 上 用 于 保存 IPL 值 。*/ 
#endif 
unsigned long trap; 人 党 异常 编号 A 
/* 请 注意 ， 在 PowerPC 4xx 上 ， 对 于 关键 的 异常 将 重 载 daar 和 dsisr 字 段 来 保存 srr0 和 srr1l。*/ 
unsigned long dar; /* 异常 寄存 器 痪 / 
unsigned long dsisr; /* 在 PowerPC 4xx/Book-E 上 用 于 ESR */ 
unsigned long result; /* 系统 调用 的 结果 */ 
3 
根据 处 理 器 类 型 ， 在 保存 浮 点 寄存 器 时 可 能 需要 考虑 是 否 存在 Altivec 扩 展 〈 因 而 需要 保存 一 个 额 




















外 的 寄存 器 集合 )。 在 茶 些 类 型 的 系统 上 ， 调 试 寄存 器 也 必须 被 保存 : 


include/asm-powerpc/processor.h 
struct thread struct { 
unsigned long ksp; /* 内 核 栈 指针 */ 









































ifdef CONFIG PPC64 
unsigned long ksp_vsid; 

endif 
struct pt_regs *regs; /* 指向 保存 的 寄存 器 状态 a */ 
mm_ segment_t fs; /* 用 于 get_fs() 验 证 * 

ifdef CONFIG PPC32 
void *pgdir; /* 页 表 树 的 根 */ 
signed long last_syscall; 

endif 

if defined (CONFIG 4xx) || defined (CONFIG BOOKE) 
unsigned long dbcr0; /* 调试 控制 寄存 器 的 值 */ 
unsigned long dbcrl; 

endif 


double fpr[32]; /* 整个 浮 点 寄存 器 集合 */ 
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#endif 


int used 
#endif /* 
}3 
A.7.8 AMD64 





必须 保存 的 寄存 器 ， 





struct { 


} fpecrs 


/* ‘fBrs ss 


unsigned int pad; 
unsigned int val; 


int fpexc_ mode; 
#ifdef CONFIG PPC64 
unsigned long start_tb; 
unsigned long accum tb; 


unsigned long vdso_base; 
unsigned long dabr; 

#ifdef CONFIG ALTIVEC 
/* 整个 ALtiVec 寄 存 器 集合 */ 


Vector128 vr[32] 








/* AltiVec status */ 


Vector128 vscr 


unsigned long vrsave; 





EE 


fpscr 必 须 是 连续 























/* 如 果 进 程 使 


CONFIG_ ALTIVEC */ 

















include/asm-x86/ptrace.h 
struct pt_regs { 


/* 参数 相关 寄存 器 结 


























的 */ 


/* 浮 点 状 


态 */ 


TS 


/* 浮 点 异常 模式 */ 








/* 进程 刚 











被 调度 运行 时 ，purr 的 值 */ 





/* 进程 累积 的 purr 总 值 */ 


/* VDSO 库 的 基地 址 */ 








/* 数据 地 址 断 点 寄存 器 */ 


attribute((aligned(16) ) ) ; 
_ attribute((aligned(16) ) ) ; 


了 altivec， 则 设置 为 1 */ 








unsigned long r15; 
unsigned long r14; 
unsigned long r13; 
unsigned long r12; 
unsigned long rbp; 
unsigned long rbx; 

狼 ， 非 中 断 和 追踪 系统 调用 的 情况 下 ， 保 存 到 这 是 
unsigned long rl11l; 
unsigned long r10; 
unsigned long r9; 
unsigned long r8; 
unsigned long rax; 
unsigned long rcx; 
unsigned long rdx; 
unsigned long rsi; 
unsigned long rdi; 
unsigned long orig rax; 

yh 
/* cpu 异 常 帧 或 未 定义 */ 
unsigned long rip; 
unsigned long cs; 
unsigned long eflags; 
unsigned long rsp; 
unsigned long ss; 


/* 栈 顶 页 */ 


}3 





sttruct 与 IA32 几 乎 采 





两 种 体系 结构 之 间 | 

















的 密切 关系 在 threaaq_struct 结 构 吕 
了 相同 的 布局 : 


且 旭 可 */ 








尽管 AMD64 体 系 结构 与 前 一 代 的 IA32 非 常 类 似 ， 但 也 添加 了 若干 寄存 器 。 对 于 在 系统 调用 期 间 
二 者 是 有 一 些 差别 的 : 








中 体现 得 非常 明显 ，AMD64 的 thread_ 
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include/asm-x86-64/processor_64.h 
struct thread struct { 

unsigned long rsp0; 

unsigned long rsp; 

unsigned long userrsp; /* 从 PDA 复 制 而 来 */ 

unsigned long fs; 

unsigned long gs; 

unsigned short es, ds, fsindex, gsindex; 
/* 硬件 调试 寄存 器 */ 

unsigned long debugreg0; 

unsigned long debugregl; 

unsigned long debugreg2; 

unsigned long debugreg3; 

unsigned long debugreg6; 

unsigned long debugreg7; 
/* 异常 信息 */ 
unsigned long cr2, trap_no, error_code; 
/* 浮 点 信息 */ 





























union i387_union i387 __attribute _((aligned(16))); 









































/* IO 权限 。 位 图 可 以 迁移 到 GDT 中 ， 对 于 只 使 用 少量 ioperm 的 进程 来 说 ， 这 会 使 进 


二 们 攻 ioperm; 
unsigned long *io_ bitmap_ ptr; 
unsigned io_bitmap_ max; 
/* 缓存 的 TLS 描 述 符 。 */ 
u64 tls_array[GDT_ ENTRY_TLS_ENTRIES]; 
} _attribute ((aligned(16))); 





include/adm-x86/processor_64.h 
union 1387_union { 

struct i387_fxsave_struct fxsave; 
}; 














时 切换 更 快速 。-AK */ 


UUUO0O0O0O0U0000000i387_unionU IA32000000000000AMD64 





0000000000000000000000000 
A.8 位 操作 和 字 市 序 

















内 核 经 常 使 用 位 域 , 例如 ， 当 在 分 配 位 图 中 搜查 空闲 位 置 时 。 本 节 将 讲述 用 于 位 操作 的 相关 函数 ， 












































还 将 讲述 对 字 节 序 问 题 的 处 理 。 
A.8.1 位 操作 














尽管 一 些 用 于 位 操作 的 函数 都 以 C 语 言 来 实现 ， 但 内 核 更 喜欢 优化 的 汇编 函数 ， 以 利用 具体 处 到 
器 的 特性 。 因 为 一 些 操作 是 原子 的 ， 不 能 以 汇编 代码 实现 。 内 核 特 定 于 体系 结构 的 部 分 必须 在 











tT 























<asm-arch/bitops.h> 中 定义 以 下 函数 。 





口 voiqd set_bit(int nr, volatile unsigned long * adqqr) 将 位 置 nr 的 比特 











从 aqqr 开 始 。 





置 位 。 
口 voidq clear bit(int nr, volatile unsigned long * adqdqr) 了 
数 从 adgr 开 始 )。 


D void change bit(int nr, volatile unsigned long * addr 



























































FT 





位 置 位 ， 计 数 


口 int test_bit(int nr, const volatile unsigned long * addr) 检查 指定 的 比特 位 是 否 








青 除 位 置 nr 上 








将 位 置 nr 处 














的 比特 位 《〈 计 





的 比特 位 取 反 
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915 




















(计数 从 adgr 开 始 )。 
DQ int test and set_ bit 
并 返回 该 比特 位 此 前 的 值 。 
口 int 

















er 








Tl 


除 ， 并 返回 该 比特 位 
test_angd change 


口 int 
反 ， 并 返回 该 比特 位 











比 前 的 值 。 
bit 


比 前 的 值 。 






































换言之 ， 置 位 者 被 清除 ， 反 之 亦 然 。 
int nr，volatile unsigned long * adgdr) 将 一 个 比特 位 置 位 ， 


test_anaq_clear_bit(int nr, volatile unsigned long * aqddqr) 将 一 个 比特 位 清 


int nr，volatile unsigned long* aqqr) 将 一 个 比特 位 加 











所 有 这 些 函数 的 执行 都 是 原子 的 ， 因 为 锁 语 句 




















前 级 为 双 下 划 线 (例如 ，__set_bit) 。 
A.8.2 不 同 字 节 序 之 间 的 转换 





局 和 弘 任 











UD 


LA 















































I 重要 


动 程序 来 说 ， 有 一 点 特别 重要 ， 











内 核 支持 的 体系 结构 会 使 用 小 端 序 或 大 端 序 其 
须 配置 为 使 用 其 中 一 种 。 因 而 内 核 必须 提供 
即 提供 一 些 





























使 用 大 量 #ifdef 预 处 理 器 语句 。 











内 核 提 供 了 <by 

















endian.h> 头 文件 。 用 于 当 





























种 。 
书 于 将 数据 在 雁 
函数 ， 将 特定 的 字 节 序 转换 为 主机 使 


teorder/1i 





前 处 理 器 的 版 本 会 包含 到 <asm-arch/pbyteorder.h> 中 。 





























为 实现 











于 字 节 序 转换 的 函数 ， 内 核 需要 一 些 高 效 交 换 字 节 的 方 济 
优化 。 默 认 的 C 函 数 定义 在 <byteoorder/swab.n> 中 ， 但 它们 可 以 




















XI 


成 到 汇编 代码 中 。 这 些 函数 非 原 子 版 本 ， 

















些 体系 结构 能 够 处 理 两 种 字 节 序 ， 但 必 
种 字 节 序 之 间 进 行 转换 。 对 设备 驱 




















用 的 字 节 序 ， 而 无 须 


ttle endian.h> 和 <byteorder/big_ 
pn 0 























， 可 以 针对 特定 的 处 理 器 进行 









































特定 于 处 理 器 的 实现 履 盖 。 

















arch_ swab16、 arch swab32 和 ”arch swab64 在 各 种 表示 之 间 交 换 字 节 ， 因 而 能 够 将 大 端 


序 转 换 为 小 端 序 ， 反 之 亦 然 。 
适用 于 指针 变量 。swab 表 示 交 换 字 节 。 








__swab16p、_ arch_swab32p、_ arch_swab64p 完 成 同样 的 操作 ， 














如 果 每 个 体系 结构 对 其 中 茶 个 函数 提供 了 优化 版 本 ， 则 必须 设置 预 处 理 器 常数 _arch _ 


operation (例如 ，_arch swabl6p) 。 


对 小 端 序 主机 实现 转换 例 程 的 函数 如 下 请 注意 ， 如 果 数 字 的 格式 已 经 是 












































E 确 














的 ， 那 么 转换 例 程 
























































执行 的 是 空 操作 ): 
<byteorderl/little_endian.h> 
define _ constant htonl(x) ((__ force be32) constant_swab32 ( (x))) 
define _ constant ntohl(x) _ constant_swab32((_ force _ be32) ) ) 
define _ constant_htons (x) (__force be16) constant_swabl6 ( (x))) 
define _ constant ntohs(x) _ constant_swabl6((_ force _ bel16) (x)) 
define _ constant cpu to_le64 (x) force le64)(_ u64) (x)) 
define _ constant_ leé64 to_ cpu (x) force u64)(_ le64) (x)) 
define _ constant cpu to_le32 (x) force le32)(_ u32) (x)) 
define __ constant_ le32_to_cpu (x) force u32)(__ le32) (x)) 
define _ constant cpu to_lel16 (x) force 1e16) (ul16) (x)) 
define _ constant_ le16_ to_cpu (x) force ul6)(_. lel16) (x)) 
define _ constant cpu to_ beé64 (x) force be64) constant_swab64( (x))) 
define _ constant be64 to cpul(x) _ constant swab64( force u64)(_ be64) (x)) 
define __ constant_ cpu_ to_be32 (x) force be32) constant_swab32 ( (x))) 
define _ constant be32_ to_cpu (x) constant_swab32( force u32) (be32) (x)) 
define _ constant cpu to_be16 (x) force bel16) constant_swabl6( (x))) 
define _ constant bel16_ to_cpu (x) constant_swabl6( force ul6)(_ bel16) (x)) 
define _ cpu to le64(x) ((__ force le64)(_ u64) (x)) 
Q@ VAX 系 统 的 字 节 序 过 去 在 <byteorder/pap_endian.h> 中 声明 为 3412。 但 因为 内 核 不 支持 该 体系 结构 ， 这 没什么 














意义 ， 因 此 该 文件 在 内 核 版 本 2.6.21 








发 期 间 已 经 删除 。 
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define _ le64 to cpu(x) (( force u64)(_ le64) (x)) 
define __ cpu to le32(x) (( force le32) (_ uu32) (x)) 
define _ le32 to cpu(x) ((_ force u32) (__ le32) (x)) 
define _ cpu to lel6(x) ((_ force le16)(_ uu16) (x)) 
define _ lel16 to cpu(x) (( force ul6)(_ le16) (x)) 
define __ cpu to be64(x) (( force be64)__swab64( (x))) 
define be64_ to_cpu (x) swab64((__ force u64) (_ be64) (x)) 
define __ cpu to be32(x) ((_ force be32)__swab32 ( (x))) 
define _ be32 to cpu(x) _ swab32((_ force u32) (__ be32) (x)) 
define __ cpu to bel6(x) (( force be16)__swabl6 ( (x))) 
define be16_to_cpu (x) Swab16 ( (force U16) (jbe16) (x)) 
函数 的 名 称 表示 了 其 用 途 。 例 如 ，_be32_to_cpus 将 一 个 32 位 大 端 序 值 转换 为 特定 于 CPU 的 格 

式 ， 而 _cpu_to_le64 将 一 个 64 位 值 从 特定 于 CPU 的 格式 转换 为 小 端 序 。 
用 于 大 端 序 主机 的 函数 ， 使 用 同样 的 方式 实现 (只 是 转换 不 同 〉。 





















































A.9 页 表 

为 简化 内 存 管理 ,内核 提供 一 个 将 各 种 体系 结构 不 同 点 抽象 出 去 的 内 存 模型 ， 各 种 移植 版 必须 提 
此 操作 页 表 和 页 表 项 的 函数 。 这 些 声 明定 义 在 <asm-arch/pgtable.h> 中 。 第 3 章 已 经 讨论 了 该 文件 
中 的 大 部 分 定义 ， 所 以 无 须 在 此 重复 。 











A.10 杂项 
本 节 包 含 了 3 个 特定 于 体系 结构 的 主题 











， 这 些 不 适 于 在 前 述 各 节 讲 述 。 









































A.10.1 校 验 和 计算 

对 数据 包 计 算 校 验 和 ， 是 通过 IP 网 络 通信 的 关键 ,会 相当 耗费 时 间 。 如 果 可 能 的 话 ， 每 个 体系 结 
构 都 应 该 采用 人 工 优化 的 汇编 代码 来 计算 校 验 和 。 相 关 的 代码 声明 在 <asm-arch/ checksum.h> 中 。 
其 中 有 两 个 函数 是 最 重要 的 。 











口 unsigned short 


ip_fast_csum 根据 卫 报 头 和 包头 长 度 计 算 必 要 的 校 验 和 。 








口 csum_partial 根 所 





局 依次 接收 的 各 个 分 片 ， 为 每 一 个 数据 包 计算 校 验 和 。 


A.10.2 上下文 切换 


























在 调度 器 决定 通知 当前 进程 放弃 CPU 以 便 另 





















































会 进行 上 下 文 切换 中 硬件 相关 的 





个 进程 运行 之 后 ， 

































































部 分 。 为 此 ， 所 有 体系 结构 都 必须 提供 switch_to 函 数 或 对 应 的 宏 ， 原 型 如 下 ， 声 明定 义 在 
<asm-arch/system.h> 中 : 

<asm-arch/system.h> 

void switch to(struct task struct *prev, struct task_ struct *next, 

struct task_ struct *last) 

该 函数 执行 上 下 文 切换 ， 保 存 prev 指 定 的 进程 的 状态 ， 并 激活 由 next 指 定 的 进程 。 

尽管 最 后 一 个 参数 last 看 起 来 似乎 是 多 余 的 , 但 它 可 用 于 查找 在 该 函数 返回 之 前 , 刚好 是 上 一 个 
运行 的 进程 。 请 注意 ，switch_to 不 是 一 个 通常 意义 上 的 函数 ， 因 为 在 该 函数 开始 和 结束 之 间 ， 系 统 








状态 可 能 以 若干 种 方式 改变 。 









































通过 例子 可 以 更 透彻 地 到 
二 者 都 是 进程 A 上 下 文中 的 局 部 变量 。 














E 解 该 函数 , 假定 内 核 从 进程 A 切换 到 进程 B 


























。prev 指 向 A, 而 next 指 向 B。 
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在 进程 B 执 行 之 后 ， 内 核 可 能 切换 到 其 他 进程 ， 最 终 可 能 到 达 进 程 X。 在 该 进程 结束 时 ， 内 核 恢 
复 到 进程 A 执行 。 因 为 从 进程 A 切换 到 进程 B 时 ， 进 程 A 处 于 switch_to 的 中 间 ， 而 恢复 执行 后 ， 将 执 
行 该 函数 的 剩余 部 分 。 局 部 变量 仍然 保持 不 变 〈 进 程 不 会 注意 到 在 此 期 间 调度 器 收回 了 CPU〉， 因 此 
prev 指 向 进程 A 而 next 指 向 进程 B。 但 利用 该 信息 ， 内 核 不 足以 确定 激活 进程 A 之 前 是 哪个 进程 在 执 
行 ， 该 信息 对 内 核 中 各 处 都 很 重要 。 这 是 last 变 量 发 挥 作 用 的 地 方 。 实现 上 下 文 切 换 的 底层 汇编 代 
码 必 须 确 保 last 指 向 刚刚 运行 的 进程 的 task_struct， 因 此 在 内 核 切 换 到 进程 A 之 后 ， 该 信息 仍然 是 
可 用 的 。 


A.10.3 查找 当前 进程 


curzent 宏 用 于 找到 一 个 指向 当前 运行 进程 的 task_struct 的 指针 。 每 个 体系 结构 都 必须 在 
<asm-arch/current.h> 中 声明 该 安 。 该 指针 保存 在 一 个 独立 的 处 理 器 寄存 器 中 ， 可 以 使 用 current 
直接 或 间接 地 查询 。 各 个 体系 结构 为 此 保留 的 寄存 器 在 表 A-1 中 列 出 。 


表 A-1 保存 指向 当前 进程 task_struct 或 thread_info 实 例 的 指针 的 寄存 器 



































































































































































































































































































































体系 结构 寡 存 器 内 容 
IA-32 esp thread_info 
IA-64 3 task_struct 
ARM sp thread_info 
Sparc and Sparc64 g6 thread_info 
Alpha r8 thread_info 
Mips r28 thread_info 
请 注意 ,根据 体系 结构 不 同 ， 相 关 寄 存 器 可 用 于 不 同 的 用 途 。 有 些 体系 结构 使 用 它 来 存储 一 个 指 
向 当 前 task_struct 实 例 的 指针 ， 但 大 多 数 体系 结构 使 用 它 保存 一 个 指向 当前 有 效 的 thread_info 实 









































例 的 指针 。 因 为 在 后 一 种 情况 下 ，threag_info 包 含 了 一 个 指针 ， 指 向 相关 进程 的 task_struct， 
current 可 以 绕 个 弯 子 来 实现 ， 如 Arm 体 系 结构 的 例子 所 示 : 


include/asm-arm/current.h 
static _always_inline struct task_ struct * get_current (voidq) { 
return current thread info()->task; 











} 


#define current get_current() 


指向 当前 thread_info 实 例 的 指针 ， 可 使 用 保存 在 寄存 器 sp 中 的 current_thread_info 来 找到 ， 
如 下 所 示 : 
include/asm-arm/thread_info.h 


static inline struct thread info xcurrent_threadq_info(void) 


{ 




















register unsigned long sp asm ("sp"); 
return (struct thread info *) (sp & ~(THREAD_ SIZE -1)); 
} 


表 A-1 没 有 包括 AMD64 和 IA-32 体 系 结构 ， 二 者 在 查找 当前 进程 时 采用 了 自身 特有 的 方法 。 系 统 
中 的 每 个 CPU 都 有 一 个 特定 于 该 CPU 的 私有 数据 区 域 , 保存 了 各 种 信息 项 。 对 于 AMD64, 其 定义 如 下 : 


include/asm-x86/pda.h 
struct x8664 pda { 
struct task_struct *pcurrent; /* 0 当前 进程 */ 
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unsigned long data_offset; /* 8 各 cpu 数 据 区 ， 与 链接 器 地 址 的 偏 移 量 */ 
unsigned long kernelstack; /* 16 当前 进程 内 核 栈 的 栈 顶 */ 

















unsigned irqg call count; 

unsigned irqg tlb count; 

unsigned irqg thermal_ count; 

unsigned irqg threshold count; 

unsigned irqg spurious_ count; 
} cacheline aligned in smp; 





段 选择 器 寄存 器 gs 总 是 指向 该 数据 结构 ， 而 其 中 的 成 员 可 以 通过 对 该 段 的 偏 移 量 访问 。 该 结构 包 
含 了 pcurrent 指 针 ， 指 向 当前 进程 的 task_struct 实 例 。 


A.11 小 结 


Linux 内 核 大 部 分 是 以 体系 结构 无 关 的 C 语 言 编写 ， 这 是 Linux 能 够 移植 到 大 量 平 台 的 先决 条 件 之 
。 但 少量 特定 于 硬件 的 核心 数据 结构 和 函数 ， 必 须 由 每 个 平台 分 别提 供 。 本 附录 探索 了 若干 重要 的 
体系 结构 下 相关 定义 的 示例 ， 并 讲述 了 内 核 为 弥合 各 个 平台 之 间 差 别 所 提供 的 通用 机 制 。 




























































































年 以 来 ，Linux 已 经 
最 复杂 的 软件 系 
问题 了 。 源 代码 的 组 织 和 


使 用 源 代码 

















六 














统 竞 争 。 因 而 ， 开 发 者 





























的 问题 。 如 何 对 内 核 进行 配 











的 部 分 ? 编译 过 程 是 如 何 





此 。 

































































， 使 得 根据 给 定 的 体系 结构 和 特 
控制 的 ? 在 内 核 重复 为 各 种 不 同 配置 进行 编译 时 ， 第 二 个 
配置 的 修改 没有 影响 的 部 分 显然 无 须 重新 编译 ， 这 样 可 以 节 4 
关注 内 核 源 代码 的 每 个 人 ， 都 会 被 其 庞大 的 规模 所 震惊 。 


小 型 的 黑客 项 目 发 展 为 一 个 巨大 的 系统 ， 能 够 毫 不 费力 地 与 最 庞大 、 
要 处 理 的 ， 
结构 也 是 关键 问题 ， 其 重要 性 


就 不 仅仅 是 关系 到 内 核 如 何 运 作 的 技术 
不 能 低估 。 本 附录 将 考虑 两 个 我 们 最 感 兴趣 
的 计算 机 配置 ， 来 限制 源 代码 中 对 应 
问题 就 变 得 特别 重 
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过 






























































+ 大量 时 间 。 
因为 本 书 的 主要 写作 目的 是 促进 对 源 代 
。 这 其 中 就 包括 了 很 突出 的 超 文本 系统 。 
































本 附录 还 讲述 了 调试 运行 状态 内 核 可 用 的 选项 ， 并 深入 考察 了 内 核 代码 的 结构 ， 二 者 都 有 助 于 对 内 核 






























































人 码 的 理解 ， 本 附录 考察 了 适 于 浏览 和 分 析 源 代 人 码 的 各 种 方法 
源 代码 的 理解 。 本 附录 还 深入 研究 了 用 

在 Linux 系 统 下 以 用 户 进程 形式 运行 ， 在 内 核 版 本 2.5 

录 还 讨论 了 分 析 在 实际 系统 上 运行 的 内 核 时 可 月 

包括 单 步 运行 汇编 语句 。 

B.1 内 核 源 代码 的 组 织 




















的 工作 ， 因 

















于 下 列 目录 中 。 
口 kernel 











除非 绝对 必要 ， 
地 处 理 ， 而 且 在 


























目录 包含 了 内 核 的 核 
但。 对 Linux 这 种 规模 的 项 


源 代码 文件 散布 到 一 个 存在 大 量 分 又 的 目录 树 中 ， 以 利于 跟踪 相关 的 内 核 组 件 。 这 
为 特定 的 文件 属于 哪 一 类 别 并 不 总 是 很 
内 核 源 代码 的 主 目录 包含 了 若干 子 



































泥 林 
请 代 。 


录 ， 对 源 代码 的 内 容 进 行 了 粗略 的 分 类 。 关 键 的 内 核 组 件 位 


心 组 件 的 代码 。 


户 模式 Linux (User-Mode Linux, UML), 这 是 一 个 内 核 移植 版 ， 














发 期 间 合 并 到 





官方 版 本 的 内 核 源 代码 中 。 本 附 








的 调试 设施 ， 这 其 中 包括 了 现代 调试 器 的 所 有 优点 ， 











其 中 只 包含 大 约 120 个 文件 ， 








总 共 大 约 80 000 行 代 























否则 不 要 向 该 目 














来 说 ， 这 个 数字 小 到 令 人 惊讶 。 
录 添 加 内 容 ， 几 














发 者 强调 ， 有 一 点 非常 重要 : 
脆 改 该 目录 中 文件 的 补丁 ， 都 会 被 极端 谨慎 























最 后 接受 之 前 ， 通 常会 

















Ll 行 长 期 的 讨论 ，。 





























口 高 层 的 内 存 管理 


身 的 规模 相 
用 于 初始 化 


同 。 
内 核 








口 





口 System V IPC 机 制 的 实现 位 于 ipcy 

















代码 位 于 mm 目录 。 内 存 管 

















里 子 系统 由 大 约 4$ 000 行 代码 组 成 ， 几 乎 与 内 核 本 


的 代码 位 于 init/ 目 录 。 附 录 D 将 讨论 相关 内 容 。 
目录 ， 已 经 在 第 5 章 讨 论 过 。 















































口 sound/ 包 含 了 声卡 的 驱动 程序 。 因 为 有 许多 针对 各 种 不 同 总 线 的 设备 ， 该 目录 包含 了 一 些 总 
线 相关 的 子 目 录 ， 其 中 包含 了 对 应 的 驱动 程序 的 源 代码 。 尽 管 声卡 驱动 程序 有 自身 的 目录 ， 
但 它们 与 其 他 设备 驱动 程序 没什么 不 同 。 
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口 scripts/ 包 含 了 编 
内 核 各 部 分 之 间 源 代码 大 小 的 分 布 ， 如 





fs/ 保 存 了 所 有 文 伯 


net/ 
PE 


网 络 于 





系统 大 














1ib/ 包 含 了 通 月 














缩 的 例 程 。 





arivers/ 在 源 代 码 中 所 
为 尽管 Linux 现 在 支持 大 量 的 驱动 程序 ， 但 对 每 





内 核 中 ， 因 








动 程序 。 访 


























相应 






































(include/asm) 指向 适当 的 体系 结构 
文件 搜索 路 径 ， 使 得 可 L 
而 这 种 做 法 通常 只 适用 
crypto/ 包 含 了 加 密 








录 中 。 还 有 一 些 特定 于 类 别 的 子 


日 库 例 程 ， 





F 系 统 实现 的 源 代码 ， 在 内 核 源 代码 中 大 约 占 25 MiB 的 空间 。 

















包含 了 网 络 实现 的 代码 ， 其 中 分 为 
约 有 15 MiB， 它 是 最 大 的 内 核 组 


部 分 ， 一 个 核心 部 分 ， 男 一 部 分 用 于 实现 各 种 协议 。 


件 之 一 。 

















占 的 空间 最 大 ， 


日 














可 用 于 内 核 的 所 有 部 分 ， 包 括 




















] 于 实现 各 种 树 的 数据 结构 和 数据 压 











大 约 130 MiB。 但 其 








中 只 有 少量 成 员 会 出 现在 编译 后 的 
个 具体 的 系统 而 言 ， 仅 需要 少量 驱 



































录 根 据 不 同 的 策略 进一步 进行 细 分 。 其 中 包括 总 线 相 关 的 子 
drivers/pci/), 其 中 包括 特定 总 线 类 型 的 扩展 卡 的 所 有 驱动 程 














录 〈 如 
序 , 总 线 自身 的 驱动 程序 也 在 



































的 驱动 程序 ， 但 这 些 可 


台 已 日 .( 什 
有 十 促 

















include/ 包 含 了 所 有 具备 公 
用 于 一 个 文件 ， 


























不 同 总 线 的 。 


有 目录， 如 media/ 和 isgn/。 其 中 包含 了 同一 类 的 扩展 卡 








































































































目 














于 /usr/include/ 下 的 标准 





以 通过 #include <file.h> 将 include/linux 














导出 函数 的 头 文 件 。 如 果 函 数 仅 由 一 个 子 系统 私下 使 用 ， 或 仅 

内 核 就 将 在 使 用 该 函数 的 C 源 代码 文件 的 同一 目录 下 插入 一 个 头 文件 。 这 里 会 

区 分 两 种 类 型 的 包含 文件 : 特定 于 处 理 器 的 信息 在 子 目 录 include/arch-arch/ 中 给 出 ， 而 通 
的 体系 结构 无 关 定义 则 在 inclugde/1linux/ 中 提供 。 在 配置 内 核 时 ， 会 创建 一 个 符号 链接 














录 。 在 编译 内 核 源 代码 时 , 会 适当 地 设置 C 编 译 器 的 头 
目录 下 的 文件 包含 进来 ， 


























包含 文件 。 











层 的 文 


于 支持 IPSec (加密 的 卫 连 接 ) 。 


security/ 目 录 下 




















后 《在 本 书 没有 讨论 ) 。 其 





中 包含 了 各 种 密码 算法 的 实现 ， 主 要 用 











的 文件 主要 















































] 于 安全 框架 和 密 钥 管 理 。 




















对 内 核 版 本 2.6.24 来 说 ， 其 中 仅 包含 





户 
三 








































































































SELinux 安 全 框架 ,“ 但 对 内 核 版 本 2.6.25 来 说 ， 其 中 还 将 包含 SMACK 框 架 (在 本 书 扎 写 时 内 核 
版 本 2.6.25 仍 然 处 于 开发 中 。 

Documentation/ 包 含 了 大 量 文本 文件 ， 给 出 了 内 核 各 方面 相关 的 文档 ， 但 其 中 一 些 文档 非常 
日 《对 内 核 开发 者 来 说 ， 为 软件 写 文档 可 不 是 他 们 乐于 干 的 ) 。 

arch/ 保 存 了 所 有 体系 结构 相关 的 文件 ， 既 包括 包含 文件 ， 也 包括 C 语 言 和 汇编 语言 源 文件 。 
对 内 核 支 持 的 每 种 处 理 器 体系 结构 ， 都 有 一 个 独立 的 子 目 录 。 各 个 特定 于 体系 结构 的 目录 只 
是 稍 有 不 同 ， 其 结构 类 似 于 内 核 的 顶层 目录 ， 其 下 包含 了 诸如 arch/mm/、arch/kernel 等 子 
录 。 





























B.2 用 Kconfig 进 行 配置 


正如 读者 所 知 ， 内 核 在 编 i 


译 内 核 或 进行 其 他 任务 所 需 的 所 有 的 脚本 和 实用 程序 。 





图 B-1 所 示 。 











CD SELinux 扩 
访 
这 








问 
蜂 





展 了 内 核 的 经 } 
控制 方案 、 强 制 访问 控制 




















的 口 








之 前 必须 进行 配置 。 








根据 一 系列 选项 ， 用 户 可 以 决定 将 哪些 函数 包含 








UUO000 %D 











大 














可 














不 讨论 这 些 专门 的 主题 ， 











AC，discretionary access control) 权限 模型 ， 加 入 了 基于 角色 的 

















(MAC，mandatory access control) 和 多 级 安全 性 (MLS,， multilevel security) 。 
为 其 实现 比较 元 长 、 底 











层 的 概念 也 比较 复杂 ， 相 关 的 选项 只 在 少量 Linux 发 行 版 上 
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在 内 核 中、 哪些 函 数 编译 为 模块 、 哪 些 函 数 排除 掉 。 为 此 ， 开 发 者 必须 提供 一 个 表明 哪些 特性 可 用 的 
系统 。 所 以 ， 内 核 采用 了 一 种 称 之 为 Kconfig 的 配置 语言 ， 将 在 本 节 后 面部 分 讨论 。 
初始 化 一 
进程 间 通 信 
块 层 - 
安全 框架 上 
库 函数 上 
加 密 例 程 上 
内 存 管理 - 
印 本 -上 
核心 内 核 -是 
文档 -EE 
声卡 驱动 程序 -EE 
网 络 -0 
文 什 系统 -9 
头 文 什 -INI 
体系 结构 相关 代码 -和 
设备 驱动 程序 一 一 一 一 
0 20 40 60 80 100 120 140 
大 小 [MiB] 
图 B-1 在 内 核 版 本 2.6.24 中 ， 项 层 目录 所 对 应 的 各 个 部 分 之 间 ， 代 码 数量 的 分 布 
该 配置 语言 必须 解决 下 列 问题 。 
口 各 组 件 可 以 持久 编译 到 内 核 中 、 可 以 编译 为 组 件 或 直接 忽略 控 〈 在 茶 些 环境 下 ， 可 能 无 法 将 
某 些 组 件 编译 为 模块 )。 
口 在 配置 选项 之 间 ， 可 能 存在 相互 依赖 关系 。 换 言 之 ， 某 些 选项 只 能 与 一 个 或 多 个 其 他 选项 连 
同 使 用 。 
口 必须 能 够 给 出 一 个 可 用 选项 列表 ， 供 用 户 从 中 选择 。 有 些 情 形 ， 需 要 提示 用 户 输入 编号 〈 或 
类 似 的 值 )。 
口 必须 能 够 层次 化 地 编排 各 种 配置 选项 (在 一 个 树 型 结构 中 )。 
口 配置 选项 可 能 依 体系 结构 而 不 同 。 
口 配置 语言 不 应 该 过 于 复杂 ， 因 为 编写 配置 脚本 并 非 大 多 数 内 核 程序 员 喜 欢 做 的 事情 。 
配置 信息 应 该 散布 在 整个 源 代码 树 中 ,使 得 没 必要 维护 一 个 巨型 的 中 枢 配 置 文件 ， 这 种 巨型 配置 
文件 将 难于 打 补 丁 。 在 代码 包含 了 可 配置 选项 的 每 个 子 目 录 中 ， 都 必须 有 一 个 配置 文件 。 下 一 小 节 将 


用 一 个 例子 ， 来 说 明 配置 文件 的 语法 。 
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B.2.1 配置 文件 示例 


配置 文件 的 语法 并 不 特别 复杂 ， 如 以 下 取 自 USB 子 系统 的 例子 所 示 《〈 稍 作 修改 ); 
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drivers/usb/Kconfig 

# 

# USB device configuration 
# 


menuconfig "USB support" 

bool "USB support" 

depends on HAS_IOMEM 

default y 

---help--- 

This option adds core support for Universal Serial Bus (USB). 

You will also need drivers from the following menu to make use of it. 
if USB_SUPPORT 


config USB_ ARCH HAS_HCD 
boolean 
default y if USB_ ARCH HAS_OHCI 
default PCI 


config USB_ARCH_ HAS_OHCI 








boolean 
ARM: 

default y if SA1111 

default y if ARCH OMAP 
BBPC:s 

default y if STBO3xxx 

default y if PPC MPC52xx 
MIPS: 

default y if SOC_AU1LX00 
more: 


default PCI 


config USB 
tristate "Support for USB" 
depends on USB_ARCH_ HAS_HCD 
---help--- 
Universal Serial Bus (USB) is a specification for a serial bus 
subsystem which offers higher speeds and more features than the 
traditional PC serial port. The bus supplies power to peripherals 





Source "drivers/usb/core/Kconfig" 
source "drivers/usb/host/Kconfig" 


source "drivers/usb/net/Kconfig" 


comment "USB port drivers" 
depends on USB 


config USB_ USS720 

tristate "USS720 parport driver" 

depends on USB && PARPORT 

---help--- 
This driver is for USB parallel port adapters that use the Lucent 
Technologies USS-720 chip. These cables are plugged into your USB 
port and provide USB compatibility to peripherals designed with 
parallel port interfaces. 
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Source 


"drivers/usb/gadget/Kconfig" 


endif # USB_SUPPORT 
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menuconfig 产 生 一 个 菜单 项 ， 
形 化 的 make xconfig 或 make gconfig 配 置 内 核 时 ， 
个 变量 中 ， 这 里 是 USB_SUPPORT， 有 


menuconfig 或 图 


出 现 。 所 做 的 选择 保存 在 











页 















































变量 ， 


a 
百 心 ， 











这 可 








件 的 文本 内 





容 ， 


comment 在 配置 
的 配置 选项 通过 config 指 定 。 对 每 个 选项 来 说 ， 


bool 标 
| 以 由 if 字 人 句 保 证 。 
通过 source， 可 以 将 更 多 的 配置 文件 关 





实际 

















明 。 如 果 取 消 对 USB_SUPPORT 的 





T 

















将 直接 包含 到 绒 入 的 配置 文件 中 
选项 列表 中 创建 一 个 注释 。 














B-2 USB 子 系统 配置 结构 


其 标题 是 一 


居 进 来 〈 按 照 ; 


Dus 才 Uppll9S powar 10 panpharals 
Up'1o 127 USB paripherals fan be 


tonnected 0 a single USB hostin 二 Tree struchure, 


The UBH host is (ho root of {he lroe, {ht pealphorits ae lu 
leaves and the inner nodes re special USS devices callod hubs 
Most PCS now ha USB host porls, Usted lo connoct poriphorals 
such as scannots, keybomds, mice, modems, carmeras, shs, 
Mash mimory, nehwoyklinks and printbers to the PC 


pporr ewen tor oMder systems mat 
Nadoesnt normally hurtto gelect 


YYour Syslem has a devire-slds USB porl used In ths peripheral 
sde of he USE protocol gee he USB Godger framaework instend. 


a epectally Me lnks gmen In 


“We:Documentabhon/ustyusb- nelp. b>. 


BI2C supnont 回 USB Primlet supporl 
SP| supporl 
口 Dallass 1-wira suppont Support for Host-side USB (Usa) 
Power supply ¢lass SUppon 
回 Haidwade Monitoting suppots Unwersal Serial BL (UI) |s a spacifeation for a tedial dus 
Vatchdog Timaer Support subsystem Which ofers nigner Spaeds arvd rmore aures man he 


Say Y here if your cornpuler has a host sido SH porl and you wa 
lo use USA doevices. You then need to Say lo least ong of the 
Host Gonkroller Drives (HGD) options below. Choose su USD 1.1 
ontrolter, such a3 "UHCI HCD suppor or"OHC| HCD guppor, 


AMer choosing your HCD, then seler drivars for he LISB perpherais 
ulbe using. You may wantto theck out the mformadon provided 








自 

















个 字符 串 ， 





的 屏幕 显示 
在 这 








用 户 用 make 








里 是 UsB support。 在 














两 个 可 能 的 值 ， 


该 菜单 项 会 作为 一 个 新 子 树 的 根 
因为 这 是 一 个 布尔 型 


= 

















选择 ， 那 么 配 

















进行 解释 。 


树 





贯 例 ， 它 1 


不 会 出 现 与 USB 相 关 的 其 他 配置 


























| 























都 名 为 Keconfig)。 这 些 配置 文 








注释 的 文本 会 显示 ，1 














后 的 字符 串 称 之 为 0 0 DD 《configuration symbol)， 可 接受 用 户 选择 。 每 个 选项 都 需要 一 个 类 型 ， 








只 有 














日 用 户 不 能 进行 选择 。 





个 config 类 型 的 数据 项 。config 之 





来 
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定义 用 














户 可 以 进行 什么 样 类 型 的 选择 。 在 本 例 中 ， 选 择 的 类 型 是 三 态 的 ， 即 可 以 选择 下 面 的 一 个 : 





“compiled in” “modular” 或 “do not compile”。 根据 所 做 的 选择 ， 配 置 符号 会 分 布 赋 值 y-、m、n。 除 
了 三 态 之 外 ， 内 核 还 提供 了 其 他 的 选择 类 型 ， 将 在 本 节 稍 后 讨论 。 


配置 选项 的 






































依赖 关系 通过 aepenas on 指定 。 其 他 的 配置 符号 传递 到 该 语句 作为 参数 ， 它 们 可 用 


使 用 C 语 言 中 的 逻辑 运算 符 连接 起 来 (gg、| |、!， 分 别 是 0 、 口 、 口 )。 除 非 所 指定 的 前 提 条 件 满足 ， 





否则 荣 单 项 是 不 显示 的 。 


















































缩 进 的 改变 表示 帮助 文本 结束 ， 内 核 训 
例子 中 给 出 了 两 个 配置 选项 。 
非 存 在 一 个 USB 宿 主机 控 种 



































[一 

















口 直接 文 持 某 种 宿主 机 控制 器 忌 


























如 果 设 置 了 USB_ARCH_HAS 
但 有 些 系 统 可 能 在 0 口 PCI 文 持 
ARM 的 机 器 和 一 些 基 于 PPC 的 型 号 。 


和 外 
驱动 选项 根本 不 会 显示 。 


















































Port drivers 项 不 会 显示 。 
























































配置 树 的 生成 从 arch/arch/Kconfig 开 
过 source 递 归 地 包含 进来 。 
B.2.2 ”Kconfig 的 语言 要 素 

前 一 个 例子 
语言 特性 给 出 一 个 系统 化 的 概述 。? 

1. 菜单 

菜单 使 用 以 下 命令 指定 : 

menu "string" 

<attributes> 


<configuration options> 


endmenu 





其 中 string 是 菜单 的 名 称 。menu 和 endmenu 之 | 





器 ， 和 否则 该 选项 是 不 显示 
选项 为 true 还 是 false。 为 该 选项 指定 true 值 有 不 同 的 方式 ， 例 子 中 给 
片 组 《例子 中 
口 支持 PCI 总 线 《〈 即 配置 符号 PCI 为 true )。 

oHCI, 那么 OHCI 芯 片 组 支持 是 可 用 
的 情况 下 使 用 该 芯片 组 。 这 些 系统 将 显 式 列 出 并 包括 进来 ， 例 如 基于 




































































， 
的 。 








PP 的 OHCD; 























取决 于 USB 


:他 配置 项 都 依赖 该 选项 。 但 





--help-- 表示 其 后 的 文字 是 帮助 文本 ， 如 果 用 户 不 确认 配置 项 的 语义 ， 就 可 以 显示 帮助 文本 。 
知道 又 需要 处 理 通常 基 
第 一 个 定义 了 USB 配置 符号 ， 














除 


ARCH_HAS_HCD 配 置 
































BT 


人 








如 例子 所 示 , 在 注释 之 间 以 及 配置 选项 之 间 , 可 能 存在 依赖 关系 。 除 非 选 




















二 个 配置 选项 (USS720〉 依赖 两 件 事情 。 系 统 不 仅 要 支持 USB， 还 需要 文 持 并 行 端口 。 








sp pe A 


























人 
昌 ， 书目 ZX 














继承 了 依赖 关系 〔 将 添加 到 菜单 项 现存 的 依赖 关系 中 )。 








关键 字 menuconfig 用 于 定义 一 个 配置 符 


menu 





GD 负 号 可 以 省 略 ，help 本 身 作为 分 隔 符 即 可 。 


@) 该 文档 在 Documentation/kbuild/kconfig-language.txt 中 。 





号 和 一 个 子 某 


"Bit bucket compression support" 








所 


1 配置 文件 读 取 。 所 有 其 他 Kconfig 文 件 都 通 





的 。 在 支持 PCI 总 线 时 , 总 是 这 样 。 


ph 了 USB 支 持 , 否则 USB 





以 下 两 种 方式 : 














否则 ， 




















没有 完全 使 用 Kconfig 语 言 的 所 有 选项 。 本 节 根 据 内 核 源 代码 


FP 的 文档 ， 对 其 所 有 


旧 所 有 项 都 解释 为 该 菜单 的 菜单 项 ， 自动 地 从 菜 单 























。 那 么 下 述 写 法 可 以 进行 调整 : 
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config BIT_ BUCKET_ZLIB 


tristate "Bit bucket compression support" 





可 以 调整 为 下 述 更 简短 的 格式 : 


menuconfig BIT_BUCKET ZLIB 
tristate "Bit bucket compression support" 










































































另 一 个 关键 字 mainmenu， 只 能 出 现在 配置 层次 结构 的 顶部 〈 且 只 能 出 现 一 次 )， 用 于 为 整个 层次 

















结构 指定 一 个 标题 。 因 而 该 项 只 用 于 arch/arch/Kconfig 中 ， 医 








为 这 些 文件 表示 配置 层次 结 术 




















为 的 起 始 





















































点 。 例 如 ， 用 于 Sparc64 处 理 器 的 版 本 包含 以 下 项 : 
mainmenu "Linux/UltraSPARC Kernel Configuration" 


2. 配置 选项 
配置 选项 由 关键 字 config 开 头 ， 必 须 后 接 一 个 配置 符号 。 


CoONnfig <Symb5aol> 



































<type-name> "Description" 
<attributes> 








类 型 名 (<type-name>) 表示 选项 的 类 型 。 如 前 所 述 ，tristate 类 型 的 值 为 以 下 一 种 状态 : y、 


n 或 m。 其 他 的 选项 类 型 如 下 所 示 : 
口 bool 用 于 返回 y 或 者 n 的 布尔 查询 ， 即 是 否 选 中 该 项 。 
口 stzing 查 询 一 个 字符 串 。 
口 hex 和 ;integer 分 别 读 取 十 六 进 制 和 十 进 制 数 。 
还 可 以 使 用 下 列 语法 : 


config <symbol> 









































<type-name> 
prompt "Description" 


从 功能 上 讲 ， 它 与 前 者 是 等 价 的， 但 较为 简短 。 






































如 果 要 求 用 户 从 一 组 选项 中 选择 0 口 ， 则 必须 使 用 choice， 
choice 
<attributes> 


config <symbol_1> 
<type-name> 
<attributes> 


config <symbol_ n> 
<type-name> 
<attributes> 


endchoice 


每 个 配置 选项 都 有 自身 的 配置 符号 ， 如 果 选 中 对 应 的 选项 ， 
表示 为 配置 前 端 界面 上 的 一 组 单 选 按钮 ， 如 图 B-3 所 示 。 
















































































去 


其 语法 如 下 : 


y 

















则 其 值 是 y， 否 则 为 n。choice 通 常 


920 DUUB UO0UOD 





Linux Kernel v2.6.24 Configuration 


File Edit Option Help 


世 国 


Option 





口 64-bit kernel 
General setup 
Enable loadable module Support 
Enable the block layer (NEW) 
Processortype and features 
口 Paravirtualized guest support (NEW) 
Power management options 
Bus options (PCI etc.) 
Executable file formats / Emulations 
Networking 
Device Drivers 
Firmware Drivers 
File systems 
Instrumentation Support 
Kernel hacking 
Security options 
Cryptographic API 
Library routines 


[OS 


全 包 








VODIOCGOOCTIU 
© SumMmMitEXA (IBM x440) 
© Supportfor other sub-arch SMP systems with more than 8 CPUS 
O SG| 320/540 (Visual Workstation) 
O Generic architecture (Summit bigsmp, ES7000, default) 
© Supportfor Unisys ES7000 IA32 series 
Single-depth WCHAN output (NEVV) 
© Processorfamily 
O386 
O486 
O586/K5/5x86/6x86/6x86MX 
OPentium-Classic 
© Pentium-MMX 
已 Pentium-Pro 
© Pentium-ll/Celeron(pre-Coppermine) 
© Pentium-lll/Celeron(Coppermine)/Pentium-lll Xeon 
OPentium M 
®@ Pentium-4iCeleron(P4-based)/Pentium-4 Miolder Xeon 
已 K6IK6-INK6- 川 
© Athlon/Duron/K7 
O Opteron/Athlon6 4/HammeriK8 
OCrusoe 
OEfficeon 
OWinchip-C6 
OWinchip-2 




















Processor type and features 








图 B-3 ”用 choice 在 IA-32 平 台 上 选择 CPU 
图 B-3 中 CPU 选 择 部 分 的 源 代码 如 下 所 示 (为 提高 可 读 性 ， 已 经 省 去 了 帮助 文本 ): 


choice 








prompt "Processor family" 
default M686 if X86_32 


config M386 
bool "386" 


depends on X86_32 && !UML 


---help--- 


























这 里 用 于 为 用 户 的 CPU 选择 处 理 器 类 型 。 该 信息 用 于 优化 。 为 编译 在 所 有 x86 CPU 类 型 上 都 能 运行 的 












































内 核 〈 可 能 不 是 最 快 ) ， 可 以 在 这 里 指定 "386" 类 型 。 


config M486 
bool "486" 


config M586 


bool "586/K5/5x86/6x86/6x86MX" 


config M586TSC 


bool "Pentium-Classic" 
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config M586MMX 
bool "Pentium-MMX" 


config M686 
bool "Pentium-Pro" 


config MPENTIUMII 
bool "Pentium-II/Celeron (pre-Coppermine)" 








config MGEODE LX 
bool "Geode GX/LX" 











config MCYRIXIII 
bool "CyrixIITI/VIA=C3" 


config MVIAC3_ 2 
bool "VIA C3-2 (Nehemiah)" 


endchoice 

































































3. 属性 
属性 用 于 更 准确 地 指定 配置 选项 的 效果 。 内 核 源 代码 的 下 列 片段 使 用 了 属性 : 
下 守 
和 . ee "Support for paging of anonymous memory (swap)" 
depends on MMU & BLOCK 
default y 
depends on 指定 ， 仅 当 为 带 有 MMU 的 系统 编译 内 核 时 ， 而 且 在 块 层 编译 到 内 核 值 时 ， 才 能 选中 


zen 


SWAP。default 表 示 上 默认 情况 下 选择 y， 如 果 用 户 不 修改 设置 ， 该 值 将 自动 地 指派 给 SWAP 符 号 。 
在 我 们 讲解 如 何 指 定 依 赖 关系 “在 下 一 小 节 讲 述 ) 之 前 ， 先 来 了 解 下 列 属性 。 
口 aefault 指 定 了 配置 项 的 默认 设置 。 对 于 Pool 查询 ， 可 能 的 默认 值 是 y 或 an。 对 于 tristate 类 
型 来 说 , m 是 第 三 种 可 能 性 。 对 于 其 他 类 型 的 选项 ,必须 指定 默认 值 。string 需 要 指定 字符 串 ， 
而 integer 和 hex 需 要 指定 数值 。 
口 range 限 制 了 数值 选项 的 可 能 范围 。 第 一 个 参数 指定 下 限 ， 第 二 个 参数 指定 上 限 。 
口 在 使 用 select 语 句 选 中 配置 项 的 情况 下 ，select 用 于 自动 地 选择 其 他 的 配置 选项 。 这 种 吕 口 
DO 机 制 只 能 用 于 tristate 和 lbool 类 型 的 选项 。 
口 help 和 --help-- 用 于 加 入 帮助 文本 ， 如 前 文 所 示 。 
所 有 这 些 属 性 都 可 能 后 接 if 子 句 ， 其 中 指定 了 应 用 该 属性 的 条 件 。 类 似 daepends on， 这 里 也 会 
将 该 属性 依赖 的 符号 通过 逻辑 运算 符 连 接 起 来 进行 判断 ， 如 下 例 《〈 虚 构 的 ) 所 示 : 
config ENRABLE_ACCEL 
bool "Enable device acceleration" 
default n 
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Tt 
Ly 



























































































































































config HYPERCARD_ SPEEDUP 
integer "HyperCard Speedup" 
default 20 if ENABLE ACCEL 
range 1 20 
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4. 依赖 关系 



































































































































































































































































































































前 文 解释 过 ， 配 置 项 的 依赖 关系 可 以 通过 逻辑 子 句 指定 ， 其 语法 类 似 于 C 语 言 。 依 赖 关系 的 规范 
结构 如 下 所 示 : 

depends [on] <expr> 

<expr> ::= <Symbol> 

<Symbol> '=' <Symbol> 
<Symbol> ''=' <Symbol> 
(SR 

'! ”<expr> 

<expr> '&&' <expr> 

<expr> '||' <expr> 

可 能 的 表达 式 按 其 解释 次 序 依 次 列 出 。 换 言 之 ， 排 在 前 面 的 表达 式 ， 其 优先 级 高 于 排 在 后 面 的 。 

操作 的 语义 与 C 语 言语 法 中 对 应 的 操作 相同 : y = 2，n = 0， 而 m = 1。 除 非 依赖 关系 计算 的 结 
有 果 非 0， 和 否则 沫 单项 是 不 可 见 的 。 

一 种 特定 的 依赖 关系 通过 "EXPERIMENTAL "指定 。 仍 然 处 于 试验 阶段 的 驱动 程序 必须 用 该 依赖 关 
系 标 记 《〈 如 果 该 驱动 程序 自身 还 有 其 他 依赖 关系 ， 则 需要 用 gg 逻辑 操作 连接 ) 。 因 为 内 核 在 
init/Kconfig 中 提供 了 一 个 配置 选项 ， 允 许 用 户 将 该 符号 设置 为 y 或 na《〈 提 示 用 户 处 于 开发 阶段 和 /或 
不 完整 的 代码 /驱动 程序 )， 对 兆 求 稳定 性 的 用 户 来 说 ， 很 容易 从 配置 选项 中 删除 此 类 驱动 程序 。 字 符 
串 " (Experimental) "应 该 出 现在 末尾 ， 表 明 该 驱动 程序 的 代码 实际 上 是 试验 性 的 。 

B.2.3 ”处理 配置 信息 
按 下 列 步骤 处 理 配置 信息 。 
(1) 内 核 首 先 由 用 户 配置 。 这 预先 假定 已 经 准备 好 所 有 可 能 选项 的 一 个 列表 ， 并 以 文本 或 图 形 方 



























































式 呈 现 出 来 〈 可 








的 配置 已 经 根据 所 选 的 体系 结构 进行 了 限制 ， 这 一 点 无 须 











(2) 接 下 来 将 用 户 的 选择 保存 到 一 个 独立 的 文件 中 

















证 所 用 的 工 ; 








也 能 够 访问 该 文件 。 





大 














(3) 所 选 的 配置 符号 必 
语句 来 说 ， 都 要 求 如 此 。 
在 发 起 内 核 配置 





























的 图 


口 menuconfig 提 供 了 一 个 控 





包 《〈Qt 或 GTK) 
oldconfig 分 析 
选择 的 选项 作出 
defconfig 应 用 
allyesconfig 创 建 


口 














口 
口 

















allmodconfig 


最 低 限度 的 配置 ， 




















已 经 保存 在 .configf 
提示 。 
体系 结 
也 将 所 有 选项 都 设置 


其 中 删除 了 编译 关键 内 核 组 件 不 需要 的 其 





时 ， 有 各 种 make 目 标 (make destconfig)。 各 
央 台 张 动 的 前 端 ， 而 xconfig 和 gconfig 则 提供 了 基于 各 种 X11 工 具 


























乡 用 
区 用 


户 界 证 




















o 





须 存在 , 对 于 由 一 系列 Makefile 实 现 的 联 编 系 统 和 内 核 源 代码 中 的 预 处 理 




















] 户 干涉 》。 
， 一 直 保 持 到 下 一 次 重新) 配置 之 前 ， 并 保 


























各 











都 有 不 同 的 用 途 。 





















































的 配置 选项 ， 对 可 能 在 内 核 更 


构 维 护 者 定义 的 默认 配置 (相关 信息 保存 在 arc 











~ 





所 之 后 添加 、 但 尚未 进 

















h/arch/defconfigk )。 




















个 


新 的 配置 文件 ， 其 














中 所 有 选择 都 设置 为 yx( 在 支持 y 值 的 选项 处 )。 



























































为 Yy， 但 在 


























这 三 种 目标 在 








所 有 配置 选项 都 必须 分 析 各 个 Kconfig 文 件 中 的 配 
它 提供 了 例 程 来 执行 适当 的 


此 提供 了 libkconfig 库 。 








建立 新 的 内 核发 布 版 时 , 用 于 进行 测 


呈 位: 向 














可 能 的 情况 下 会 使 用 nm。allnoconfig 产 生 一 个 








也 选项 。 
] 户 在 使 用 它们 时 都 存在 问题 。 
言 息 ， 还 必须 保存 结果 配置 。 内 核 源 代码 为 











试 。 通常 , 最 终 
























































任务 。 本 附录 不 讨论 解析 器 的 实现 ， 其 中 采用 























了 Bison 和 Flex 这 两 个 解析 器 和 词法 分 析 器 的 生成 工具 。 相 关 的 源 代 了 码 可 参见 scripts/kconfig/ 


zconf.y 和 zconf .1。 
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用 户 定义 的 配置 选项 保存 在 .config 中 ， 如 下 所 示 : 


wolfgang@meitner> cat .config 
# 

# Automatically generated make config: don't edit 
# Linux kernel version: 2.6.24 
# Thu Mar 20 00:09:15 2008 

# 

CONFIG_ 64BIT=y 

# CONFIG X86_32 is not set 
CONFIG X86_64=y 

CONFIG X86=y 

CONFIG_ GENERIC_ TIME=Yy 





























# 

# General setup 
# 
CONFIG_ EXPERIMENTAL=Yy 
CONFIG_LOCK_KERNEL=Yy 
CONFIG_INIT_ENV_ARG _ LIMIT=32 

CONFIG LOCALVERSION="-default" 
CONFIG LOCALVERSION_AUTO is not set 





























CONFIG_PLIST=Y 
CONFIG_HAS_IOMEM=Yy 
CONFIG_HAS_IOPORT=Yy 
CONFIG_HAS_DMA=y 

CONFIG_ CHECK_SIGNATURE=Yy 


所 有 配置 符号 的 前 级 都 是 CONFIG_ 字符 串 。 如 果 设 置 了 相关 配置 项 ， 则 在 其 后 附加 = y 或 = n。 未 
设置 的 选项 使 用 # 号 注释 掉 。 

为 使 内 核 源 代码 能 够 看 到 所 选 的 配置 ， 必须 包含 <config.h> 文 件 。 该 文件 又 将 <autoconf .h> 包 
含 到 源 代码 中 。 后 者 包含 了 预 处 理 器 可 以 提取 的 配置 信息 ， 如 下 所 示 : 


<autoconf.h> 
/ * 

* Automatically generated C config: don't edit 
* Linux kernel version: 2.6.24 

* Thu Mar 20 00:09:26 2008 

tf 
define AUTOCONF_INCLUDED 
define CONFIG USB_SISUSBVGA MODULE 1 

define CONFIG USB_PHIDGETMOTORCONTROL MODULI 
define CONFIG VIDEO V4L1 COMPAT 1 
define CONFIG PCMCIA FMVJ18X MODULE 1 





























































































































所 
i 


























define CONFIG_ USB_SERIAL SIERRAWIRELESS_ MODULE 1 
define CONFIG VIDEO_SAA711X MODULE 1 
define CONFIG SATA_INIC162X MODULE 1 
define CONFIG AIC79XX RESET DELAY MS 15000 
define CONFIG NET_ ACT GACT MODULE 1 























本 国史 





























define CONFIG USB_ BELKIN 1 
define CONFIG NF_CT_ NETLINK MODULE 1 
define CONFIG NCPFS_ PACKET_ SIGNING 1 
define CONFIG_ SND USB_AUDIO MODULE 1 
define CONFIG I2C 1810_ MODULE 1 
define CONFIG I2C_ 1801 MODULE 1 





























I 











有 
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器 符号 末尾 附加 了 _MopULE 字 符 


蔡 换 


配置 符号 的 前 级 仍然 是 CONFIG_。 每 个 选中 的 选项 都 定义 为 1。 模 块 选项 同样 定义 为 17， 但 
串 。 未 选择 的 配置 项 用 ungef 明 确 地 标记 为 未 定义 。 数 值 


























为 用 户 选 择 的 值 。 











这 使 得 可 以 向 源 代码 中 插入 对 配置 信息 的 查询 。 例 如 : 





#ifdef CONFIG_SYMBOL 
/* 
#else 


设置 SYMBOL 情况 下 的 代码 */ 


/* 未 设置 SYMBOL 情况 下 的 代码 */ 


#endif 


B.3 用 Kbuild 编 译 内 核 

















入 细 
统 的 
文档 





B.3.1 


来 完 


通常 





在 配置 内 核 之 后 ， 束 必须 编 


























成 该 工作 。 它 采 








没有 这 些 需求 。 要 完全 理解 该 机 制 的 工作 原型 
必 户 和 内 核 程 序 员 的 
kbuild/make 











节 ， 只 是 从 最 终 


使 用 。Documentation/ 











o 


使 用 Kbuild 系 统 








译 源 代码 ， 来 生成 内 核 映 像 和 模块 二 进 人 
用 了 一 个 复杂 的 Makefile 系 统 ， 来 满足 联 编 内 核 的 特殊 要 求 ， 联 编 普 通 应 用 程序 
EE， 就 需要 对 make 技 巧 的 深入 型 








判 文件 。 内 核 









































和 度 〈 不 是 Kbuild 
files .txt 中 包含 了 联 编 系 统 的 让 





发 者 的 


度 ) ， 来 简单 1 


























1 


! 预 处 至 
和 字符 串 者 

















Eo 








使 用 GNU Make 




















E 解 ， 本 附录 不 打算 深 
述 一 下 联 编 系 


























细 文 档 ， 丁 就 是 基于 该 














联 编 











外 























目标 help 在 内 核 版 本 2.5 


A 


人 





























期 间 被 引入 ， 用 于 向 














] 户 显示 所 有 可 








的 make 目 标 。 它 输出 一 








标 列 表 ， 会 区 分 体系 结构 相关 和 无 关 的 目标 。 例 如 ， 在 UltraSparc 系 统 上 ， 会 显示 如 下 列表 : 


wolfgang@ultrameitner> make help 


Cleaning targets: 
clean 一 


mrproper 一 
distclean 一 


Configuration targets: 





config - Update current config 
menuconfig - Update current config 
xconfig - Update current config 
gconfig - Update current config 
oldconfig - Update current config 
silentoldconfig - Same as oldconfig, 
randconfig - New config 

defconfig - New config 
allmodconfig - New config 
allyesconfig - New config 
allnoconfig - New config 


Other generic targets: 


* 浆 


all 
vmlinux 
modules 


- Build all targets marked with 


- Build the bare kernel 
- Build all modules 


modules_install 一 
dir/ 一 
dir/file. [ois] 一 
dir/file.ko 一 
rpm 一 
tags/TAGS 一 


Install all modules to 
Build all files in dir 
Build specified target 
Build module including 


utilising 
utilising 
utilising 
utilising 
utilising 


but quietly 
with random answer to all options 

with default answer to all options 
selecting modules when possible 

where all options are accepted with yes 
where all options are answered with no 


[* 


INSTALL MOD_PATH 


and below 
only 
final lin 


Build a kernel as an RPM package 


Generate tags file for 


editors 


a 
a 
总 
a 
a 


| 


k 


Remove most generated files but keep the config and 
enough build support to build external modules 

Remove all generated files + config + various backup files 
mrproper + remove editor backup and patch files 


line-oriented program 
menu based program 

QT based front-end 

GTK based front-end 
provided .config as base 


(default: /) 
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cscope - Generate cscope index 
kernelrelease - Output the release version string 
kernelversion - Output the version stored in Makefile 


headers_install 


Static analysers 
checkstack 
namespacecheck 
export_report 
headers_check 


- Install sanitised kernel headers to INSTALL HDR_ PATH 
(default: /home/wolfgang/linux-2.6.24/usr) 


- Generate a list of stack hogs 

- Name space analysis on compiled kernel 
- List the usages of all exported symbols 
- Sanity check on exported headers 


Kernel packaging: 


rpm-pkg - Build the kernel as an RPM package 

binrpm-pkg - Build an rpm package containing the compiled kernel 
and modules 

deb-pkg - Build the kernel as an deb package 

tar-pkg - Build the kernel as an uncompressed tarball 

targz-pkg - Build the kernel as a gzip compressed tarball 

tarbz2-pkg - Build the kernel as a bzip2 compressed tarball 


Documentation targets: 
Linux kernel internal documentation in different formats: 


htmldocs — HTML 

installmandocs - install man pages generated by mandocs 
mandocs - man Pages 

pdfdocs — PDF 

psdocs —- Postscript 

xmldocs - XML DocBook 


targets (sparc64): 

Standard sparc64 kernel 
a.out kernel for sparc64 
Image prepared for tftp 


Architecture specific 
* vmlinux 一 
vmlinux.aout 三 
tftpboot.img 一 


make V=0|1 [targets] 0 => quiet build (default), 1 => verbose build 
make V=2 [targets] 2 => give reason for rebuild of target 
make O=dir [targets] Locate all output files in "dir", including .config 
make C=1 [targets] Check all ¢c source with SCHECK (sparse by default) 
make C=2 [targets] Force check of all ¢ source with SCHECK 

Execute "make" or "make all" to build all targets marked with [*] 


For further info see the ./README file 
IA-32 和 AMD64 系 统 所 提供 的 体系 结构 相关 目标 是 不 同 的 。 


wolfgang@meitner> make help 
Architecture specific targets (x86): 
* bzImage - Compressed kernel image 














(arch/x86/boot/bzImage) 


install - Install kernel using 
(your) ~/bin/installkernel or 
(distribution) /sbin/installkernel or 
install to $(INSTALL PATH) and run lilo 

bzdisk - Create a boot floppy in /dev/fd0 

fdimage - Create a boot floppy image 

isoimage - Create a boot CD-ROM image 

i386_defconfig - Build for i386 

X86_64_ defconfig - Build for x86_64 











如 帮助 文本 所 解释 的 ， 如 果 调 用 make 时 没有 参数 ， 就 将 编译 所 有 








j* 标 记 的 目标 。 
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B.3.2 ” Makefile 的 结构 







































































































































































器 




























































































除了 .config 文 件 ，Kbuild 机 制 还 使 用 了 下 列 组 件 。 

口 主 Makefile (/path/to/src/Makefile) ， 通 过 根据 配置 递归 地 编译 子 目 录 ， 并 将 编译 结果 合 
并 到 最 终 产 品 中 ， 来 生成 内 核 本 身 和 模块 。 

口 体系 结构 相关 的 Makefile， 在 arch/arch/Makefile 中 ， 负 责 在 编译 期 间 必 须 遵守 的 与 处 理 
相关 的 微妙 之 处 ， 如 特别 的 编译 优化 选项 。 该 文件 还 实现 了 所 有 体系 结构 相关 的 make 目 标 ， 
此 前 在 讨论 help 时 提 到 过 这 些 目标 。 

口 scripts/Makefile.* 包 含 了 与 一 般 编译 、 模 块 生 成 、 各 种 实用 程序 的 编译 、 从 内 核 树 删除 目 
标 文件 和 临时 文件 等 任务 相关 的 make 规 则 。 

口 内 核 源 代码 的 各 个 子 目 录 都 包含 了 与 特定 驱动 程序 或 子 系统 相关 的 Makefile( 也 采用 了 标准 的 
语法 ) 。 

1. 主 Makefile 

主 Makefile 是 内 核 编译 的 关键 。 它 定义 了 C 编 译 器 、 链 接 器 的 调用 路 径 等 信息 。 必 须 区 分 下 列 两 

种 备 选 的 工具 链 。 

口 用 于 生成 在 编译 内 核 的 主机 上 执行 的 0 0 程序 的 工具 链 。 此 类 程序 的 例子 如 menuconfig 的 二 
进 制 文件 或 用 于 分 析 模 块 符 号 的 工具 。 

口 用 于 生成 内 核 本 身 的 工具 链 。 


构 的 机 器 来 纺 





使 月 








这 种 方法 。 
件 工具 ) 》 以 便 
































这 两 个 工具 链 通 常 是 相同 的 。 仅 当 交 叉 编译 内 核 时 ， 才 有 区 别 。 换 言 之 ， 在 
译 另 一 种 不 同体 系 结构 的 内 核 时 。 如 果 
于 ARM 或 MIPS 的 手持 设备 ) a 常 陈 | 









































HOSTCC 
HOSTCXX 
HOSTCFLAGS 
HOSTCXXFLAGS 




















在 这 种 情况 下 ， 
ee 
本 地 工 . 链 定义 如 下 : : 


wolfgang@meitner> cat Makefile 








责 生 


(efele] 
g++ 
-Wall -Wstr 
-02 


内 核 工具 链 定 义 如 下 : 


wolfgang@meitner> 








CROSS_COMPILE 


AS 

LD 

CC 

CPP 

AR 

NM 
STRIP 
OBJCOPY 
OBJDUMP 
AWK 
GENKSYMS 
DEPMOD 








cat Makefil 


ROSS_COM 
ROSS_COM 
ROSS_COM 
- 卫 

ROSS_COM 
ROSS_COM 
ROSS_COM 
ROSS_COM 
ROSS_COM 


a 
日 情结 同人 全 人 





awk 
scripts/gen 











目标 计算 机 是 









































成 内 核 的 工具 链 必 须 提供 交叉 编译 器 《和 





适当 





ict-prototypes -02 -fomit-frame-pointer 


已 


PI 
PI 
PI 


BIL 
PIL 
PIL 
BI 
BI 


StEiD 
objcopy 
objdump 





E)a 
E)nm 
E) 
LE) 
LE) 





ksyms/genksyms 


/sbin/depmod 


使 用 某 种 特定 体系 结 
资源 较 少 的 坐 入 式 系统 〈 例 如 ， 基 
而 速度 缓慢 的 计算 机 (经 典 的 Sparc 或 者 m68 Mac) ， 那 么 会 
的 交叉 二 











进 制 文 
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KALLSYMS = scripts/kallsyms 

PERL = perl 

CHECK = sparse 

CHECKFLAGS := -D__linux _ -Dlinux -D__STDC _ -Dunix -D unix _ -Wbitwise $ (CF) 

MODFLAGS = -DMODULE 

CFLAGS_MODULE = $ (MODFLAGS) 

AFLAGS_ MODULE = $ (MODFLAGS) 

LDFLAGS_ MODULE = -r 

CFLAGS_KERNEL 兴 

AFLAGS_ KERNEL = 

定义 之 前 的 cROSS_coMPILE 前 级 通 各 为 空 和 白 。 如 果 在 为 不 同体 系 结构 编译 内 核 ， 那 么 必须 为 其 指 
定 一 个 适当 的 值 ( 例 如，ia64-linux-) 。 因而， 对 宿主 机 和 目标 会 使 用 两 个 不 同 的 工具 链 。 

所 有 其 他 Makefile 都 决 不 会 直接 使 用 工具 的 名 称 ， 而 总 是 使 用 这 里 定义 的 变量 。 

主 Makefile 声 明了 ARCH 变 量 ， 表 示 编 译 的 内 核 所 针对 的 体系 结构 。 它 包含 了 一 个 自动 检测 的 值 ， 
oi em od em 吉 构 相关 文 
件 存在 于 arch/i386/ 中 。 

如 果 是 在 交叉 编译 内 核 ， 就 必须 据 此 修改 ARcH。 例 如 ， 为 ARM 系 统 配 置 和 编译 内 核 时 ， 需 要 下 
列 调用 假定 已 经 有 适当 的 工具 链 可 用 〉: 








make ARCH=arm menuconfig 


make ARCH=arm CROSS_COMPIL 
除了 这 些 定 义 之 外 ，Makefile 还 包括 了 其 他 一 些 语句 ， 用 于 递归 下 降 至 
ee 


微妙 之 


E=arm-1inux- 











包含 的 文件 。 





本 附录 不 会 





2. ey 


驱动 程序 和 子 系统 目录 中 的 Makefile 








详细 讨论 该 机 制 ， 


| 各 个 子 目 录 ， 并 借助 子 目 
为 它 涉及 make 机 制 的 很 多 
























































用 于 根据 .config 中 的 配置 


来 编 


E 确 的 文件 ， 并 将 编译 的 








译 1 














流程 导向 到 

















所 要 求 的 子 目 录 中 。Kbuild 框 架 使 和 
代码 ， 即 可 创建 一 个 持久 编译 到 内 核 中 的 

















标 文件 〈 无 论 















































































































































导 创 建 这 样 的 Makefile 相 对 比较 容易 。 只 需要 下 列 一 行 
配置 如 何 ) : 


























obj-y = file.o 

根据 文件 名 ，Kbuild 自 动 地 检测 到 源 文件 为 file.c。 如 果 对 应 的 二 进 制 目标 文件 不 存在 或 源 文 件 
在 目标 文件 的 上 一 版 本 生成 后 已 经 修改 ， 则 用 适当 的 选项 调用 C 编 译 器 来 生成 二 进 制 目标 文件 。 在 通 
过 链接 器 链接 内 核 时 ， 生 成 的 文件 会 自动 包含 进来 。 

如 果 有 几 个 目标 文件 ， 也 可 以 采用 这 种 方法 。 所 指定 的 文件 必须 用 空格 分 隔 。 

如 果 有 是 否 链接 内 核 组 件 的 选择 (换言之 ， 即 配置 是 通过 一 个 bool 查 询 控制 的 )，Makefile 必 须根 据 
户 的 选择 作出 反应 。 为 此 可 使 用 Makefile 中 的 配置 符号 , 如 下 例 所 示 ( 取 自 kernel/ 目 录 中 的 Makefile): 











ob 











j-y = 


























exit.o itimer.o time.o softirq.o resource.o \ 
sysctl.o capability.o ptrace.o timer.o user.o user namespace.o \ 
signal.o sys.o kmod.o workqueue.o pid.o \ 
rcupdate.o extable.o params.o posix-timers.o \ 
kthread.o wait.o kfifo.o sys_ni.o posix-cpu-timers.o mutex.o \ 
hrtimer.o rwsem.o latency.o nsproxy.o srcu.o \ 
utsname.o notifier.o 





G@ 这 可 以 在 Makefile 中 





显 式 设置 ， 或 通过 环境 中 的 shell 变 量 指定 ， 























sched.o fork.o exec domain.o panic.o printk.o profile.o \ 


或 作为 参数 传递 给 make。 
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obj-$ (CONFIG_S 


obj-$ (CONFIG_ STACKTRACE) 


obj-y += time/ 


obj-— 


$ (CONFIG_G 
obj-$ (CONFIG_SMP) 
obj-$ (CONFIG_D. 
obj-$ (CONFIG MODULES) 
obj-$ (CONFIG_KAL 
obj-$ (CONFIG_PM) 
obj- $ (CONFIG_SYSCTL) 
obj-$ (CONFIG_TASK_DI] 
obj-$ (CONFIG_ TASKSTATS) 
obj-$ (CONFIG MARKERS) 


列表 上 部 的 文件 0 0 会 编译 到 内 核 中 
不 会 编译 





YSCTL) 




















ENERIC_ISA_ DMA) 


LSYMS) 


ELAY_ACCT) 





+= 


+= module. 









































+ 二 
+= cpu.o spinlock.o 
EBUG_SPINLOCK) 


+= sysctl_check.o 
+= stacktrace.o 


dma.o 
spinlock.o 


[©) 


+= kallsyms.o 
+= power/ 


+= utsname_sysctl.o 

+= delayacct.o 
+= taskstats.o tsacct.o 
+= marker. 


Oo 


。 接 下 来 的 文件 ， 除 非 对 应 的 配置 





Ar i 











符号 设置 









































它们 。 例 如 ， 如 果 配 
obj-y += module.o 
请 注意 ， 这 里 使 用 了 += 而 不 是 普通 的 赋值 符号 
























































如 果 未 配置 模块 支持 ， 这 一 行将 扩展 为 下 列 语句 : 

















obj-n += modul 


Kbuild 系 统 会 





e.0 


忽略 目标 obj 


























下 面 的 一 行 代码 


obj-$ (CONFIG_PM) 


这 里 加 入 的 不 是 文件 ， 




















于 电源 
































录 下 包 




















kernel/power/ 晶 录 ， 
Kbuild 会 将 同一 
中 ， 随 后 将 该 目标 文件 





# 














nl 


+= power/ 


而 是 








包含 在 obj-y 目 标 9 
了 链接 到 整个 内 核 中 。? 
模块 可 以 无 颖 融合 到 该 机 制 中 ， 








-n 中 的 所 有 文件 
别 有 趣 : 


(=) ， 这 表示 将 该 


置 了 模块 支持 ， 对 应 的 一 行将 扩展 为 下 列 语句 : 












































不 会 进行 编译 。 


目录 。 如 果 设 置 了 coNFIG_PM，Kbuild 在 编译 
并 处 理 其 中 包含 的 Makefile。 


目标 文件 














FP 的 所 有 目标 文件 都 链接 到 一 个 


如 以 下 Ext3 的 Makefile 所 示 : 


# Makefile for the linux ext3-filesystem routines. 


# 


obj-$ (CONFIG _- 





ext3-y 


ext3-$ (CONFIG 
ext3-$ (CONFIG 


EXT3_FS) 


EXT3_FS_. 
EXT3_FS_POSIX_ACL) 


+= ext3.0 


:= balloc.o bitmap.o dir. 
ioctl.o namei.o super.o symlink 


XATTR) += 





ext3-$ (CONFIG 


如 果 Ext3 文 件 系 统 编 译 为 一 个 模块 ，cCONFIG . 
一 个 ext3 .o 文 件 。 该 





_EXT3_FS._, 























SECURITY) 


























目标 文件 的 内 容 
1 了 初始 调用 在 附录 DD 讨论 














QD 如 果 目 标 文件 使 






































Oo file.o fsync.o ialloc.o inode.o \ 


.0 hash.o resize.o ext3_jbd.o 


xattr.o xattr_ user.o xattr_ trusted.o 


+= acl.o 


+= Xattr_security.o 








序 ， 因 为 链接 的 次 序 与 obj-y 中 的 文件 次 序 是 相同 的 。 


仓 ) ，obj-y 中 指定 文件 的 次 序 ， 就 是 同 





t 











EXT3_FS 将 扩展 为 n， 标 准 目 
1 男 一 个 目标 ext3-y 定 义 。 














一 类 别 的 初始 调 











被 调 














为 y， 和 否则 Kbuild 


加 入 到 obj-y 目 标 中 。 


期 间 就 将 切换 到 


标 文 件 built-in.o 


标 obj-m 规 定 必须 生成 
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内 核 在 cbj-m 





用 ) 考虑 进来 。 


CONFIG EXT3_FS 












































使 用 了 tristate 类 型 。 





























是 以 间接 方式 来 指定 源 文件 ， 并 非 直 接 指定 ， 这 使 得 可 以 将 额外 的 特性 《是 
Kconfig 机 制 中 对 应 的 配置 符号 通过 一 个 bool 选 择 描述 ， 而 对 主要 的 








例如 ， 如 果 使 用 了 扩展 属性 ， 则 cONFIG_EXT3_FS_XATTR 符 号 扩展 为 y， 在 Makefile 中 将 产生 下 列 


语句 : 


ext3-y += xattr.o xattr user.o xa 


这 将 该 特性 额外 需要 的 目标 文件 链接 进来 ， 也 说 明了 为 什么 要 使 





果 使 用 下 列 语句 ， 


obj-$ (CONFIG 





因 








B.4 有 用 的 





有 许多 出 色 的 工 
了 很 好 的 服务 。 本 节 讲 述 其 中 








ttr_trusted.o 









































那么 将 会 有 两 个 











标 (obj-y 和 obj-m): 














EXT3_FS 

















工具 




















可 帮助 程序 员 管 理 
些 辅助 工具 ， 








重大 的 软件 项 

















~ 










































































是 主观 的 ， 只 是 


B.4.1 LXR 











LXR 是 一 个 交叉 引 

















用 工具 。 它 分 析 内 核 源 代码 并 








看 。LXR 





车 得 用 户 可 以 查找 变量 、 








函数 及 其 他 符号 ， 








间接 的 make 


生成 一 个 HTML 形 式 的 超 文本 表示 ， 供 浏览 器 查 
并 可 以 跳 转 到 其 在 源 代码 中 的 定义 处 ， 还 可 以 列 

















出 所 有 使 
的 源 代码 。 














该 符号 的 位 

















。 这 在 跟踪 内 核 中 的 代码 控制 流 路 径 时 很 有 











E 














r 

















目标 ext3-y。 如 


)} += xattr.o xattr user.o xattr_ trusted.o 
而 ， 其 他 文件 将 无 法 包含 到 标准 的 ext3 .o 中 。 
当然 ， 在 Ext3 持 久 编译 到 内 核 中 时 ， 间 接 方 法 仍然 会 发 挥 作用 。 


目 并 跟踪 源 代码 。 它 们 在 Linux 领 域 也 提供 
些 辅 可 为 内 核 相关 工作 提供 便利 。 这 里 选择 介绍 的 工 
BB 于 作者 个 人 的 偏好 ， 在 因特网 上 还 有 大 量 备 选 工 具 可 用 。 








2 


sb 


























B-4 给 出 了 浏览 器 中 显示 





@ LXRIinuxfsmameic - Mozilla Firefox 
Eile Edit View History Bookmarks Tools Help 





4->-€ 


盆 [a http://schroedinger/cgi-bin/xr/linux/fs/namei C 硼 己 [> 





| 加 :| 








已 openSUSE 钙 Getting Started 国 Latest Headlines A DR local 














556| static lways_inline int _vfs_ follow link(struct nameidata *nd, const char *link) 
{ 
int res = 0; 
char *name; 
if (IS_ERR(Link)) 
goto fail; 
Vek se "0 


{ 
path_release(nd); 
if (Iualk init_root(link, nd)) 
/* Weird _emul_prefix() stuff did 1t */ 
goto out; 


res = link path walk(link, nd); 








if (nd->depth || res || nd->last_type!=LAST NORM) 
return res; 
/* 


* IF it 1s an iterative symlinks resolution in open_name1() Me 
* have to copy the last component. And all that crap because of 
* bloody create() on broken symlinks. Furrfu... 
ww 





name = Eetname(); 

1f (unlikely(!name)) { 
path_release(nd); 
return -ENOMEM; 








} 
strcpy(nane, nd->last.name); 
nd->last,nane = name; 
return 0; 
fail; 





path_release(nd); 
n_PTR ERR(link): 


















































B-4 














通过 LXR 生 成 的 超 文本 来 查看 Linux 源 代码 
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为 在 本 地 使 














字符 串 ， 还 需要 glimpse 搜 索引 擎 。 
LXR 的 规范 版 本 可 以 从 sourceforge.net/projects/1xr 下 载 。 遗憾 的 是 , 该 版 本 多 年 来 没有 什 
么 发 展 ， 尽 管 其 代码 工作 得 还 行 ， 但 缺少 一 些 现 代 Web 应 用 程序 的 特性 。 
LXR 有 一 个 试验 版 本 ， 目 前 出 于 活跃 维护 状态 ， 可 以 从 git 存 储 库 git://Lxr.Linux.no/ 





git/lxrng.git 获 取 。 它 比 规范 版 本 提供 了 更 多 的 特性 , 例如 , 可 以 采用 适当 
来 存储 解析 源 代 码 生成 的 信息 。 试 验 版 本 的 安装 方法 仍然 处 于 不 断 变 化 之 中 
安装 该 软件 。 对 有 关 该 版 本 的 信息 ， 请 查看 相关 的 文档 


用 LXR 进 行 工 作 


LXR 提 供 了 下 列 功 能 ， 可 查看 内 核 的 各 组 件 。 
口 可 以 过 历 源 代码 树 的 目录 ， 并 使 用 DODDDD (source navigation ) 
口 可 以 使 用 DODD (file view)， 以 超 文 本 形式 显示 内 核 源 代码 文件 。 

口 (identifier search〉 机 制 来 查找 符号 定义 或 使 用 的 位 置 。 图 B-5 给 出 了 搜索 





























可 以 用 0 D0D00O 
schedule 函 数 得 到 的 相关 信息 。 

口 可 以 使 用 freetextD 口 (freetext search)， 来 扫描 
0000 (file search) 使 得 用 户 可 以 在 不 知道 文件 位 置 的 情况 下 ， 









































jLXR， 需 要 一 个 浏览 器 和 一 个 Web 服 务 器 ， 最 好 是 Apache。 为 查找 源 代 码 中 的 随机 



































o 


T 















































的 数据 库 ( 如 PostgreSQL ) 








内 核 源 代 码 文本 以 查找 任何 字符 串 。 


， 因 此 本 附录 不 讨论 如 何 





根据 名 称 来 选择 文件 。 



































根据 名 称 查 找 文件 。 





@ LXR lin - Morlia Firefox 





和 History 


Documentalion 














MAINTAINERS 

Makefile 

README 
1EPORTING.BUGS 





有 
己 


Eile Edit View History Bookmarks Tools Help 


上 局 x 





志 : 站 :区 全 [6 htp/schrosdingercgibin/lalinuxi +search I 


| 区 :| 





DopanSUSE Getting Starsd BILatest Headlines ODR local 


Code search: schedule 


Function 


kemel/sched c line 3619 [umge } 


Local variable 


[gxfwlinux-2.6Ixfs bul.s, line 1024 lussge,) 





te/xfs/inux-2.6/xfs_ bufic line 1113 lussge..] 
sound/pci/rme9652/hdsp.c, line 3685 [usaire 





Soundipcirme3652hdspmc line 3431 lussge.] 





Glass, stnict, or union member 
driversjscsincrsscaxx.c line 1348 lutage } 
driversiusb/hostisp116x.h, line 324 luaace | 





Yriversiusb/host/si811.h, line 188 lusage 
includemetip_ vs.h, line 602 lusage J 


Funection prototype or 


archium/inciuda/user.h, line 39 luange | 


includaiinuxjsahed 


Filename search: schedule 
Documentation/feature-remaval-schedule txt 

Freetext Search; schedule (1926 estimated hits) 
drivers/usb/hosl/ohoi-schoed.c, line 1105 (100%) 


628 2006-01-06 12'45;59 -0800 


declaratiorn 


h, line 296 kinge J] 





3657 2007-07-08 14,32:26 -D700 
18693 2007-07-08 14;32:26 -0700 


92230 2006-01-05 12'45:59 -0800 driversineVirde/sir dev.h, line 126 (su%) 
1598 2008-01-05 12:45:89 -D800 riversimtdiubiiwl.c, ling 1058 (ew) 
019 7%) 


kernellimer.c, line 1 
93957 2008-01-24 13;58;:53 -0800 


53156 2008-01-24 13;58:53 -DEDD 
16930 2007-07-08 14;32:28 -0700 
3119 2007-07-08 14,32;26 -0700 


The original LXR software by the LXP community, this experimental version by IgGlpuno. 


Yrivers/usb/hostuhei-hed h, ling 107 pe) 
archhmipskernelprocess.c ling 323 (99%) 

















图 B-5 ”搜索 schedule 函 数 得 到 的 相关 信息 
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B.4.2 ”patch 和 aifEE 





因为 git 隐 含 地 基于 dif 和 补丁 ， 男 外 在 通过 邮件 列表 来 讨论 修改 时 ， 补 丁 是 必需 的 。 

















在 Linux 早 期 ， 内核 补 丁 是 跟踪 内 核 开 发 进展 情况 的 必由之路 。 补 丁目 前 仍然 发 挥 着 重要 的 作用 ， 













































































patch 和 qiff 是 两 个 互补 的 工具 。giff 分 析 两 个 文件 或 一 组 文件 之 间 的 差别 ， 而 patch 则 将 diff 








生成 的 差别 文件 应 用 到 现存 的 源 文件 。 


A 





人 XX 











1. 统一 的 上 下 文 diff 
下 列 例子 说 明了 diff 用 于 记录 文件 两 个 版 本 之 间 差 别 的 格式 。 例 子 文件 反映 了 内 核 版 本 2.6.24 开 












































期 间 对 调度 器 所 进行 的 一 个 改变 。 


diff -up a/include/linux/sched.h b/include/linux/sched.h 
--- a/include/linux/sched.h 
+++ b/include/linux/sched.h 
@@ -908,6 +908,7 @@ struct sched entity { 
u64 sum exec_ runtime; 
u64 vruntime; 
u64 prev_sum exec_ runtime; 
+ u64 last min vruntime; 


#ifdef CONFIG SCHEDSTATS 
u64 wait_start; 
diff -up a/kernel/sched.c b/kernel/sched.c 
--- a/kernel/sched.c 
+++ b/kernel/sched.c 
@@ -1615,6 +1615,7 @@ static void _ scheqd fork(struct task_ struct *p) 
p->se.exec_start = 0; 
p->se.sum exec_runtime = 0; 
p->se.prev_sum exec_runtime = 0; 
+ p->se.last min vruntime = 0; 


#ifdef CONFIG SCHEDSTATS 
p->se.wait_start = 0; 
@@ -6495,6 +6496,7 @@ static inline void init cfs_ rq(struct cfs_ rq *cfs_ rq, struct rq *rq) 
#ifdef CONFIG FAIR_ GROUP_SCHED 
cfs_rq->rq = rqd; 
#endif 
+ Cfs_rq->min vruntime = (u64) (-(1LL << 20)); 


} 


void __init sched init(void) 

diff -up a/kernel/sched fair.c b/kernel/sched fair.c 

--- a/kernel/sched_ fair.c 

+++ b/kernel/sched_ fair.c 

@@ -243,6 +243,15 QQ static u64 sched slice(struct cfs rq *cfs rq, struct sched entity *se) 
return period; 


} 

+Static u64 _ scheqd vslice(unsigned long nr_running) 
4 

+ u64 period = __ sched period(nr_ running); 

让 

+ do_div(period, nr_running); 

+ 

+ return period; 

下 

+ 


/* 
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* 更 新 当 





首 进 程 的 运行 时 统计 信 ， 




















QHEEE 


第 二 行 给 出 了 | 
































的 前 三 行 包 含 了 头 信 息 。 
版 本 文件 的 名 称 ， 而 
序 的 选项 。 这 里 ，-up 选 项 特别 重要 ， 因 
还 包括 修改 所 涉及 的 C 语 言 














已 表示 所 处 理 
第 三 行 给 出 


的 文 























为 它 将 控制 di 





息 。 如 果 当 前 进程 不 在 我 们 的 调 





又 六 





牛 ， 并 包含 了 两 个 文件 的 时 间 戳 作为 比较 
新 版 本 文件 








的 名 称 。 
ff 以 易 读 的 0D 口 





0 


第 一 行列 出 了 调用 giff 实 用 程 
DODOD 生 成 diff 文 件 ， 其 











度 类 中 ， 则 跳 过 该 进程 。 








佳 则 。 


























中 








函数 名 ， 在 Linux 内 核 社区 
































Ph， 所 有 其 他 格式 都 已 经 废弃 。 





diff 逐 行 比较 两 个 文件 , 以 查找 二 者 之 间 的 差别 。 文 件 中 发 现 差别 而 被 阳 离 出 的 部 分 称 之 为 hunk。 





前 面 的 例子 





13 个 hunk 组 成 

















八 适 号 


人 符号 

















头 O 
o 


每 个 hunk 都 有 一 个 头 部 ， 表 示 两 个 文件 中 出 现 差 别 的 位 置 。 头 的 格式 如 下 : 


@@ start_old,count_old start new,count new @@ C function 


start_old 指 定 了 diff 所 述 的 | 
start_new 和 count_new 的 语义 相同 ， 但 


言 函数 。 
































LE 


适 








hunk 头 之 后 的 文本 ， 














而 前 级 为 减 号 (- 





) 的 行 在 新 


于 表示 文件 中 发 生 的 改动 。 





























丁 上 下 移动 寻找 较 佳 的 合 
插入 了 新 代码 ， 那 么 该 补 
2. 应 用 补丁 
DD 是 一 组 diff 的 集合 
































的 位 置 就 需要 下 移 。 








， 存 在 于 一 个 公共 的 文件 中 。 例 如 ，www.kernel.org 网 
核 版 本 之 间 差 别 的 补丁 ， 用 于 更 新 。 这 样 就 不 必要 下 载 整 个 源 代码 树 ， 节 4 









































前 级 为 加 号 (+) 


其 中 还 记录 了 


日 版 本 文件 中 的 行 号 。count_olg 指 定 了 该 差别 所 涉及 的 行 数 。 
适用 于 diff 涉 及 的 新 版 本 文件 。 


尺码 所 在 的 C 语 








的 行 在 旧版 本 文件 中 不 存在 ， 











版 本 文件 中 已 经 删 去 。 没 有 前 组 的 行 在 新 旧 两 
patch 将 这 些 行 用 作 上 下 文 ， 以 便 在 打 补 丁 的 文件 与 创建 补丁 的 原始 文 从 











不 完全 
位 置 。 这 一 点 很 有 用 ， 例 如 有 另 一 个 与 该 补丁 正 交 的 补 本 在 文件 的 开头 








个 





版 本 文件 中 是 相同 的 。 
匹配 的 情况 下 ， 将 补 




















站 提供 了 包含 两 个 内 
站 了 时 间 和 带宽 。 




















补丁 借助 patch 工 具 应 用 , 其 处 理 并 不 难 。 下 列 语句 将 /home/wolfgang/1inux-2.6.23 下 的 内 核 


源 代码 从 2.6.23 版 本 更 新 到 2.6.24 





版 本 : 


wolfgang@meitner> cd /home/wolfgang 
wolfgang@meitner> bzcat patch-2.6.24.bz2 | patch -pO0 


patch 不 仅 可 以 应 用 补丁 ， 还 可 以 0 
除 某 个 修改 ， 





从 源 代码 中 选择 性 地 删 
源 代码 从 2.6.24 版 本 逆向 



























































直至 特定 的 错误 不 


D 补丁 。 在 排除 故障 时 ， 这 是 个 非常 有 用 的 特性 ， 











对 为 可 以 





























wolfgang@meitner> bzcat patch-2.6.24.b2z2 |/ patch -R -p0 


patch 提 供 了 许多 其 他 选项 ， 其 详细 文档 可 参考 patc 





B.4.3 git 


git 是 一 个 相对 新 的 版 本 控制 系统 ，Linux 内 核 











h (1) 手 册页 。 























发 者 在 























内 核 开发 者 社 














Q@ 如果 
@ 如 果 
@@ 请 注 


两 个 文件 完全 相同 ， 


























忌 ， 








git 还 提供 


个 软件 产品 上 进行 合作 ， 当 然 他 1 
型 的 系统 CVS)， 而 是 建立 许多 源 代 码 子 树 ， 每 隔 一 段 时 间 彼 此 进行 同步 ， 以 交换 修改 。 


区 采用 的 第 一 种 专 版 本 控制 系统 是 BitKeeper。 但 


两 个 补丁 彼此 互 不 干扰 ， 则 称 之 为 0 口 
了 通过 git-bisect 工 具 据 

















的 











diff 会 创建 一 个 大 的 hunk， 涵 盖 








发 模型 就 是 基于 git。 分 布 在 世界 各 地 的 一 大 群 开 


门 没有 直接 的 联系 。 他 们 并 不 使 




















下 出现。 这 至 少 能 够 将 导致 错误 的 
补丁 时 ， 必 须 指定 -R 选 项 。 以 下 的 例子 ， 通 过 删除 此 前 
到 2.6.23 版 本 : 














整个 文件 。 

















修改 隔离 
应 用 的 补丁 ， 将 内 核 




















一 个 中 央 代 码 存 储 库 〈 如 





于 BitMover (负责 BitKeeper 


D 。 也 就 是 说 ， 一 个 补丁 改变 的 代码 并 不 影响 男 一 个 补丁 。 
动 搜 索 错 误 补丁 的 可 能 性 。 
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的 公司 ) 与 内 核 社区 
























































而 是 按 专 有 的 许可 证 
销 ， 所 以 内 核 社 区 必 

该 方案 是 一 个 全 新 的 版 本 控制 系统 ， 名 为 git。git 设 计 为 一 种 内 容 跟踪 系统 ， 它 提供 了 一 种 数据 
层 , 可 以 将 对 文件 的 修改 归档 。 下 述 事 实 很 重要 , 必要 的 操作 可 借助 普通 文件 直接 在 文件 系统 中 进行 ， 
并 不 直接 需要 一 个 数据 库 后 端 。 









































售 。 对 非 商业 性 用 途 ，BitKeeper 可 以 免费 使 用 ， 但 这 种 权利 已 经 被 BitMover 
全 出 一 个 不 同 的 解决 方案 ， 而 社区 确实 做 到 了 这 一 点 。 




































































git 兽 经 有 一 个 前 端 名 为 cogito。git 的 早期 版 本 需要 该 前 端 来 提供 版 本 控制 系统 的 标准 特性 ， 它 


纯粹 的 git 易 用 。 
一 切 必要 的 特性 ，cogito 已 经 不 再 是 必需 的 。 









































一 








日 git 的 这 项 不 足 目 前 已 经 解决 ， 因 而 cogito 不 再 进行 活跃 的 开发 ， 因 为 git 直 接 提 供 




































































qgit 和 gitk 是 处 理 git 存 储 库 的 图 形 前 端 。 对 于 不 熟悉 git 的 大 量 命令 的 开发 者 来 说 ， 图 形 前 端 


够 大 大 简化 工作 。 以 下 各 节 将 讲述 git 的 shell 命 令 和 图 形 用 户 界 国 

































































就 内 核 开 发 者 的 工作 效率 而 言 ，git 不 次 于 BitKeeper。 因 为 它 对 跟踪 内 核 开 发 历史 、 探 查 错 误 、 
行 编程 工作 都 是 一 个 非常 有 用 的 工具 ， 这 里 主要 关注 它 最 重要 的 特征 。 但 如 果 读 者 还 想 详细 了 人 解 


可 以 参考 其 文档 。 








方 版 本 。 



























































在 使 用 git 时 ， 创 建 Linus Torvalds 的 存储 库 的 一 个 口 是 非常 有 用 的 ， 因 为 其 中 包含 了 Linux 的 











发 者 内 核 版 本 2.6 的 存储 库 在 git://git.kernel.org/pub/scm/linux/kernel/gi 








torvalds/1linux-2.6.9it。 可 以 使 用 下 列 命令 来 克隆 它 : 
wolfgang@meitner> git clone git://git.kernel.org/pub/scm/1linux/kernel/git-torvalds/1inux-2.6.g9it 


取决 于 网 络 连接 速度 ,该 命令 所 发 起 的 文件 传输 可 能 花费 几 分 钟 到 几 个 小 时 (在 使 用 非常 低速 的 


调制 解 调 器 的 情况 下 )。 
以 下 各 节 将 讲述 几 个 重要 的 命令 ， 用 于 跟踪 内 核 的 开发 历史 ， 当 然 这 只 是 git 功 能 的 一 部 分 。 更 多 










































































的 部 分 人 之 间 的 各 种 冲突 ， 使 得 无 法 继续 使 用 BitKeeper，Linus Torvalds 本 人 发 起 
了 一 个 替换 工具 的 开发 。 冲 突 是 因为 BitKeeper 并 不 是 一 个 开源 产品 〈 决 不 是 GPL 意义 上 的 自由 软件 ) ， 
出 
须 


撤 








执 
git 


官 
ty 


信息 可 借助 git 的 联机 帮助 获取 ， 调 用 git help 即 可 。 帮 助 系统 提供 了 可 用 命令 的 概述 。 对 各 个 命令 的 





详细 讲述 ， 可 用 输入 git help command 获 得 。 
1. 跟踪 开发 历史 




















git 及 用 口 口 (commit) 的 概念 来 组 织 开 发 的 各 个 步骤 。 在 向 内 核 添加 一 个 新 特性 ， 需 要 修改 几 个 
文件 时 ， 对 所 有 这 些 文件 的 修改 将 集中 在 一 个 提交 中 ， 该 提交 将 整个 作用 于 存储 库 。 每 个 提交 都 包含 
一 个 注释 ， 以 表明 该 次 修改 的 意图 。 对 一 次 提交 所 涉及 的 各 个 文件 ， 都 可 用 分 别 增加 注释 。 
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git 1og 命 令 可 以 显示 应 用 到 一 个 存储 库 的 所 有 提交 。 例 如 : 


wolfgang@meitner> git log 
commit f1ld39b291e2263f5e2f2ec5d4061802f£f76d8ae67 


te 





29c33d63b3679103459932d43b8818abdcc7d3d5 


parent fdq60ae404f104f12369e654af9cf03b1f1047661 
author Unicorn Chang <uchang@tw.ibm.com> Tue, 01 Aug 2006 12:18:07 +0800 
committer Jeff Garzik <jeff@garzik.org> Thu, 03 Aug 2006 17:34:52 -0400 


[PATCH] ahci: skip protocol test altogether in spurious interrupt code 





Skip protocol test altogether in spurious interrupt code. If PIOS is receive 
when it shouldn’t, ahci will raise protocol violation. 


Signed-off-by: Unicorn Chang <uchang@tw.ibm.com> 
Signed-off-by: Jeff Garzik <jeff@garzik.org> 
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commit c54772e751c0262073e85a7aa87f093fc0dqd44f1 
tree 5b6ef64c20ac5c2027f73a59bc7a6b4pb21f0b63e 
parent e454358ace657af953b5b289f49cf733973f41le4 


author Brice Goglin <brice@myri.com> Sun, 30 Jul 2006 00:14:15 -0400 
committer Jeff Garzik <jeff@garzik.org> Thu, 03 Aug 2006 17:31:10 -0400 


[PATCH] myril0ge - Fix spurious invokations of the watchdog reset handler 


Fix spurious invocations of the watchdog reset handler. 


Signed-off-by: Brice Goglin <brice@myri .com> 
Signed-off-by: Jeff Garzik <jeff@garzik.org> 


commit e454358ace657af953b5b289f49cf733973f41le4 
tree 62ab274beadq7523e8402e7ee9dq15a55e10a0914a 
parent 817acf5ebdq9ea21f134fc90064b0f6686c5b169da 


author Brice Goglin <brice@myri.com> Sun, 30 Jul 2006 00:14:09 -0400 
committer Jeff Garzik <jeff@garzik.org> Thu, 03 Aug 2006 17:31:10 -0400 


[PATCH] myril0ge - Write the firmware in 256-bytes chunks 


When writing the firmware to the NIC, the FIFO is 256-bytes long, 
so we use 256-bytes chunks and a read to wait until the previous 


write is done. 


Signed-off-by: Brice Goglin <brice@myri .com> 
Signed-off-by: Jeff Garzik <jeff@garzik.org> 


en0U000000000 











git 1og 命 令 还 可 以 跟踪 特定 文件 在 几 次 提交 之 间 的 开发 历史 。 可 以 
形 前 端 中 观察 
控制 台 输 出 的 文本 列表 更 为 方便 。 图 B-6 给 出 了 QGit 生 成 的 屏幕 显示 ，QGit 是 git 有 






































该 命令 〈 如 果 忽略 文件 名 ， 则 显示 整个 项 目的 开发 历史 ) 。 但 在 




















基于 QT。 
还 可 以 检查 由 特定 的 一 次 提交 所 引入 的 所 有 修改 ， 如 图 B-7 所 示 。 图 
中 部 是 补丁 的 描述 ， 描 述 之 下 是 补丁 本 喘 。 
git fetch 命 令 可 以 将 父 存储 库 所 进行 的 修改 传输 到 本 地 存储 库 。 它 
的 修改 传输 过 来 ， 只 要 它们 与 本 地 存储 库 的 父 存 储 库 相 同 即 可 。 


















































对 内 核 特 定 部 分 的 发 展 有 特别 兴趣 的 开发 者 ， 可 以 在 自己 的 git 存 储 库 中 进行 开发 ，; 

















Torvalds 的 存储 库 的 所 有 修改 集成 在 本 地 存储 库 。 例 如 : 


























文件 名 作为 参数 来 调 
发 历史 ， 比 观察 














LE 











中 右 侧 是 补丁 影 


也 可 以 将 其 他 存 人 




















wolfgang@meitner> git fetch git://foobar.frobnicate.org/exult.git 


如 果 git fetch 调 用 时 没有 指定 存储 库 名 称 ， 则 使 用 作为 本 地 克隆 的 模板 的 主 存 储 库 。 





























2. 合并 修改 











Tt 


本 节 简 要 讲述 儿 个 其 他 命令 ,用 于 对 存储 库 进行 修改 。 在 进行 任 












































储 库 的 一 个 副本 ， 以 便 后 续 与 上 游 源 存 储 库 进行 同步 。 因 为 git 能 够 使 用 人 硬 链接 来 复 


























本 和 源 位 于 同一 文件 系统 )， 创 建 存储 库 的 一 个 开发 副本 不 需要 多 少 空间 
则 对 副本 的 修改 不 会 自动 地 传输 到 源 。 





























的 一 个 图 形 前 端 ， 








响 的 文件 ， 


导 


渚 库 所 进行 








将 未 进入 


j 修 改 之 前 ， 都 应 该 创建 本 地 存 
由 存储 库 假定 副 





J 和 时 间 。 除 非 明 确 指 定 ， 否 
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图 B-6 qgit 显 示 的 文件 历史 
克隆 存储 库 ， 需 要 输入 下 列 命令 ; 


wolfgang@meitner> git clone /home/wolfgang/git-repos/linux-2.6 /home/wolfgang/linux-work 
在 完成 对 文件 的 修改 后 ， 可 以 添加 注释 并 使 用 git commit 将 其 组 织 到 一 次 提交 中 。 请 注意 ，gi 
的 图 形 用 户 界面 提供 了 一 个 创建 提交 的 图 形 化 前 端 ， 其 用 法 很 直观 ， 无 须 过 多 解释 。 

. 导出 

git 提 供 了 git archive 命令， 可 以 导出 整个 存储 库 在 给 定时 间 的 状态 。 
在 从 存储 库 导 出 某 个 特定 的 修订 版 时 , 口 口 〈tag) 是 很 重要 的 。 这 些 标记 是 开发 时 间 轴 上 特别 
标记 出 的 一 些 点 。 在 Linux 上 下 文中 ， 这 些 时 间 点 表示 内 核 的 发 布 版 。 例 如 ， 内 核 版 本 2.6.24 的 标记 是 
v2.6.24。 这 个 符号 标识 符 可 以 用 作 常 见 的 数字 组 合 的 缩写 ， 它 容易 记忆 得 多 。 利 用 标记 来 标识 发 布 
版 ， 是 Linus Torvalds 处 理 Linux 源 代码 的 惯例 。 当 然 ， 标 记 也 可 以 用 于 其 他 许多 用 途 。 例 如 ， 标 记 影 
响 深 远 的 改变 的 开始 和 结束 ， 或 标识 临时 版 本 。 

为 将 按 名 称 指定 的 版 本 的 整个 源 代码 导出 到 一 个 独立 的 目录 中 ， 需 要 输入 下 列 命令 : 

wolfgang@meitner> git archive --format=tar --prefix=1linux-2.6.24/ v2.6.24 


因为 这 会 将 结果 tarball 写 到 标准 输出 ， 读 者 可 能 想 要 将 其 重 定向 到 一 个 文件 。 


1 














到 



























































| 由 


































































































TT 











942 DUUB UO0UOD 








homemWwougangioa +epos Mntix -2.6 - QOM 


Fle Edt View Actons HHslp 





























BO 9 同 \ BB hriLog -| r | eresmhaa36a1d45421B450383094940982be13Bf | 
GitTree <) [Bovist | kunolischode | Pateh | 

orke - 2 ] 

me Dirlo ® Paront CJ HEAD CSHA || 

uw compate 

| ep | Aumor Peter Zlstra <33 .alstraGxheilonl> ineludofinudschad h 

hmere Date: 19/1007 17:00:10 

Parent sthag dobyg. paint ssthngs kamelschad 13lr.e 
红 图 由 ChllG schad gabuq more din oe parametar pniauls 

四 amme Braneh mastor (Bf PAT fi mrnapD of laole. 

kallsyms c Bianch olginimnaster (eBAT fa mrmapt sfholes) 

Keonfig he Folgows v2 6 23 {in 2 5.23) 


一 Precedes v2 820101 (Lau 1241ct 
Kconfig prpompt 


Ererece | sched add vslicn 

Dupoe | 
imode 门 」 addwslice the load-dependent virual slice” a task should | 
局 | run idually, so thal Ihe observnd laloncy stays within the | 
llorase Sched. laleney window | 
Dksysts.e | 
(mmrend.e SMned-o 作 BY Ingo Moinar <mingo@elte nu> | 
[Iateneye SWMned-0 作 bf Peter Zillswa <a.p lisraBchallo n> 

ioekdep.e RewlewWad-bY Thomss Glelmner <tgMGWnUtronicdey> 








Lloekdap_insernalsh 
上 ioekdap_preee 
Wakefls 

[ 司 medulee 

本 mulaxx 
Tmutexdevuge 
了 可 mulaxde5ugn 
Jmutsxh 
nsproye 

司 pank《 

司 params.< 
Dmae 
posincputmersc 一 
Dposin gmoss c 

昌国 power 

[Sprintke 

nrofte e 

ptaree 

四 eupdalwc 

四 ruterurse 

[本 rslaye 

[可 rssourese 
Dmutere 

Drmuter_ commonn 
加 rmuteedsbue 
Dmuter dabugh 
Dimterh 

| J rmutertestere 


Jwsem.e el | sntatic uc 








tt git a/Fermnel/orhet,c bymrnai/arhedr 
mlwx S00ddrE . 165Sb 100644 












a/kernel 






14 hernel/ache 
DD "1615.6 +15645,.7 HD static cid vel Lork tntuct task =truct *p} 
P->aevexec_ntart ~ 9s 












-97 
“07 














itdet CONIFTC_SCHEDETXTS 
Prae ,Matt_atart -os 

| | -65455,6 +6495.7 © ntatic inlinw void init cfm sqlutruct cfa_ Eq etn rd, atruct sq rq) 

| Htdet COMFIG_FAIR SROUP_SCHED 

ern Ir 











az ve bhermel/achel Lait.e 










Oh -143.6 +241,15 oy natal 
raturm Perindi 





© us4 wohed nlicelntruct sto rq etn ry. ntruce 四 




















图 B-7 用 gqgit 检 查 提交 




















git archive 还 可 以 用 于 生成 不 同类 型 的 归档 。 那 样 就 需要 使 用 后 级 为 .tar.gz、.tgz 
或 .tar.bz2 的 文件 ， 而 不 是 这 里 给 出 的 tar 文 件 。 


B.5 调试 和 分 析 内 核 


为 洞察 内 核 内 部 的 运作 ， 实 际 上 不 仅 要 阅读 静态 的 源 代 码 ， 还 需要 在 内 核 运 行 时 密切 观察 ， 以 跟 
踪 其 内 部 的 动态 过 程 。 对 普通 的 C 语 言 程序 ， 程 序 员 很 清楚 如 何 做 到 这 一 点 。 使 用 编译 器 生成 的 调试 
言 息 和 一 个 外 部 调试 器 ， 就 可 以 逐 行 单 步 跟踪 程序 的 执行 (或 者 ， 如 果 需 要 ， 可 以 逐 行 汇编 跟踪 )， 
来 查看 和 修改 数据 结构 ， 并 在 任 一 点 暂停 程序 的 控制 流 。 

这 只 能 借助 于 内 核 通 过 ptrace 系 统 调用 在 第 13 章 讲 过 ) 提供 的 一 些 特别 的 特性 来 完成 。 

与 普通 的 C 程 序 不 同 ， 内 核 本 身 没有 由 外 部 实例 提供 的 运行 环境 ， 内 核 本 身 负责 提供 用 户 空 间 程 
序 所 需 的 这 个 运行 环境 。 因 而 ， 不 可 能 用 经 典 方式 来 调试 内 核 本 身 。 

但 有 各 种 其 他 方法 将 调试 器 应 用 到 内 核 ， 如 本 节 所 述 。 尽 管 调 试 内 核 比 调试 普通 程序 要 稍微 复杂 
一 些 ， 但 收获 抵 得 上 额外 的 工作 量 。 
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B.5.1 GDB 和 DDD 


GDB 代 表 GNU debugger， 
制 文 件 ， 可 以 用 适当 的 软 介 





包 管 


它 是 默认 的 Linux 调 试 器 。 每 个 Linux 发 行 版 都 下 
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源 代码 进行 编译 ， 作 


该 j 
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! 本 附录 就 























也 可 以 








jinfo gdb 查 看 。 









































































































































































































































































































































当然 ， 读 者 完全 可 以 自行 从 www.gnu.org 
不 讨论 这 些 了 。 
周斌 器 提供 了 非常 广泛 的 选项 ， 本 附录 只 简要 概述 其 用 法 。GDB 的 详 组 
] 法 指南 (makeinfo 格 式 〉， 





带 有 直 
市 
































讲述 ， 可 以 参见 其 附 






















































































































































































































































































































































































直接 可 用 的 GDB 二 进 
网 站 (或 其 他 镜像 ) 
















































































为 调试 一 个 程序 〈 在 这 方面 ， 内 核 也 不 例外 ) ， 编 译 器 必须 将 特别 的 调试 信息 集成 到 二 进 制 文件 
中 ， 以 便 调 试 器 获取 二 进 制 文件 和 源 代 码 之 间 关 系 的 所 有 必要 信息 。 在 gcc 编 译 时 必须 选中 -g 选 项 
如 下 所 示 : 

wolfgang@meitner> gcc -9 test.c -oO test 

因为 包含 了 调试 符号 ， 导 致 生 成 的 可 执行 文件 长 度 增 长 颇 多 。 

在 内 核 编译 期 间 也 必须 启用 -g。 在 早期 版 本 中 ， 该 选项 必须 以 CFLAGS_KERNEL 的 名 目 进 入 到 主 
Makefile。 但 在 内 核 版 本 2.5 开 发 期 间 ， 内 核 配 置 进 入 了 一 个 独立 的 选项 ，Kernel hacking->Compile 
the kernel with debug info， 用 于 设置 该 选项 。 同 一 菜单 中 ， 还 包括 了 Compile the kernel with 
frame pointers 选 项 ， 也 应 该 被 选中 ， 因 为 它 用 于 限制 活动 记录 或 栈 帧 (参见 附录 C) ， 能 够 向 调试 
器 提供 有 用 信息 。 

GDB 能 够 完成 下 列 工作 。 

口 逐 行 跟踪 程序 执行 ， 可 以 按 源 代码 逐 行 执行 或 按 汇 编 语 句 逐 行 执行 。 

口 确定 程序 中 使 用 的 所 有 符号 类 型 。 

口 显示 或 操作 符号 的 当前 值 。 

口 反 引 用 程序 中 的 指针 或 访问 随机 的 存储 单元 ， 以 读 取 或 修改 其 值 。 

口 设置 断 点 ， 使 得 程序 在 执行 到 源 代 码 中 给 定位 置 时 暂停 ， 同 时 启用 调试 器 。 

口 设置 条 件 断 点 ， 在 给 定 条 件 满足 时 暂停 程序 执行 。 例 如 ， 当 某 个 变量 的 值 设置 为 预定 义 值 时 。 

有 具体 可 用 的 内 核 调试 选项 ， 取 决 于 所 使 用 的 方法 。 

用 于 执行 这 些 操作 的 命令 语法 都 易学 易 记 ， 因 为 都 是 基于 C 语 言 的 。 这 在 GDB 文 档 中 解释 得 很 
好 。 

类 似 于 大 多 数 UNIX 工 具 ，GDB 也 是 基于 文本 的 。 这 有 优点 也 有 缺点 ， 特 别 是 ， 在 文本 界面 下 ， 无 
法 通过 图 形 指 针 可 视 化 显示 数据 结构 之 间 的 关系 。 同 样 ，GDB 的 源 代码 视图 也 不 怎么 理想 ， 因 为 它 只 
能 显示 很 短 一 段 源 代码 。 

DDD 是 Data Display Debugger 的 简称 ， 开 发 该 调试 器 是 为 了 改进 GDB 的 这 些 不 足 ， 现 在 所 有 流行 的 
发 行 版 都 包含 了 DDD。 作为 X11 下 的 一 个 图 形 化 工具 , 它 弥 补 了 GDB 的 不 足 。 DDD 是 GDB 的 一 个 用 户 界 面 ， 
因而 也 支持 GDB 的 所 有 特性 。 因 为 在 DpD 中 也 可 用 直接 输入 所 有 的 GDB 命 令 ， 所 有 选项 都 是 可 用 的 ， 不 
仅仅 是 那些 直接 集成 到 图 形 用 户 界 面 中 的 特性 。 

DDD 软 件 包 带 有 很 好 的 使 用 指南 ， 特 别 地 ， 其 用 户 界 面 非 常 直观 ， 因 此 本 附录 不 解释 如 何 使 用 
它 。 


B.5.2 ”本 地 内 核 


proc 文 件 系 统 包含 了 一 个 文 





转 储 格式 参见 附录 E)。 


大 | 














为 GDI 


牛 ， 名 为 kcore。 
B 内 存 转 储 文件 是 可 























的 ， 





大 











而 可 以 与 内 核 及 其 调试 符 


其 中 包含 了 内 核 当 前 状态 的 映像 ， 格 式 为 ELF 内 存 
以 读 取 和 处 到 


[= 


十 与 


944 DUUB UO0UOOD 





联 用 ,来 可 视 化 显示 数据 结构 并 读 取 其 











析 ， 以 查 明 
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其 天 省 原 





因 。 
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内 部 状态 。GDB 内 存 转 储 文 从 


:证 























寺 





常用 于 用 户 空 间 程 序 的 事后 分 





须 用 内 核 映 像 〈 包 含 调试 符号 ) 的 名 称 和 kcore 文 件 的 名 称 作 为 参数 来 调用 DDD: 


wolfgang@meitner> ddd /home/wolfgang/linux-2.6.24/vmlinux /proc/kcore 








这 必须 














内 存 。 
很 显然 ， 尽 管 不 能 对 运行 
所 示 。 


内 核 设 置 断 点 或 类 似 项 ， 








1root 用 户 来 完成 ， 或 修改 /proc/kcore 的 访问 权限 ， 使 得 该 文件 可 以 


取 。 如 果 /proc/kcore 的 访问 权限 未 能 充分 限制 ， 会 出 现 安 全 风险 ， 因 | 




















1 特定 用 户 读 
这 使 得 用 户 可 以 修改 内 核 
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DDD 很 适 于 考察 系统 的 数据 结构 ， 如 图 B-8 








[ 尖 DDD: homelwolfgang/inux.2.6.24/archix86kernelhead_64.S 





OY proc_root, subdir—>next—>parent—>parent 有 
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B-8 考察 本 地 内 核 的 数据 结构 


首先 从 内 核 中 定义 为 全 局 变量 的 数据 结构 实例 开始 。 输 入 graph display proc_root， 即 告知 


DDD 显 示 fs/proc_root.c 中 声明 的 proc_qdir_entry 类 型 的 实例 proc_root。 通 过 双击 ， 可 以 打开 与 


该 数据 结构 关联 的 其 他 实例 。 
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如 果 要 使 DDD 检 测 指向 同一 内 存 














区 的 指针 ， 
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新 插入 一 个 新 的 图 示 ， 则 需 


和 有 Data->De 








女 加 


Lec 











指针 都 “正确 地 ) 指向 了 同 
内 存 转 储 文件 在 由 调试 器 处 ] 








册 











值 的 改变 ， 改 变 必 须 通过 kcore 文 件 才能 传播 
新 加 载 内 存 转 储 文件 。D 

















/proc/kcore 显 式 重 前 








个 数据 元 素 。i 
里 时 ， 内 核 通 








青 注意 ， 在 DDI 
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B.5.3 KGDB 
两 台 通 过 网 络 或 串 行 电线 

普通 应 用 程序 相同 。KGDB 补 丁 在 内 核 

供 了 一 个 接口 。 因 为 GD 
KGDB 没 有 包含 在 

为 核 版 本 2.6.26 中 了 。 如 果 需 要 对 旧版 本 
在 获得 具备 

kernel debugging with remote gdb, 

特定 硬件 进行 正确 设置 。 当 然 ， 内 核 二 进 



































大 | 





B 文 持 远 程 调 试 ， 内 核 可 以 利 




















的 内 核 提 供 




















D 以 这 利 
常 不 会 修改 转 储 文件 ， 
果 内 存 的 内 容 与 
修改 的 人 


KGDB 支 持 ， 
KGDB 支 持 的 内 核 后 ， 配 置 中 包含 了 新 的 菜 


因 




















将 箭头 重 定向 到 该 结构 的 

上 Aliases 选 项 。 在 前 一 个 例 
模式 运作 
而 GDB 
户 的 修改 相关 ， 该 





了 ac 导 . 


时 


个 现存 表示 ， 而 不 是 重 
子 中 就 是 这 样 ，parent 
， 速 度 会 慢 很 多 。 

` 会 注意 到 内 核 内 存 某 些 
户 必须 用 core 























以 黄色 








月 中 


显示 ， 使 之 易于 识别 。 





AAA - 
第 二 








还 有 



































AD 


符号 。 











该 选项 必须 启用 。 如 果 使 用 串 行 接 口 
出 映像 还 应 该 包含 调试 


为 在 撰写 本 书 时 ，KGDB 仍 然 处 于 比较 激烈 的 演化 过 程 中 ， 对 于 如 何 将 gdb 连接 到 一 个 运行 中 


es 





连接 的 机 器 ,提供 了 一 个 更 好 的 调试 环境 ,此 时 可 用 的 选项 几乎 与 调试 
安装 一 段 简 短 的 存根 代码 ， 向 在 
用 这 种 调试 形式 ， 来 提供 断 点 、 单 步 跟踪 等 特性 。 
内 核 版 本 2.6.24 中 ， 但 经 过 多 年 努力 ， 在 读者 阅读 本 书 时 ， 它 应 该 已 经 包含 在 
相关 的 补丁 可 用 。 


单项 Kernel hacking->KGDB : 





系统 上 运行 的 调试 器 提 


a 

















进行 数据 传输 ， 必 须 对 





的 内 核 ， 读 者 可 以 参考 Documentation/DocBook/kgdb.html (可 以 用 make htmldocs 生 成 ) 。 


B.6 用 户 模 式 Linux 








UML (User-Mode Linux， 


户 模式 Linux 〉 是 Linux 到 
































































































































个 用 户 空间 进程 的 形式 运行 ， 这 种 设置 并 非 没 有 闪光 之 处 。 

这 方便 了 许多 应 用 程序 ， 这 些 应 用 很 难于 运行 于 真实 硬件 上 的 经 典 Linux 内 核 上 实现 。 特 别 是 测 
试 新 的 内 核 特性 ， 而 又 无 须 频繁 重启 系统 这 样 的 需求 。 

UML 也 支持 使 用 调试 器 ， 为 了 是 内 建 的 、 基 于 控制 台 的 ， 还 是 外 部 程序 。 本 节 简 要 讲述 如 何 将 
DDD 与 UML 联 用 ， 为 分 析 内 核 及 其 数据 结构 提供 多 种 选项 。 类 似 KGDB， 可 用 对 UML 设 置 断 点 ， 也 可 
以 修改 内 存 中 的 变量 ， 但 只 需要 一 个 系统 。 

在 命令 行 必须 指定 ARCH = um， 以 表明 是 为 UML 创 建 内 核 ， 而 非 用 于 本 地 的 处 理 器 (无须 设置 

















CROSS_COMPILE， 真 下 的 交叉 编译 才 需 要 ) 。 例 如 : 

























































































身 的 一 个 移植 。 内 核 在 Linux 系 统 上 以 一 




































































































































































wolfgang@meitner> make menuconfig ARCH=um 

wolfgang@meitner> make linux ARCH=um 

为 在 AMD64 体 系 结构 上 编译 UML， 还 需要 添加 SUBARCH = i386。UML 的 默认 配置 对 大 多 数 用 
途 都 是 合理 的 ， 无 须 修改 。 

编译 结果 是 一 个 名 为 linux 的 可 执行 文件 ， 位 于 内 核 源 代码 的 主 目录 下 。 该 文件 以 用 户 进程 的 形 
式 包含 了 Linux 内 核 。 

可 以 像 普通 应 用 程序 那样 调试 UML。 如 图 B-9 所 示 ， 它 还 可 以 设置 断 点 。 

UML 提 供 了 许多 其 他 选项 。 例 如 ， 与 宿主 机 共享 一 个 文件 系统 以 便 数据 交换 ， 或 者 建立 宿主 机 
和 UML 之 间 的 网 络 连 接 (甚至 于 可 以 建立 儿 个 UML 进 程 之 间 的 网 络 连 接 )。 这 些 选 项 的 详细 描述 ， 请 
查看 UML 文 档 。 另 外 ，UML 的 设计 者 还 写 了 一 本 书 ， 专 门 阐述 该 主题 ([Dik06])。 
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time_slice 
sched_info 
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ptrace_children 
Dtrace_list 
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exit_code 
exit_signal 
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eur 
wiktch_count ~ riveon 


release_kernal LE 
noud_resched nonpreemptible: 


schodule debugtprev); 


人 
. abo tho rarelock update outside tho ro lock: 
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i re ty 
tsk_neod_reschod(prev); 


if prea BW MKpreemot_ count(] B& PREEMPT_ACTIVE)) £ 
4F 《um Dl dhe ee 总 TT 


pr verte 


t 3, schedule () at kernel/sched,c:3653 


B.7 小 结 


Linux 内 核 是 一 个 大 型 工程 ， 除 了 对 软件 本 身 的 改进 ， 管 型 





<|B-9 





ytsignal pending(prev)))) 人 
NT 





= (struct task struct « 
= (struct taskestruct «, 
t = flong fnt ") Uxdc5d264 





0x08064404 in run_kernel_thread () at process,c:264 


Dx08032848 in kthread () at kthread.c;?5 


运行 的 UML 内 核 中 的 断 点 








这 个 庞大 的 代码 库 也 是 对 其 





开发 者 提 


出 的 一 项 挑战 。 本 附录 向 读者 介绍 了 内 核 源 代码 的 组 织 方式 ， 以 及 根据 用 户 需 要 来 联 编 定 制 内 核 二 进 


制 映像 〈 以 及 相关 模块 ) 的 工具 。 此 外 ， 本 附录 还 讲述 了 
的 代码 库 ， 并 能 够 跟踪 内 核 的 开发 ， 


























以 及 使 月 








日 高 级 调试 方案 来 查找 并 修 





区 下 


FE 错误 。 


一 些 有 用 的 工具 ， 可 帮助 读者 理解 这 个 复杂 


有 关 C 语 言 的 注 记 











超过 25 年 的 时 间 里 
内 核 的 主要 部 分 ， 除 了 少量 ; 





























的 一 些 优 化 。 


然 ， 下 列 信 ， 
gcc.gnu.org 网 站 获取 。 
从 源 代 码 到 机 器 码 程序 

[ 作 可 以 划分 为 如 下 为 几 个 阶段 。 
器 操作 都 在 这 
库 函 数 支 持 ， 二 者 都 
包含 的 所 有 头 文件 ， 会 生成 一 个 〈 大 的 ) 输入 文件 。 编 
分 布 在 几 个 源 文 件 中 的 问题 了 。 
语言 的 语法 可 以 通 
剖 要 强 得 多 。 尽 管 月 


编译 器 的 了 
口 预 处理 : 所 有 的 预 处 到 
程序 (cpp) 或 专门 的 
和 使 用 #include 指 令 
就 无 须 考虑 C 语 言 程序 
扫描 和 解析 : 程序 设计 
英语 )， 但 这 种 语法 的 PB 
和 微妙 性 ， 但 在 编程 语言 中 必须 不 惜 任何 代价 避免 二 义 性 。 
































编 语 言 


























是 实现 各 类 操作 系统 〈 包 括 Linux) 的 首选 编程 语言 。Linux 





睹 段 之 外 ， 都 是 用 C 语 言 











内 核 源 代码 是 特别 为 使 有 
超过 内 核 所 支持 的 体系 结 
GNU C 编 译 器 如 何 工 作 


除了 使 用 GNU 对 C 语 言 
因为 在 内 核 




















构 )， 它 提供 了 内 核 使 用 


内 增强 之 外 ， 内 核 在 

















蛙 解 内 核 ， 是 不 可 能 的 。 本 书 假定 读者 已 经 在 C 语 言 
讨论 C 语 言 在 内 核 程序 设计 领域 一 些 很 少 使 用 、 非 常 专门 的 方面 。 

上 GNU C 编 译 器 进行 编译 而 设计 的 。” 该 编 记 
的 大 量 增强 特性 ， 将 在 本 附录 




































































C 语 言 源 文件 









































县 比较 简要 。 对 卫 



































P 某 些 地 方 ， 要 求 在 源 代 码 和 编译 器 之 间 必 须 进 
述 GCC (GNU Compiler Collection ) 在 编译 源 程序 时 所 进行 的 各 种 操作 ， 当 
， 请 参考 随同 编译 器 源 代 码 提供 的 GCC Internals 手 册 ， 可 以 在 
































阶段 进行 。 根 据 编译 器 版 本 ， 该 阶段 




















里 之 后 ， 从 源 文 件 
















































































| 编译 器 自动 启动 。 在 完成 预 处 

















而 ， 不 精通 C 语 言 
序 设 计 方 面 有 足够 经 验 。 本 附 








于 许多 体系 结构 〈 远 


讨论 。 














成 汇编 代码 时 ， 也 依赖 编译 器 进行 
行 紧密 协作 ， 本 节 将 简要 概 
以 及 所 使 用 的 各 种 技术 。 当 




















| 一 个 外 部 实用 























过 语法 规则 描述 ， 这 些 语法 规则 类 


日 多 种 方式 来 表示 同 





译 器 本 身 接 下 来 





以 于 自然 语言 (如 
一 事实 可 以 增加 语言 的 吸引 力 


























个 密切 相关 的 任 





务 组 成 。 口 口 口 〈 又 称 之 为 词法 分 析 器 ) 逐 字符 分 析 源 文 件 文本 ， 碍 找 程序 设计 语言 的 关键 


字 。00D0 《又 称 之 为 语法 分 析 器 ) 获取 由 扫描 器 提供 
， 解 析 器 将 根据 语言 的 语法 规则 来 检查 所 检测 到 的 结构 是 否 正 确 。 它 
， 以 便 作 为 源 代码 的 更 扩 


件 的 文本 表示 抽象 
机 内 存 中 他 
程序 的 实际 源 代码 相反 ， 源 代码 


还 在 计算 




















点 该 易于 读 写 )。 








@ 在 IA-32 平 台 上 , 也 可 以 使 用 
但 未 能 提供 体系 结构 独立 的 首 于 
































的 专 有 编译 器 。 它 产生 的 汇编 代码 稍 好 一 些 , 能 够 使 内 核 运行 得 稍 | 













































































。 因 为 英特尔 编译 器 支持 内 核 使 
































核 源 代码 即 日 | 利 英 特 尔 编 i z 








进行 编译 。 

















的 表示 已 经 从 源 文 

















计算 机 的 处 理 ( 这 与 





快 一 点 ， 


的 所 有 GNU C 语 言 增强 特性 ， 无 须 修改 内 
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口 中 间 代 码 生 成 : 在 生成 最 终 机 器 代码 的 路 径 上 ， 下 一 步 是 将 扫描 器 和 解析 器 建立 的 语法 分 析 
树 ( 即 , 在 内 存 中 创建 的 数据 结构 ) 转 换 为 男 一 种 语言 , 称 之 为 D00DD00DD (registertransfer 
language， 简 称 RTL )。 这 是 一 种 用 于 理想 机 器 的 汇编 语言 。 这 种 语言 是 可 以 优化 的 ， 在 很 大 

程度 上 独立 于 目标 处 理 器 。 但 这 并 不 意味 着 ， 对 所 有 目标 处 理 器 来 说 ， 编 译 过 程 的 这 一 阶段 
会 生成 相同 的 RTL 代 码 。 体 系 结构 不 同 ， 可 能 提供 的 汇编 语句 也 有 所 不 同 ， 在 RTL 生 成 期 间 必 
须 考虑 这 点 。 

RTL 的 各 个 语句 已经 是 非常 底层 的 ， 它 处 于 高 层 的 C 语 言 到 汇编 语言 之 间 的 过 渡 路 径 中 。 其 主 
要 任务 是 操作 寄存 器 值 ， 以 支持 被 编译 程序 的 执行 。 当 然 ， 其 中 也 有 条 件 语句 和 其 他 控制 程序 
流程 的 机 制 。 但 这 种 中 间 代 码 仍然 包含 了 各 种 高 级 程序 设计 语言 所 共有 的 各 种 数据 元 素 和 结构 
《这 些 并 非特 定 于 某 种 语言 如 C、Pascal， 等 等 ) ， 这 些 不 会 出 现在 纯粹 的 汇编 语言 中 。 

口 优化 : 程序 编译 中 ,计算 最 密集 的 阶段 就 是 对 以 RTL 语 言 编写 的 中 间 代 码 进行 优化 。 优 化 程序 
的 原因 很 显然 。 但 编译 器 如 何 进行 优化 ?因为 其 中 使 用 的 机 制 精 巧 复杂 且 颇 多 曲折 (总 是 需 

要 考虑 一 些微 妙 的 细节 ) ， 仅 编译 优化 技术 就 需要 一 大 本 书 才能 讲 清楚 ，GCC 就 采用 了 很 多 

优化 技术 。 但 本 附录 至 少 会 说 明 所 采用 的 一 些 优化 技术 。 所 有 优化 技术 所 基于 的 思想 ， 最 初 

看 起 来 都 很 简单 。 但 实际 上 《以 及 理论 上 ) 很 难 实现 。 此 类 选项 最 重要 的 包含 ， 对 算术 表达 
式 的 简化 (对 表达 式 进 行 代 数 重 写 ,使 之 能 够 更 高 效 地 计算 ， 和 /或 使 用 较 少 的 内 存 )、 消 除 死 
代码 程序 控制 流 无 法 到 达 的 部 分 代码 )、 合 并 同一 个 程序 中 重复 的 表达 式 和 代码 项 、 重 写 程 
序 控制 流 使 之 效率 更 高 ， 等 等 。 本 附录 将 一 一 讲解 这 些 内 容 。 

口 代码 生成 : 最 后 一 个 阶段 只 关注 针对 目标 处 理 器 生成 实际 的 汇编 代码 。 但 这 里 并 不 生成 一 个 
可 执行 二 进 制 文件 ， 而 是 产生 一 个 汇编 指令 组 成 的 文本 文件 ， 由 其 他 外 部 程序 (汇编 器 和 可 
能 的 链接 器 ) 转换 为 二 进 制 机 器 代码 。 原 则 上 ， 汇 编 代 码 与 程序 最 终 的 机 器 代码 是 等 同 的 ， 

虽然 各个 指令 的 语义 都 已 经 达到 机 器 层次 ， 但 仍然 可 以 被 人 阅读 而 不 是 机 器 )。 

为 概述 编译 器 处 理 过 程 的 各 个 步骤 ， 本 附录 以 经 典 的 “Hello, World” 程 序 为 例 。 





















































































































































































































































































































































































































































































































































#include<stdio.h> 


int main() { 
printf ("Hello, World!\n"); 
return 0; 


} 
该 程序 除了 输出 一 行文 本 Hello，world! 之 外 ， 什 么 也 不 做 ， 大 多 数 C 语 言 教科 书 中 的 第 一 个 程 
序 都 是 这 样 。 在 IA-32 系 统 上 ， 胞 译 器 将 生成 下 列 汇编 代码 ， 供 汇编 器 和 链接 器 进一步 处 理 : 


.file "hello.c" 
.Section .rodata 









































LCO's 
.string "Hello, World!\n" 
.text 
.globl main 
.type main,@function 
main: 
pushl gebp 
movl %Sesp, %Sebp 
subl $8, %Sesp 
andl $-16, %Sesp 
movl $0, %Seax 
subl %Seax, %Sesp 
movl $.LC0, (%Sesp) 
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call printf 
movl $0, %Seax 
leave 
ret 
.Lfel: 
.Size main, .Lfel-main 
.ident "GCC: (GNU) 3.2.1" 


I 


如 果 已 经 熟悉 了 汇编 语言 编程 


E» 

















可 能 会 感觉 上 述 代 码 的 语法 格式 稍微 有 点 奇怪 。 
了 AT&T 语 法 ， 而 不 是 更 流行 的 Intel/Microsoft 语 法 形式 。 


[ 编 器 采用 
同 的 功能 ， 只 是 





GNUY 
然 ， 这 两 种 语法 实现 了 相 





四 吕 

















对 源 寄存 器 和 目标 寄存 器 的 排列 不 同 ， 所 月 




















的 常数 寻 址 方式 也 不 同 。C.1.7 节 简 述 了 这 些 语法 问题 。 











这 里 并 不 关注 各 个 汇编 指令 的 确切 语义 ， 因 为 对 
































[ 编 语言 编程 进行 完整 的 介绍 ,已 经 超出 了 本 附 
构 下 的 汇编 语 当 编 程 实际 上 都 需要 一 本 书 来 介 

















录 的 范围 。 对 内 核 所 支持 的 每 种 体系 结构 来 说 ， 相 应 架 
绍 。 这 里 ， 更 重要 的 是 所 生成 的 代码 结构 。 常 数字 符 
数 〔 在 本 例 中 是 printf 函 数 ) 或 通常 情况 下 需要 所 月 
只 定义 了 main 函 数 ) 与 C 代 码 保 持 了 相同 的 名 称 。 








中 
5 





























日 时 ， 则 从 该 段 加载 。 在 汇编 代码 中 


保存 在 一 个 独立 的 段 中 ， 在 需要 传递 给 一 个 
， 子 数 ( 这 昌 





本 器 























同样 的 代码 ， 在 IA-64 系 统 上 会 生成 完全 不 同 的 ; 
码 的 最 终 效果 与 IA-32 系 统 上 生成 的 代码 是 相同 的 。 


:Eile "elk, ce” 
.pred.safe _ across_calls pl-p5,p16 
.Section .rodata 

.align 8 





























:0 
stringz World!\n" 
.text 
.align 16 
.global main# 


.proc main# 


"Hello, 


main: 

33 
r34 
ar PES, 


.prologue 14, 
.Save ar.pfs, 
alloc r34 
.Vframe r35 

mov r35 r12 
.Save rp, r33 
mov r33 b0 
.body 

addl r14 


07 :本 记 本 


@ltoff(.LC0); 


gp 
ld8 r36 
mov r32 
breaLl.. 


[r14] 
= rl1 
sptk.many b0 = printf# 


六 下 
r14 


r32 
r0 


r8 r14 
ar.pfs 
b0 E33 
.restore sp 

mov r12 天 35 

br .ret.sptk.many b0 


r34 


.endp main# 


.ident "GCC: (GNU) 3.1" 


上 [ 编 代码 





本 三 


A 








因为 体系 结构 是 完全 不 同 的 ) ， 但 


< 十 


-p63 


950 


UD0C UU CUD0UOUO 























为 向 读者 说 明 在 非 瑞 特 尔 架构 上 如 何 处 理 汇编 代码 生成 ， 以 下 提供 了 在 ARM 平 台 上 生成 的 代码 : 
















































































答案 是 : 在 编译 器 中 ， 所 文 持 的 每 个 





的 信息 。 


J 是 LISP 和 RTL 语 法 的 混合 。" 这 


:file "hello.e" 
.Section .rodata 
.align 2 
“LO 
.ascii "Hello, World!\n\000" 
.text 
.align 2 
.global main 
.type main,function 
main: 
@ args = 0, pretend = 0, frame = 0 
@ frame needed = 1, uses_ anonymous args = 0 
mov ip, sp 
stmfd Sbl; 《ED LO LTE 站 
sub fp, ip, #4 
ldr 5 人 
bl printf 
mov r3, #0 
mov ea) 
ldmea fp, {fp, sp, pc} 
I 
L110 2 
sas 
.word .LCO 
.Lfel: 
“Size main, .Lfel-main 
.ident "GCC: (GNU) 3.2.1" 
GCC 如 何 获 得 目标 处 理 器 的 能 力 和 指令 选项 方面 的 信息 呢 ? 
目标 处 理 器 ， 都 有 一 个 对 应 的 机 器 描述 。 这 包括 两 个 部 分 ， 分 别提 供 了 所 需 
首先 ， 有 一 个 文件 提供 了 DODDD (instruction pattern)， 其 结构 














种 模式 的 一 部 分 值 ， 
的 可 能 范围 
各 个 系统 保存 指令 模式 的 源 文 伯 












































| 编译 器 在 生成 RTL 代 码 时 设置 。 可 以 定义 各 利 
。 实 际 代码 的 生成 由 输出 模式 执行 ， 该 模式 表示 可 能 的 汇编 指令 


条 件 或 其 他 先决 条 件 ， 来 限制 什 



































是 编译 器 一 个 非常 重要 的 部 分 ， 所 
名 列表 大 约 有 14 000 行 。Alpha 的 有 6 000 行 。Sparc 家 族 则 需要 大 约 10 000 行 。 

















外 令 模式 不 能 处 理 的 一 些 情况 ， 














IC 语言 头 文件 和 宏 定 义 补 充 ， 其 


























这 


12 000 行 )。 它 们 乡 


里 必须 使 月 








有 C 语 言 代 码 ， 即 使 目标 + 
额外 的 宏和 C 语 言 文 件 的 大 小 与 指令 模式 文 伯 








外 令 可 以 用 固 





















































定 的 字符 串 或 简 六 
F 类 似 (IA-32: 12 000 行 ，Alpha: 9000 行 ， Sparc: 
有 成 了 CPU 定 义 的 一 个 重要 部 分 ， 对 生成 高 效 的 代码 是 必 不 可 少 的 。 





























































































































与 指令 模式 相关 联 。 为 





占 的 比例 


涉及 处 到 
的 宏 蔡 换 实现 。 

















很 大 。IA-32 处 理 器 的 语 








加 




















器 相关 的 特 丈 | 




































































C.1.2 ”汇编 和 链接 
在 实际 编译 过 程 末尾 ， 原 来 的 C 语 言 程序 已 经 被 转换 为 汇编 代码 ， 而 最 后 一 步 向 二 进 制 代 码 的 转换 
基本 上 不 需要 编译 器 的 工作 ， 因 为 镜 余 的 工作 由 汇编 器 和 链接 器 (通常 也 称 之 为 binder， 联 接 器 完成 。 
Q@ LISP 是 一 种 编程 语言 ， 发 源 于 人 工 智能 。 它 通常 用 作 应 用 程序 的 动态 扩展 语言 。emacs 的 大 部 分 是 用 一 种 LISP 方 
言 编 写 的 ， 而 GIMP 图 像 处 理 程序 则 使 用 Scheme 一 种 简化 的 LISP 变 体 ， 作 为 扩展 语言 。GUILE 是 由 GNU 工 程 
发 的 一 个 库 ， 带 有 简单 的 选项 ， 可 用 于 向 应 用 程序 提供 一 个 Scheme 解释 者 作为 扩展 语言 。 
@) 在 开发 GCC 时 ， 一 个 明确 的 目标 是 ， 能 的 ， 但 这 

















将 损失 一 定 的 性 能 和 灵活 性 。 额 外 
































宏 定义 是 一 个 有 


性 能 高 于 理论 上 的 完美 。 只 借助 指令 模式 来 描述 处 理 器 是 完全 可 
安 的 功能 ， 有 助 于 适应 各 种 CPU 的 专门 特性 。 
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与 编译 器 的 任务 相 比 ， 汇 编 器 的 工作 非常 简单 。 各 个 汇编 语句 (及 其 参数 ) 被 转换 为 依 处 理 器 类 














型 而 不 
根据 使 
(如 固定 的 
述 ) 在 二 进 制 文件 中 


a 



























































定 0D0 或 0 0 的 分 支 
C.1.3 ”过 程 调用 


C 语 言 中 














的 专用 二 进 制 格 式 ( 各 个 汇编 指 
的 参数 类 型 不 同 ， 一 个 指令 可 能 转换 为 不 同 的 二 进 制 形式 ) 。》 
字符 串 或 数值 常数 ) 放置 到 二 进 
呆 存 程序 代码 和 数据 。 

除了 其 他 事务 之 外 ， 链 接 器 必须 调整 ; 
符号 名 称 〈 例 如 ， 前 述 的 
电 址 。 例 如 ， 









































个 有 趣 的 方面 是 过 程 和 函数 调 








时 候 ， 内 核 负责 确保 汇编 
0 道 函数 调用 背后 的 机 制 。 本 节 根 扩 








要 的 是 
方法 通常 是 类 似 的 。? 
我 们 根据 区 
于 进程 地 址 空间 
相反 。 该 内 存 区 
的 过 程 ， 栈 会 自 






































据 。 当 前 执行 过 程 的 活动 记录 ， 
定义 。 在 过 程 执行 


(stack pointer) 
需要 更 多 空间 时 )。 





帧 指针 一 > 


栈 指针 




















中 
© 











NS 


HH 


少 


其 他 编译 器 的 0D DODD (callconvention〉 可 
要 的 例外 是 IA-64 体 系 结构 ， 
限 的 ， 这 一 点 在 实现 函数 调 
见 IA-64 处 理 器 相关 文档 。 


言 代码 


语言 和 C 语 





令 都 有 自身 的 二 进 


上 编 代码 调用 了 标准 














制 代 码 中 。Linux 下 通常 





[ 编 代 码 中 的 分 支 地 址 。 
库 中 定义 的 printf 函 数 




















出 码 表 示 法 。 
[ 编 器 的 另 一 个 任务 是 ; 
作 在 附录 E 中 详细 讲 











使 用 ELF 格 式 〈; 





尽管 并 






























































的 互 操 作 性 〔 换 言 之 ， 








C-1， 来 讨论 过 程 调 用 所 涉 
的 末端 。 
用 于 为 函数 的 局 章 
上 而 下 增长 ， 并 接受 新 的 吕 
标记 顶部 位 置 的 0 口 
时 ， 虽 然 其 顶部 的 限制 是 








在 将 数据 压 栈 时 ， 



































了 变量 提供 


IA-32 体 系 结构 描述 了 这 些 机 制 ， 


及 的 基本 术语 。 
栈 自 顶 











] 的 实现 ， 这 不 是 特定 于 GNU 编 





译 器 的 "。 因 


在 一 些 系 统 上 ， 如 IA-32， 





和 向 数 





语言 源 代 码 中 仍然 可 以 引 
但 二 进 制 机 器 码 则 必须 指 





为 在 某 些 











代码 中 调用 C 函 数 


AI 


从 汇 多 














吕 DDO (system stack) 是 一 个 内 存 
向 下 增长 ， 这 与 “增长 ”这 个 词 所 预期 的 方 





然 其 他 体系 结 








人 入 








构 


区 ， 位 


刚好 








， 
吕 














内 存 。 它 也 支持 在 调 



































帧 2 











C-1 


图 








AZ HH 


采 








0 





了 





栈 上 的 各 个 活动 记录 



































时 可 以 利用 。 














帧 2 的 组 成 部 分 
返回 地 址 




















旧 的 帧 指针 


























能 在 细节 方面 有 所 不 同 ， 但 底层 的 原理 总 是 相同 的 。 
0DD (register window) 的 概念 ， 使 得 程序 相信 寄存 器 集合 的 大 小 是 


函数 时 传递 参数 。 如 果 调 
DODODO (activation record) 来 保存 一 个 过 程 所 需 的 所 有 数 
D (frame pointer) 和 标记 底部 位 置 的 0D DD 
回 定 的 ， 但 底部 的 限制 是 可 以 扩 





了 据 套 














展 的 《在 














这 使 得 最 终 的 机 制 与 这 是 











讨论 的 形式 有 很 大 的 不 同 。 讨 











E 细 信息 可 以 
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图 C-1 也 给 
口 在 栈 帧 顶部 是 返回 
制 流转 向 的 内 存 地 址 ， 而 
后 ， 该 帧 指针 值 可 用 于 村 














a 


























下 天 


全 
调 








上 了 第 2 个 栈 帧 的 详 述 ， 指 





了 | 
[| 


过 程 


也 址 ， 以 及 保存 的 帧 指针 值 。 返 
采 存 的 帧 


了 其 组 成 部 分 ， 如 下 所 示 。 

地 址 指定 了 在 当前 过 程 结 束 时 代码 的 控 
站 针 则 是 口 口 口 活动 记录 的 帧 指针 。 在 当前 过 程 执行 结束 
的 栈 帧 ， 在 试图 调试 调 月 滴 时 ， 这 一 点 很 重要 。 








噩 






































和 王立 | 
一 口 


口 活动 记录 的 主要 
DODO (automatic variable) 。 
D 在 函数 调 月 
所 有 常见 的 体系 结构 都 提供 了 以 下 两 
口 push 将 一 个 值 放置 在 栈 上 ， 
的 地 址 。 












































分 是 为 过 程 局 章 





昌 时 以 参数 形式 传递 到 函数 的 值 ， 存 储 在 栈 有 





bp 变量 分 配 的 内 存 空 1 





在 C 语 言 吕 


日 栈 回 
司 。 Ph， 这 种 变量 也 称 之 为 0 口 











的 底部 。 





个 栈 操作 指令 。 


将 栈 指针 0 0 该 值 所 占 































































































用 的 内 存 字 节 数 。 栈 的 末端 下 移 到 更 低 






























































口 pop 从 栈 删 除 一 个 值 ， 并 相应 0 口 栈 指针 的 值 。 也 就 是 说 ， 栈 的 末端 上 移 。 

其 还 提供 了 以 下 两 个 指令 , 用 于 调用 和 退出 函数 (自动 返回 到 调用 过 程 ，, 它们 也 会 自动 操作 栈 。 

口 call 将 指令 指针 的 当前 值 压 栈 ， 跳 转 到 被 调用 函数 的 起 始 地 址 。 

口 return 从 栈 上 弹出 返回 地 址 , 并 跳 转 到 该 地 址 。 过 程 的 实现 必须 将 return 作 为 最 后 一 条 指令 ， 
lcal1 放 置 在 栈 上 的 返回 地 址 位 于 栈 的 底部 ”。 

过 程 调用 因而 由 以 下 两 个 步骤 组 成 。 


























(1) 在 栈 中 建立 参数 列表 。 传 递 到 被 调用 函数 的 0D 口 0 参数 0D 口 入 栈 。 这 使 得 可 以 传递 可 变数 目 




















































































































的 参数 ， 然 后 将 其 从 栈 上 逐一 弹出 (pop) 。 

(2) 调用 cal1， 这 将 指令 指针 的 当前 值 (cal1 之 后 的 0 0 指令 》 压 栈 ， 代 码 的 控制 流转 向 被 调 
] 的 函数 。 

被 调用 的 过 程 负责 管 理 帧 指针 ， 需 要 执行 下 列 步 又 。 

(1) 前 一 个 帧 指针 压 栈 ， 因 而 栈 指 针 下 移 。 

(2) 将 栈 指针 的 当前 值 赋 值 给 帧 指针 ， 标 记 当 前 执行 函数 的 栈 区 的 起 始 位 置 。 

(3) 执行 当前 函数 的 代码 








(4) 在 函数 结束 时 ， 存 储 
区 起 始 位 置 。 现 在 ， 


= 

















的 原 帧 指针 位 了 
对 当前 








一 个 函数 的 栈 
返回 地 








(5) 调用 return, 将 i 引 从 栈 弹 蝇 
初 看 起 来 ， 这 种 方法 似乎 有 些 混乱 。 




















D 
Do 


大 














#include<stdio.h> 


int add (int a, int b) 


return a+t+b; 


{ 

} 

int main() 
Ti 
a 


{ 

a,b; 

3 

b 4; 

int ret = add(a,b); 
printf("Result: Su\n", 


exit (0); 
上 





a 


G 实际 上 是 上 一 个 活动 记录 的 底部 ， 





函数 执行 call 指 令 时 压 栈 的 返回 地 








F 栈 的 底部 。 其 值 从 栈 弹 








到 帧 指针 寄存 器 ， 使 之 指向 前 
上 位 于 栈 底 。 

处 理 器 转移 到 返回 地 址 , 代码 的 控制 流 也 返回 到 调 月 
此 ， 我 们 先 看 一 个 简单 的 C 语 言 例 子 : 


个 简单 





























日 函数 。 





ret); 


前 活动 记录 的 顶部 。 一 一 译 者 注 
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在 IA-32 系 统 上 ， 上 述 例子 代码 将 生成 以 下 汇编 代码 ， 当 然 关 闭 了 编译 优化 选项 《该 选项 将 生成 
更 优秀 的 代码 , 但 会 使 解释 变 得 复杂 )。 本 例 使 用 了 Intel 语 法 表示 , 因为 与 GCC 选用 的 AT&T 形 式 相 比 ， 
这 种 语法 更 容易 阅读 和 解释 。 汇 编 语法 不 包括 行 号 ， 在 这 里 添加 行 号 是 为 了 便于 代码 的 解释 。 


<main>: 




























































































1: “Bush ebp 

2: mov ebp,esp 

3: sub esp, 0x18 

4: mov eax, 0x0 

5. mov DWORD PTR [ebp-4],0x3 
6: mov DWORD PTR [ebp-8],0x4 
72 mov eax, DWORD PTR [ebp-8] 
8: mov DWORD PTR [esp+4],eax 
9: mov eax, DWORD PTR [ebp-4] 
10: mov DWORD PTR [esp],eax 

二 寂 远 妆 让 下 <add> 

12: mov DWORD PTR [ebp-12],eax 
13: mov eax, DWORD PTR [ebp-12] 
14: mov DWORD PTR [esp+4] ,eax 

15: mo DWORD PTR [esp],0x0 

16 all <printf> 

17: mov DWORD PTR [esp],0x0 

18;: Call <exit> 

<adqd> : 

19: push ebp 

20: mov ebp,esp 

21: mov eax, DWORD PTR [ebp+12] 
22: add eax, DWORD PTR [ebp+8] 

23: pop ebp 

24: ret 























main 从 此 前 讲述 的 标准 操作 开始 ， 先 保存 帧 指针 。 在 IA-32 系 统 ，ebp 寄 存 器 用 作 帧 指针 。 该 值 压 
入 栈 上 最 低 的 位 置 ， 这 导致 栈 指针 自动 下 移 4 字 节 ， 这 是 因为 在 IA-32 系 统 上 需要 4 字 节 表示 一 个 指针 。 
接 下 来 使 用 mov 语 句 ， 将 栈 指针 的 值 保存 到 帧 指针 寄存 器 。mov a, b 将 寄存 嚣 b 的 值 复制 到 寄存 器 a。 
因而 第 2 行将 栈 指针 的 当前 值 复制 到 帧 指针 。 

第 3 行 从 栈 指针 减 去 0x18 字 节 ， 使 得 栈 指针 下 移 ， 将 栈 的 空间 增 大 了 0x18= 24 字 节 。 第 4 行 初始 化 
eax 通 用 寄存 器 为 0。 
局 部 变量 现在 必须 放置 到 栈 上 。 如 C 代 码 所 示 ，main 有 两 个 局 部 变量 a 和 b。 二 者 都 是 整 型 变量 ， 
在 内 存 中 都 需要 4 个 字 节 。 因 为 栈 的 前 4 个 字 节 保存 了 帧 指针 的 旧 值 ， 编 译 器 将 接 下 来 的 两 个 4 字 节 内 
存 区 分 配给 两 个 局 部 变量 。 

为 向 分 配 的 内 存 空间 设置 初始 值 ， 编 译 占 使 用 了 处 理 器 的 指针 反 引 用 选项 。 第 5 行 的 DWORD PTR 
ebp - 4] 通 知 编译 器 ， 引 用 “ 帧 指针 减 4” 得 到 的 值 在 内 存 中 指向 的 位 置 。 使 用 move 将 值 3 写 入 该 位 
置 。 编 译 器 接 下 来 用 同样 方法 处 理 第 2 个 局 部 变量 ， 其 在 栈 中 的 位 置 稍 低 ， 值 为 4。 
局 部 变量 a 和 ?pb 必须 用 作 即 将 调用 的 add 过 程 的 参数 。 编 译 器 通过 将 适当 的 值 放 置 在 栈 的 末端 来 建 
立 参 数列 表 ， 如 前 所 述 ， 第 一 个 参数 在 最 底部 。 栈 指针 用 于 查找 栈 的 末尾 。 内 存 中 对 应 的 位 置 通过 指 
针 反 引用 确定 。 将 栈 上 的 两 个 局 部 变量 的 值 分 别 读 入 寄存 器 eax， 然 后 将 eax 的 值 写 入 到 参数 列表 中 对 
应 的 位 置 。 第 7 和 第 8 行 设 置 第 2 个 参数 (b)， 第 9 和 第 10 行 负责 第 1 个 参数 (a)。 在 阅读 源 代 码 时 ， 切 
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记 不 要 混淆 esp 和 ebp。 
图 C-2 给 出 了 上 述 操作 执行 后 ， 栈 的 状态 。 











址 ， 而 
复 执 行 





栈 指针 esp 
图 C-2 调 月 


现在 可 以 使 用 cal1 指 令 调用 aaqa。 在 实际 的 程 


不 是 这 里 的 <adq> 占 位 符 。 该 指令 将 指令 指针 寄存 器 压 栈 ， 代 码 探 人 











旧 的 帧 指针 
帧 指针 ebp 
a 局 部 变量 
ebp— 4 — > 
ni 5 寺 妆 
Ebp-—8 Bp 已 ， 
ne EeE Ry 
ebp-12 外 
Oo 
加 
S 
esp+4 | 参数 











有 Baad 之 前 栈 帧 的 状态 
























































根据 调用 约定 ， 例 程 首先 将 此 前 的 帧 指针 压 栈 ， 

















示 《 只 给 出 了 与 aad 相 关 的 部 分 )。 


过 程 的 参数 可 以 根据 帧 指针 查找 。 编 









































图 C-3 i 














记录 开始 处 又 存储 了 到 











访问 。 adgq 
] 函 数 。 

















于 加 这 琴 





个 4 字 节 的 值 
个 值 ， 而 eax 寄 存 器 














( 返 























译 器 知道 参数 就 在 
器 地 址 、 原 帧 指针 )。 
] 作 工作 空间 。 结 果 


返回 地 址 





旧 的 帧 指针 


用 add 之 后 栈 的 状态 





调 


























站 


少 



































为 返回 到 调 


函数 ， 需 要 执行 以 下 











口 使 
D re 








t 将 返回 

















jpop 将 存储 的 帧 指针 值 从 栈 弹 出 到 ebp 寄 在 器。 栈 帧 的 顶 











复制 到 ret 在 栈 








因为 main 中 还 使 月 





9 位置 。 





























剩余 的 汇编 








帧 指针 的 使 











兹 
地 址 从 栈 弹出 到 指令 指针 寄存 器 ， 控 制 流转 向 该 地 址 
上 了 另 一 个 局 部 变量 (ret) 来 存储 aqa 的 返回 值 ， 





个 操作 。 





| 四 


汉中 ， 完 成 重新 定位 之 外 ， 将 给 出 调 











用 函数 的 地 























指针 赋值 给 帧 指针 ， 栈 的 状态 如 


men 





前 流 在 aqaa 例 程 的 开始 处 恢 











图 C-3 所 


用 函数 的 活动 记录 末尾 ， 而 在 当前 活动 
j 参 数 可 以 通过 反 引 
值 留 在 该 寄存 器 中 ， 








尾 sbp+8 和 ebp+12 
使 之 可 以 传递 给 调 











新 恢复 到 main 的 设置 。 








尺码 (第 14~24 行 ) 涉及 调用 printf 和 exit 库 函数 。 
不 是 强制 的 。 完 全 可 以 忽略 帧 指针 ， 
等 效 的 代码 。 这 就 是 gcc 选 项 -omit-frame-pointezr 的 功能 所 在 。 





大 

















在 和 

















返 


T 略 帧 指针 的 情况 下 ， 每 个 过 程 





回 后 需要 将 eax 寄 存 器 的 值 


为 在 没有 帧 指针 的 情况 下 ， 也 可 以 生成 功能 


FE 
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都 可 以 减少 两 个 汇编 
但 负面 效应 在 于 


1 五 . 
二 


言 操作 ， 生 成 的 结果 
， 这 会 导致 无 法 创建 调 
































书 帧 指针 的 原因 。 





























| 











书 栈 回溯 来 重建 函数 的 调用 | 








贰 序 。 因 为 回 蛮 在 调试 或 查找 























核 oops〈 内 核 在 遇 到 严重 问题 时 产生 的 紧 
J 代码 添 加 帧 指针 的 配置 选项 。 除 非 追 求 极 


C.1.4 优化 
人 


























/ 避 


消息 ) 原 





因 时 非常 有 用 ， 在 开发 内 核 版 本 2.5 时 ， 引 入 了 





限 系 统 性 能 ， 











否则 建议 开启 该 选项 。 


化 是 编译 器 的 一 个 重要 功能 ， 它 可 以 在 不 修改 程序 的 情况 下 ， 生 成 快速 的 代码 。 这 使 得 程序 员 











从 微 优化 (micro-optimization ) 工作 中 解放 出 来 。 




















也 们 可 以 专注 于 编写 有 内 容 、 易 于 理解 的 C 语 言 代 
























































码 ， 编 译 器 可 以 将 C 代 码 自动 转换 为 尽 可 能 最 
需要 C 语 言 和 汇编 语言 方面 大 量 的 编程 技巧 ， 而 
































各 节 将 只 简要 概述 GCC 的 
1. 常数 简化 


优化 特性 。 














的 汇编 代码 。 不 过 ， 优 化 是 一 个 很 复杂 的 主题 ， 不 仅 
需要 对 数学 和 形式 逻辑 有 深刻 的 了 解 。 为 此 ， 以 下 
























































常数 简化 是 最 基本 的 优化 技术 ， 当 然 不 
化 所 采取 的 方向 ， 但 简化 实际 上 会 达到 什么 
例子 ， 其 中 为 若干 变量 设置 值 。 





























全 在 革 人 7 
X= 10; 
Y = X+ 42; 


const int z=y* 23; 





Brintf ("x, YY ze: Sd, $0, TA\n", x, 
未 优化 的 汇编 代码 如 下 所 示 : 
.file ealewe 
.Section .rodata 
-CO 
String "x VY BZ Sd, Sa 
.text 
.globl main 
.type main,@function 
main: 
pushl g% ebp 
movl Sesp, %Sebp 
subl $40, Sesp 
andl $-16, %Sesp 
movl $0, %®Seax 
subl Seax, Sesp 
movil $10, -4(%Sebp) 
movl -4(%Sebp), %Seax 
adql $42, 多 ea 
ImOVI Seax, -8(%ebp) 
movl -8(%Sebp), %Sedx 
movil Sedx, Seax 
addl Seax, Seax 
addl Sedx, Seax 
sall $3, %Seax 
subl Sedx, Seax 
movil Seax, -12(%ebp) 
movl -12(%ebp), %eax 
movil Seax, 12(%esp) 
movil -8(%Sebp), %Seax 
movil Seax, 8(%Sesp) 
movl -4(%Sebp), %Seax 





台 已 
He 


期 望 该 技术 提供 太 快 和 太 紧 凑 的 代码 。 从 该 名 称 可 知 优 
标 呢 ?回答 该 问题 的 最 佳 方法 是 借助 一 个 简短 的 C 语 言 




















$d\n" 
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movil Seax, 4(%esp) 
movil $.LC0, (%Sesp) 
call printf 
leave 
ret 

.Lfel: 
.Size main, .Lfel-main 
.ident "GCC: (GNU) 3.2.1" 

各 次 所 赋 的 值 最 初 并 不 清楚 ， 首 先 必须 计算 (通过 加 法 和 乘法 )。 因 为 总 是 使 用 同样 的 初始 值 ， 




















所 以 每 次 程序 运行 的 结果 都 相同 。 如 

















































































































































































































































































































果 关 掉 优化 ，C 代 码 将 以 一 种 相对 直接 的 方式 编译 为 汇编 代码 。 


















































进行 两 次 计算 ， 为 3 个 变量 设置 值 。 如 果 打 开 优 化 ， 汇 编 输出 中 会 出 现 一 个 额外 的 常数 : 计算 的 准确 
结果 (本 例 中 是 1196)。 
优化 过 的 汇编 代码 如 下 所 示 : 
a "Salce .6e" 
.Section .rodata.str1.1,"aMS",@progbits,1 
EC 
.String "x, y, ZzZ: %d, %d, Sd\n" 
.text 
.p2align 4,,15 
.globl main 
.type main,@function 
main: 
pushl Sebp 
movl Sesp, %Sebp 
subl $24, Sesp 
andl $-16, Sesp 
movl $1196, 12 (%Sesp) 
movil $52, 8(%Sesp) 
movl $10, 4(%esp) 
movil $.LC0, (%Sesp) 
call ea 人 one 
movl Sebp, %Sesp 
popl Sebp 
ret 
.Lfel: 
.Size main, .Lfel-main 
.ident "GCC: (GNU) 3.2.1" 
计算 不 再 于 运行 时 进行 ， 因 为 结果 在 编译 时 已 经 是 已 知 的 。 但 使 程序 执行 得 更 快 ” 不 是 这 个 优化 
步 又 带 来 的 唯一 好 处 。 生 成 的 代码 现在 只 使 用 一 个 变量 z， 因 为 另外 两 个 临时 变量 (x 和 y) 是 多 余 的 。 这 
不 仅 缩短 了 执行 时 间 ， 而 且 节 省 了 存储 空间 ， 对 于 有 许多 变量 的 大 型 程序 来 说 ， 这 是 很 重要 的 一 个 考虑 。 
2. 循环 优化 
循环 中 的 代码 可 能 反复 执行 ， 因 而 值得 进行 彻底 优化 ， 因 为 带 来 的 速度 提高 特别 显著 。 如 果 一 个 
循环 迭代 1 000 次 ， 而 优化 使 循环 体 的 执行 时 间 缩短 千 分 之 一 秒 ， 那 么 程序 总 的 运行 时 间 将 缩短 一 秒 。 
一 秒 看 起 来 可 能 不 多 。 但 最 好 通过 考查 时 间 要 求 严 格 的 内 核 操作 《如 进程 切换 ) 或 长 时 间 运 行 的 程序 
(如 物理 模拟 〉 来 评估 该 优化 的 效果 。 优 化 与 否 ， 在 后 一 种 情况 下 相差 的 执行 时 间 可 能 以 小 时 乃至 天 
来 计算 ， 在 前 一 种 情况 下 节约 几 分 之 一 秒 就 是 可 取 的 目标 ， 毕 竟 为 让 用 户 产生 程序 并 行 执行 的 错觉 ， 














进程 切换 是 频繁 进行 的 








户 几 乎 感知 不 到 )。 





Q@ 请 注 








提高 是 以 编译 速度 降低 为 代价 的 。 但 因为 编译 只 i 





意 ， 如 果 在 编译 时 预计 算 一 些 结果 ， 编 译 过 程 当 
































行 一 次 ， 而 执行 会 不 断 进 








然 会 花费 更 长 时 间 。 这 是 所 有 优化 的 一 个 共性 ， 执 行 速度 
行 ， 因 而 这 是 可 接受 的 。 
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这 种 优化 特性 不 难 


int count; 





for (count = 0; 

















理解 ， 从 技术 上 看 似乎 相对 简单 。 该 特性 可 以 通过 以 下 








Count < 3; count++) { 


printf("Pass: %d\n", count); 


} 











该 循环 会 连续 迭代 3 次 ， 每 次 都 输出 当前 一 遍 的 计数 《0、1、2)。 这 里 能 











汇编 代码 中 的 实现 是 这 样 ， 在 循环 体 末尾 将 count 状 态 变 量 加 1， 然 后 检查 其 值 。 
则 重新 开始 循环 〔 跳 转 到 循环 体 开始 处 )， 否 则 ， 














成 的 汇编 代码 如 下 所 示 : 


,fi 
.Section 
-Ls 


.String ' 


.text 
.globl main 




















的 简单 示例 来 说 明 : 





多 化 什么 呢 ? 该 循环 在 
如 果 该 变量 小 于 3， 




















“Loop.e" 


.rodata 


"Pass: %Sd\n" 


.type main,@function 


main: 
pushl 
movil 
subl 
andl 
movil 
subl 


B22 





a 





| 
leave 
ret 





.Lfel: 
.Size 
.ident 





Sebp 

Sesp, %Sebp 
$24, Sesp 
$-16, %Sesp 
$0, 多 ea 入 
Seax, Sesp 
$0, -4(%ebp) 


$2, -4(%Sebp) 
:LE9 
“3 





4(%Sebp), %Seax 


Seax, 4(%esp) 
$.LC0, (%Sesp) 
DE 
-4(%ebp), %Seax 
(Seax) 

.L2 


main, .Lfel-main 
GCC: (GNU) 3 全 > 


始 执行 循环 之 后 的 代码 。 没 有 优化 的 情况 下 ， 生 





如 果 循 环 遍 数 比较 小 ， 如 果 直 接 展开 循环 体 ， 将 其 中 的 汇编 代码 连续 写 入 到 输出 文件 几 次 ， 生 成 






































的 结果 代码 通常 执行 得 更 快 。 这 样 就 不 需要 比较 状态 变量 和 结束 人 
优化 的 0D 0DDD (loop unrolling)，GCC 将 生成 下 列 代码 : 


file "LooB:C" 





.Section 
人 


String " 


‘text 









































.rodata.str1.1,"aMS",@progbits,1 


"Pass: %Sd\n" 


-D2aligrn 4,;15 


.globl main 


直 ， 还 可 以 省 去 条 件 分 文 。 如 果 使 用 

















9 








5 “DDC DUOUOCOUOUO0DO 

.type main,@function 
main: 
pushl Sebp 
movl Sesp, %Sebp 
subl $8, Sesp 
andl $-16, %Sesp 
movil $0, 4(%esp) 
movl $.LC0, (%Sesp) 
call printf 
movl $1, 4(%Sesp) 
movl $.LC0, (%Sesp) 
ES printf 
movl $2, 4(%Sesp) 
movl $.LC0, (%Sesp) 
call printf 
movl Sebp, %Sesp 
popl Sebp 
ret 
.Lfel: 

.Size main, .Lfel-main 
.ident "GCC: (GNU) 3.2.1" 











| 


应 该 注意 到 ， 如 果 使 用 该 方法 ， 生 成 的 程序 代码 的 长 度 可 能 剧烈 增长 。 与 该 方法 相关 的 技术 困难 






































实际 上 决定 了 是 否 应 用 这 种 优化 。 使 用 这 种 优化 能 够 改进 的 循环 的 最 理想 循环 遍 数 ， 不 仅 取 决 于 循环 


体 









































的 代码 ， 还 依赖 于 处 理 器 类 型 。 因 而 在 编译 器 中 定义 相应 的 局 发 式 规 则 很 困难 ， 昌 然 产 生 的 结果 





























容易 理解 。 


3. 公共 子 表达 式 消 除 
该 优化 特性 涉及 增强 对 一 个 程序 中 多 次 出 现 的 代数 表达 式 的 处 理 。 但 这 些 不 再 是 可 以 通过 各 种 操 









































作 人 简化 的 静态 表达 式 。 在 这 种 情况 下 ， 编译 器 在 一 个 程序 段 中 搜索 重 现 的 [0 0DD0 。 如 果 用 于 计算 的 


变量 没有 改变 ， 那 么 就 可 以 跳 过 显 式 的 重新 计算 操作 ， 


























Wl 





















































[直接 使 用 前 一 次 计算 的 结果 。 换 言 之， 该 技 








需要 搜索 常用 或 公用 的 子 表 达 式 ， 为 优化 程序 代码 而 消去 其 中 一 些 。 困 此 ， 该 技术 称 之 为 0 口 口 口 
DDODODO (ommon subexpression elimination)。" 我 将 根据 下 列 简短 的 例子 ， 来 说 明 该 技术 : 


虽 D (program flow analysis )] 揭示 了 该 表达 式 至 少 计 算 两 次 。scanf 话 句 从 控制 台 读 取 x 的 值 ， 即 用 
户 可 以 键入 他 们 想 要 的 任何 值 。 之 所 以 使 用 这 种 笨拙 的 方法 ， 而 不 是 为 x 变量 指定 一 个 具体 的 值 ， 理 















































重 现 的 子 表达 式 显然 是 x*y。 对 程序 执行 的 分 析 [技术 文档 和 研究 论文 中 通常 称 之 为 0 0D DOO 














































































































和 























民 简单 。 如 果 x 的 值 是 固定 的 , 那么 可 以 应 用 另 一 个 优化 特性 〈 称 之 为 死 代码 消除 , 如 下 一 节 所 述 ) 。 





















































Q@ 非常 准确 地 说 ， 这 种 消除 技术 有 两 个 不 同 的 版 本 。 二 者 采用 了 不 同 的 算法 ， 可 根据 优化 的 目的 是 缩短 执行 时 间 还 
是 减少 代码 长 度 而 采用 相应 的 版 本 。 
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这 将 会 改变 代码 ， 使 得 不 再 需要 这 里 讨论 的 优化 特性 。 
在 将 一 个 值 赋值 到 z 时 ， 程 序 会 根据 x 的 值 区 分 两 种 情形 。 两 种 情形 的 共同 点 是 ， 赋 值 中 都 使 用 了 
表达 式 x*y， 人 类 可 以 轻易 证 实 这 一 点 ， 但 对 编译 器 来 说 这 是 极端 困难 的 ， 在 程序 控制 流 的 两 个 分 支 
中 所 用 的 变量 没有 改变 。 因 而 此 前 为 p 赋 值 时 计算 的 值 可 以 重用 。 同 样 ， 这 种 优化 的 困难 不 在 于 实际 
上 的 技术 性 置换 操作 ， 而 是 需要 操作 在 0DU DODDODODODOO0OD 保持 不 变 的 表达 式 。 

4. 死 代 码 消除 
乍 一 读 ， 术 语 “ 死 代码 消除 ” 听 起 来 相当 暴力 。 再 仔细 看 看 ， 看 起 来 有 点 了 矛盾。 毕 竞 ， 如 何 消除 
已 经 死亡 的 代码 ? 只 有 到 第 三 次 思考 该 术语 时 ， 才 知道 它 引用 了 一 种 优化 特性 ， 在 代码 生成 时 消除 不 
J 能 执行 的 代码 段 ， 以 减少 汇编 代码 的 长 度 。 
死 代 码 在 程序 中 是 如 何 累 积 的 ? 对 程序 如 何 运行 ,显然 程序 员 会 有 一 些 想 法 。 他 们 为 什么 会 浪费 
时 间 写 一 些 多 余 的 程序 片段 ? 对 简单 程序 来 说 确实 如 此 ， 但 对 于 规模 较 大 的 代码 ， 需 要 定义 若干 常数 
来 控制 特定 的 程序 功能 ， 那 么 情况 可 能 就 很 不 相同 。 在 编译 第 3 章 详细 讨论 的 体系 结构 无 关 的 内 存 模 
型 〈 该 模型 为 内 核 支持 的 各 种 处 理 器 提供 了 统一 接口 ) 所 对 应 的 C 代 码 时 ， 消 除 死 代码 就 是 其 中 的 一 
个 重要 方面 。 为 理解 该 优化 特性 的 工作 原理 ， 我 们 借助 下 列 简 短 的 例子 来 讲解 : 


int: x 
X=237 












































N 
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if{x <10) 
printf("x is less than 10!1\n"); 
} 
else { 
printf("x is greater than or equal to 10!\n"); 


} 
没有 优化 时 ， 将 生成 下 列 汇编 代码 : 


Ne "dead.c" 

















.Section .rodata 
:LO 
.string "x is less than 10!\n" 
.align 32 
2 
.String "x is greater than or equal to 10!\n" 
.text 
.globl main 
.type main,@function 
main: 
pushl Sebp 
movl Sesp, %Sebp 
subl $8, Sesp 
andl $-16, %Sesp 
movl $0, %Seax 
subl Seax, Sesp 
movl $23, -4(%ebp) 
cmpl $9, -4(%ebp) 
jg :12 
movl $.LC0, (Sesp) 
call printf 
jmp .13 
La 
movil $.LC1, (%esp) 
call printf 
Pe Ee 





















































































































































960 DOC U0 cO0UUUO 
leave 
ret 
.Lfel: 
.Size main, .Lfel-main 
.ident "GCC: (GNU) 3.2.1" 
因为 x 赋值 为 23 后 , 该 值 在 i£ 语 句 之 前 不 可 能 改变 , i£ 的 条 件 判 断 结果 是 显然 的 , 总 是 会 执行 else 
分 支 ， 这 导致 x 是 否 小 于 10 的 计算 (以 及 相关 联 的 printf 输 出 〉 完 全 多 余 。 因 而 if 中 的 第 一 个 分 支 就 
是 死 代码 ， 因 为 程序 控制 流 永远 不 会 到 达 这 里 。 因 而 , 编译 器 无 须 编译 对 应 的 语句 。 男 外 一 个 好 处 是 ， 
目标 文件 不 需要 再 保存 字符 串 常数 x is less than 10!。 除 了 加 速 程序 执行 之 外 ， 优 化 也 减 小 了 所 
生成 代码 的 长 度 。 从 目标 文件 中 忽略 掉 一 部 分 字符 串 ， 是 一 个 相对 较 新 的 优化 特性 ， 只 在 GCC 3 及 更 
高 版 本 支持 。 
优化 过 的 汇编 代码 如 下 所 示 : 
.file "dead.c" 
.Section .rodata.str1.32, "aMS",@progbits,1 
align 32 
aC 
.String "x is greater than or equal to 101" 
.text 
“B22alidn 4; ;15 
.globl main 
.type main,@function 
main: 
pushl Sebp 
movl Sesp, %Sebp 
subl $8, Sesp 
andl $-16, Sesp 
movil $.LC1, (%Sesp) 
call puts 
movl Sebp, %Sesp 
popl Sebp 
ret 
.Lfel: 
.Size main, .Lfel-main 
.ident "GCC: (GNU) 3.2.1" 

















读者 理解 这 个 优化 特性 之 后 ， 在 前 一 个 例子 中 
果 x 值 在 i£f 语 句 之 前 不 会 改变 ， 那 么 该 程序 也 可 以 进行 死 代码 消除 。 男 外 ， 还 可 以 将 该 变量 声明 为 












































volatile。 这 通知 编译 器 该 变量 值 可 能 通过 无 法 控 








的 优化 ， 包 括 死 代码 消除 。 
C.1.5 ”内 联 函 数 


与 其 他 编程 语 
的 代码 片段 《或 时 i 
因素 。 为 避免 将 代码 分 裂 为 小 片 








使 用 频率 非常 高 
销 可 能 成 为 关键 





二 


相 比 ，C 语 言 9 
































P 的 函数 调用 
司 要 求 极 端 严 格 的 








段 ， 


使 用 scanf 读 取 x 变 量 值 的 原因 就 变 得 ; 


判 的 副 效应 〈 如 中断 ) 修改 ， 这 样 会 禁 


销 相 对 较 小 ， 但 仍然 需 

















楚 了 。 如 























用 某 些 形 式 














人 


下 必 一 < 


要 一 定量 的 CPU 时 间 ， 对 本 
代码 片段 ， 如 中 断 处 理 程序 ) 来 说 ， 函 数 调用 


和 是 








唤 









































避免 使 用 较 长 的 函数 ， 该 问题 被 广泛 采用 的 一 





























解决 方案 是 采 











个 早 








该 方法 的 美学 价 但 























处 理 器 的 一 些 令 
1GCC 实 现 





























的 内 联 
使 得 编译 器 将 其 代码 复 人 


] 宏 。 函 数 可 以 
显然 是 可 疑 的 ， 而 且 对 过 


























人 不 快 的 特征 ) 意味 着 














a 


大 





























] 宏 替代 ， 预 处 理 器 会 将 其 
程 参数 缺少 类 型 检查 
不 一 定 是 首选 方法 。 














尺码 展开 后 自动 复制 到 “调用 ”函数 。 


( 且 不 说 在 编写 代码 时 ， 必 须 注意 预 





























函数 提供 了 一 个 优雅 的 备 选 方 案 。 可 以 











用 关键 字 inline 来 修饰 一 个 函数 。 这 








曾 到 被 调用 位 置 ， 就 像 是 宏一 样 。 内 联 函数 仍然 保持 了 编译 时 的 类 型 检查 ， 就 
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像 是 常规 的 函数 调用 。 只 要 向 函数 增加 inline 前 缀 ， 即 可 将 其 转变 为 内 联 函数 ， 如 下 所 示 : 
inline int adqddq (int a, int b) { 
i 
如 果 内 联 函 数 调用 时 的 参数 是 常数 , 编译 器 就 能 够 应 用 其 他 优化 选项 (例如 , 死 代 码 消除 或 CSE)， 
这 对 常规 的 浮 数 调用 是 不 可 能 的 。 











如 同 硬币 的 两 面 ， 事 物 总 是 





























生成 的 二 进 制 代 码 
与 此 同时 ， 内 
标准 实现 和 GCC 实 ] 
C.1.6 属性 
属性 向 编译 器 提供 了 有 关 函 
项 ， 以 生成 质量 更 妇 
面 的 一 些 细节 。 














长 度 就 会 大 大 ]: 























联 函 数 已 经 包含 在 C99 标 ; 









































住 中 ， 因 

















此 现在 其 他 编 








岗 之 间 有 一 些微 小 的 差别 








， 大 体 可 参 见 GCC 手 册 o 











































































































f 的 代码 ， 或 者 容 询 


数 或 变量 

















] 法 的 详细 








有 两 面 性 的 。 如 果 将 较 长 的 、 频 繁 使 用 的 大 块 代码 声明 为 内 联 函 数 ， 


兽 加 ， 这 可 能 会 引起 问题 ， 特 别 是 资源 较 少 的 嵌入 式 系统 上 。 














译 器 也 可 以 编译 相应 的 代码 。 但 在 





























信息 。 这 使 和 








F 以 普通 的 C 语 言 所 无 法 表达 的 

































































































































































导 编译 器 可 以 应 月 



































EB 式 。 属 性 可 



































日 更 
能 影响 代码 输出 方 


E 确 的 优化 选 



















































































































































































GCC 文 持 很 多 属性 ， 有 各 种 不 同 的 用 途 ， 有 具体 可 参见 GCC 文档 。 本 节 将 讲述 内 核 所 使 用 的 属性 。 
属性 通过 对 变量 或 函数 的 声明 增加 前 级 或 后 级 来 指定 ， 关 键 字 是 _attribute _((list)),， 如 
下 所 示 : 

int add (int a, int b) _ attribute ((regparam(3)); 

struct xyy { } attribute(( aligned _(SMP_ CACHE BYTES)) 

内 核 源 代码 中 使 用 了 下 列 属 性 。 

口 noreturn 用 于 指定 被 调用 函数 并 不 返回 到 调用 者 。 优 化 将 导致 较 佳 的 代码 (当然 因为 函数 不 
返回 通常 会 导致 程序 异常 终止 ， 代 码 较 佳 就 没什么 意义 了 )。 使 用 该 属性 ， 主 要 是 为 了 防止 针 
对 相应 代码 中 出 现 的 未 初始 化 变量 的 编译 器 警告 。 在 内 核 中 ， 该 关键 字 适 用 于 触发 内 核 恐 慌 
的 函数 ， 或 在 结束 后 通常 会 关机 的 函数 。 

口 regparam 是 一 个 特定 于 IA-32 的 指令 ， 它 指定 以 寄存 器 传递 参数 ， 而 不 是 像 通常 那样 使 用 栈 。 
它 需 要 一 个 参数 来 表示 以 这 种 方式 传递 的 参数 的 最 大 数目 ， 前 提 是 有 足够 多 的 空闲 寄存 器 。 

于 该 体系 结构 下 寄存 器 数量 很 少 , 这 从 来 都 不 是 确定 的 eax、edx 和 ecx 寄 存 器 用 于 该 用 途 。 
内 核 为 使 用 该 属性 定义 了 下 列 宏 ; 

include/asm-x86/linkage_32.h 

define asmlinkage CPP ASMLINKAGE _ attribute _((regparm(0))) 

define FASTCALL (x x _ attribute _((regparm(3))) 

define fastcall _ attribute _((regparm(3))) 
顾名思义 ，FASTCALL 用 于 快速 调用 一 个 函数 。 
asmlinkage 标 识 该 函数 从 汇编 代码 内 被 调用 。 因 为 在 这 种 情况 下 参数 传递 必须 手工 编码 ( 因 
而 编译 器 无 法 访问 )， 与 通过 栈 能 够 传递 的 参数 数目 相 比 ， 通 过 寄存 器 传递 的 参数 数目 显然 不 
会 给 我 们 佛 来 什么 惊讶 ， 这 也 是 通过 寄存 器 传递 参数 的 选项 必须 显 式 启用 的 原因 CPP_ 
&ASMLINKAGE 关 键 字 通常 扩展 为 一 个 空 串 〈 仅 当 使 用 C++ 编译 器 编译 内 核 时 才 插 入 extern Cc 关 
键 字 )， 这 通知 编译 器 使 用 C 调 用 约定 《第 一 个 参数 最 后 入 栈 )， 而 不 是 C++ 调用 约定 《第 一 个 
参数 首先 入 栈 )。 
在 IA-32 以 外 的 所 有 体系 结构 上 ， 上 面 给 出 的 宏 都 定义 为 空 串 。 
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口 section 人 允许 编译 器 将 变量 和 函数 置 于 二 进 制 文件 的 不 同 于 通常 设置 的 其 他 段 中 (有 关 二 进 制 






































文件 格式 的 详细 描述 , 请 参考 附录 E)。 在 实现 本 书 多 处 提 到 的 init/exit 调 用 时 , 这 个 属性 是 
很 重要 的 。 在 属性 中 ， 必 须 以 字符 串 参 数 形式 定义 相关 变量 /函数 的 目标 段 名 称 。 

例如 ， 为 定义 init 调 用 ， 编 译 器 使 用 了 下 列 宏 将 函数 置 于 末尾 .initcal10.init 的 段 中 : 
<init.h> 
#define _ define initcall(level,fn,id) \ 


static initcall 七 _ initcall ##fn##id __attribute used _\ 
attripute _ ((. section ("initcall" level "init"))}) = fn 


align 指 定 了 数据 对 齐 的 最 低 限 度 ， 即 数据 在 内 存 中 对 齐 的 特征 位 置 。 该 属性 需要 一 个 整数 参 
数 ， 数 据 所 在 的 内 存 地 址 必须 能 够 被 该 值 整除 。 其 单位 是 字 节 。 

该 属性 很 重要 ,因为 它 通过 将 结构 的 关键 部 分 放置 到 内 存 中 最 恰当 的 位 置 , 来 最 大 限度 地 发 挥 
CPU 高 速 缓存 的 作用 。 



































































































































例如 ， cacheline_aligned 宏 定义 如 下 : 
<cache.h> 
#define _ cacheline aligned 
_attribute ((_ aligned _(SMP_ CACHE BYTES), \ 
_ section (".data.cacheline aligned"))) 












































其 目的 是 将 数据 按 处 理 器 L1 绥 存 行进 行 对 齐 ， 昌 然 所 用 的 常数 暗示 这 种 对 齐 只 在 多 处 理 嚣 系 
统 上 实现 。 前 述 代码 实现 了 这 种 对 齐 的 一 个 通用 版 本 ， 但 各 个 体系 结构 可 以 自行 提供 定义 : 
该 宏一 个 稍微 严格 的 版 本 如 下 所 示 : 












































~ 








<cache.h> 
#define INTERNODE CACHE_ SHIFT L1_ CACHE SHIFT 
#define cacheline_internodealigned_in smp \ 


attribute ((_ aligned (1 << (INTERNODE_ CACHE_ SHIFT)))) 
对 章 是 基于 底层 体系 结构 最 大 可 能 的 LI1 缓 存 行 长 度 进行 ， 而 无 论处 理 器 是 否 有 这 种 长 度 的 LI1 
缓存 行 。 这 意味 着 所 定义 的 对 齐 在 高 速 绥 存 使 用 方面 是 最 佳 的 , 但 浪费 了 更 多 的 空间 ， 因 而 该 
属性 的 使 用 需要 谨慎 地 考虑 。 






















































































C.1.7 内 联 汇 编 
在 将 简短 的 汇编 语言 代码 片段 插入 到 C 代 码 中 时 ， 创 建 一 个 独立 的 汇编 源 文件 ， 将 其 编译 为 二 进 























制 代 码 ， 在 与 C 编 译 器 生成 的 目标 代码 进行 链接 ， 这 种 做 法 不 切实 际 且 笨拙 。 因 而 ，GCC 提 供 了 一 个 
专用 的 选项 ， 可 以 借助 专门 的 语句 ， 将 汇编 代码 直接 集成 到 C 代 码 中 ， 编 译 器 来 承担 联合 代码 生成 的 





















































工作 。 采 用 这 种 方法 ， 不 仅 程 序 员 的 技术 性 工作 较 少 ， 而 且 编 译 器 可 以 改进 C 代 码 生成 的 机 器 代码 ， 
使 之 能 够 与 汇编 语言 片段 更 好 地 互 操 作 。 因 为 与 链接 一 个 独立 的 汇编 语言 目标 文件 相 比 ， 编 译 器 对 内 
联 汇编 的 代码 结构 有 更 多 的 了 解 。 程 序 员 无 须 猜测 所 需 输入 参数 保存 在 哪些 寄存 器 或 内 存 地 址 ， 这 可 
以 通过 C 语 言 与 内 联 汇 编 语 言 之 间 的 一 个 无 疏 义 的 接口 定义 。 
当然 ， 插 入 汇编 代码 是 平台 相关 的 。 因 为 各 个 处 理 器 架构 之 间 ， 使 用 的 操作 码 和 寄存 器 都 是 不 同 























































































































的 。 但 用 于 集成 汇编 语句 与 C 代 码 的 机 制 是 平台 无 关 的 。 
asm 语 句 用 于 指定 汇编 代码 和 所 用 的 寄存 器 。 其 语法 如 下 还 可 以 使 用 等 价 的 _asm 关键 字 ): 


asm ("Assembler code"; 


























: Output operand specification 
: Input operand specification 
: Modified registers 
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Oz 











器 或 内 存 位 置 用 于 


输出 。 更 # 



































数据 、 对 输出 数据 进行 进 





器 (尽管 这 不 是 加 
编译 器 不 能 使 
称 之 为 0 000OO 





























步 处 理 的 C 语 


了 哪些 输入 参数 


在 IA-32 系 统 上 ， 汇 编 代 码 本 身 必 须 以 AT && T 表 示 法 给 出 (在 所 有 其 他 平台 上 ， 采 用 特定 体系 结 
构 的 首选 表示 法 )。 输 入 和 输出 寄存 器 规范 指 
作 确 地 说 ， 规 范 对 涉及 的 寄存 器 定义 了 各 种 条 件 ， 因 
言 实现 之 间 的 接 


























口 。 通 过 指定 所 有 





























口 寄存 器 通过 在 名 称 前 加 百 分 号 前 级 引用 。 








丛 入 输出 规范 的 一 部 分 )， 向 编译 器 提供 了 额外 的 信息 。 侈 





寄存 器 (或 内 存 ) 提供 ， 





哪些 寄存 





1 如， 








而 表示 了 与 提供 输入 


在 汇编 语句 中 被 修改 寄存 


在 执行 汇编 代码 之 前 ， 














被 修改 的 寄存 器 来 保存 稍 后 需要 访问 的 值 。 请 注意 ，GCC 文 档 
(clobbered register )。 

就 本 附录 的 目的 而 言 ， 将 AT&T 汇 编 语 法 总 结 
例如 ， 为 使 用 eax 寄 存 器 ， 汇 








原本 将 “修改 寄存 器 ” 


为 以 下 五 条 规则 ， 就 足够 了 。 


编 代码 中 将 使 用 %eax。 

















时 < 加 








口 源 寄存 器 总 是 在 


目标 寄存 器 之 前 指定 。 例 











内 容 复 制 到 寄存 器 b。 








口 操作 数 的 长 度 











> 








| 编 语句 的 后 级 指定 。b 








上 将 一 个 长 整数 从 eax 寄 存 器 移动 
口 间接 内 存 引用 《指针 反 引 用 ) 需要 将 寄存 器 包含 在 括号 中 。 














器 eax 的 值 指定 的 内 存 地 址 中 的 长 整数 值 复 制 到 寄存 器 ebx。 
口 offset (register) 指 定 寄存 器 值 与 一 个 偏 移 量 联 用 , 将 


帧 指针 的 偏 移 量 ， 





以 下 例子 说 明了 输入 和 输出 


move() { 
t a= 5; 
上 b; 


Lint 
in 
yl 





asm ("movl %1, 


ImOV1 %S%eax, 


: "=r"(b) 


"r" (a) 


: "Seax"); 


BpEintE("b: Tu" 


} 
该 











8 ($eax) 指定 将 eax+ 8 


如 








， 在 mov 语 句 中 ， 





这 意味 着 mov a，b 将 寄存 器 a 的 


代表 byte，1 代 表 1ong，w 代 表 wordq。 为 在 IA-32 系 统 












































到 ebx 寄存 器 ， 需 要 指定 movl1 g%eax，g%ebx。 
例如 ，movl (%eax), $ebx 将 寄存 
































] 作 一 个 操作 数 。 
问 某 些 局 部 变量 。 
规范 的 语义 : 





以 访 














S$%Seax; 


’ 


代码 将 a 的 值 复制 至 
代码 。 上 述 内 联 汇编 代码 使 用 了 
虽然 输入 和 输出 寄存 器 都 以 81 和 %0 的 
的 必须 明确 指定 。 这 个 例子 








%S0;" 

/* 输出 寄存 器 */ 
/* 输入 寄存 器 */ 
/* 修改 的 寄存 器 */ 


b); 


























局 移 量 加 到 寄存 器 的 实际 值 上 。 例如 ， 
表示 法 主要 用 于 内 存 访问 ， 例 如 指定 与 栈 指针 或 





Jp， 这 对 性 能 要 求 不 高 。 也 可 以 写成 p = a， 使 编译 器 来 生成 等 效 或 更 好 的 








个 输入 寄存 器 、 

















使 用 了 eax。 








E 式 表示 ( 代码 只 
回想 在 源 代码 中 必须 输入 到 


个 输出 寄存 器 和 





























产生 一 个 百 分 号 ， 这 也 是 用 %%eax 形 式 来 指定 寄存 器 的 原因 。 
该 例子 生成 了 以 下 汇编 语言 输出 ， 为 AT &T 语 法 (这 里 只 给 
movl -4(%Sebp), %Sedx 
#APP 
movl %Sedx, %®eax; 
mov1 %Seax, %Sedx; 
#NO_APP 








movl %Sedx, %Seax 





























个 临时 寄存 器 。 在 汇编 代码 中 ， 
需要 定义 对 寄存 器 实施 的 操作 )， 
个 百 分 写 ， 才 能 在 编译 器 输出 中 








临时 寄存 器 











出 了 输出 中 对 应 的 部 分 )。 
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movl %Seax, -8(%Sebp) 
asm 语 句 生 成 的 汇编 代码 包含 在 编译 器 输出 的 #APP 和 #NO_APP 之 间 。 
该 代码 的 效果 与 预期 相同 。 编 译 器 首先 将 当前 活动 记录 中 位 置 为 sbp - 4 的 局 部 变量 a 的 值 复制 
寄存 器 eqx。 汇 编 代 码 执行 ， 将 该 值 复制 到 寄存 器 eax。 接 下 来 它 将 eax 的 值 复制 到 输出 寄存 器 eqx。 
接 下 来 的 代码 仍然 是 由 编译 器 生成 的 ， 将 汇编 代码 的 结果 值 ( 通 过 寄存 器 eax) 复制 到 局 部 变量 b， 位 


y 


于 活动 记录 中 ， 位 置 为 ebp - 8。 
在 这 个 例子 中 ,汇编 代码 和 编译 器 生成 的 代码 都 不 怎么 智能 化 。 如 果 要 求 GCC 生成 优化 代码 ， 会 
产生 如 下 的 汇编 代码 输出 : 


movl $5, %Sedx 


































































































































































































APP 
movil %Sedx, %Seax; 
movil %Seax, %Secx; 
NO_APP 


局 部 变量 现在 不 再 存储 在 栈 上 不 需要 )， 而 是 保存 在 寄存 器 中 。edx 用 作 a， 初 始 化 为 常数 5。b 
保存 在 寄存 器 ecx 中 。 两 个 寄存 器 都 可 以 用 于 用 户 定 义 的 汇编 代码 中 ， 这 省 去 了 寄存 器 和 栈 之 间 笨 拙 
的 复制 操作 。 


SS 加 加 旺 二 痪 由 加 则 加 天 加 晶 基 量 基 加 王 轴 量 蜗 县 弄 王 融 昌 融 下 三 王 融 一 三 旺旺 
如 


输入 和 输出 寄存 器 通过 约 0 口 义 ， 形 式 如 下 : 
"constraint" (variable) 
前 述 的 例子 使 用 了 下 面 两 个 约束 。 
口 "r" 指 定 了 一 个 寄存 器 ， 用 于 在 汇编 代码 中 表示 给 定 变量 的 值 (a 或 bp)。 具 体 使 用 哪个 寄存 器 
由 编译 器 确定 ， 程 序 员 在 编写 汇编 代码 时 并 不 知道 ， 这 也 是 在 汇编 代码 中 用 $0 和 %1 来 表示 相 
关 寄 存 器 的 原因 。 
口 "=r" 以 涉及 的 寄存 器 来 指定 一 个 操作 数 。 
通常 ， 约 束 用 于 表示 一 个 值 是 位 于 内 存 还 是 位 于 寄存 器 ， 可 能 使 用 何 种 寄存 器 ， 等 等 。GCC 文 持 
各 种 各 样 的 约束 ， 其 中 一 些 是 体系 结构 相关 的 ， 另 一 些 是 无 关 的 。 完 整 的 描述 ， 请 参考 编译 器 文档 。 
本 节 只 讲述 了 与 内 核 相 关 的 特性 。 
在 内 核 中 使 用 了 下 列 体系 结构 无 关 的 约束 。 
口 < 表示 使 用 了 一 个 通用 寄存 器 。 
口 m 指 定 使 用 了 内 存 中 的 一 个 地 址 。 
口 I 和 J 在 IA-32 系 统 上 定义 了 一 个 位 于 0~31 或 0~63 的 常数 。 这 可 以 用 于 移 位 操作 。 
这 些 约束 可 以 通过 使 用 修饰 符 前 级 来 进一步 细 化 。 
口 = 指定 操作 数 是 只 写 的 。 丢 弃 前 一 个 值 ， 蔡 换 为 操作 的 输出 值 。 
口 + 指定 操作 数 是 读 写 的 。 
接 下 来 的 两 个 例子 示范 了 内 核 中 如 何 使 用 内 联 汇编 。 首 先 ， 通 过 下 列 代码 可 实现 原子 地 设置 一 个 
unsigned long 变 量 中 某 个 比特 位 : 


include/asm-x86/bitops_32.h 
static inline void set bit(int nr, volatile unsigned long * adqdqr) 


{ 
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_asm _ volatile  ( LOCK_ PREFIX 
"btsl %1,%0" 
:"+m" (ADDR) 
eTeE" (mre}y})y 
} 
bts 代 表 汇 编 语 句 “ 位 测试 并 置 位 ”该 语句 检查 一 个 长 整 型 值 中 的 给 定 比 特 位 ,将 该 比特 位 的 值 
存储 到 处 理 器 的 CF 标志 位 ， 然 后 将 该 比特 位 设置 为 1。 因 为 长 整 型 值 包括 32 位 ， 其 内 部 的 比特 位 置 可 



















































































以 通过 范围 0~31 之 间 的 一 个 常数 指定 ， 这 也 是 使 用 约束 类 型 I 的 原因 。 该 位 置 还 必须 通过 寄存 器 来 指 
定 ， 这 是 体系 结构 的 要 求 ， 这 里 使 用 了 zr 约束 。 
因为 处 理 的 数据 位 于 内 存 中 ， 通 过 写 访问 进行 修改 ， 必 须 对 该 长 整 型 值 指定 +m 约 束 。 
预 处 理 器 常数 LOCK_PREFIX 用 于 使 该 操作 原子 执行 。 在 单 处 理 器 系统 上 ， 该 常数 定义 为 空 串 ， 因 
为 用 于 设置 比特 位 的 单个 汇编 语句 是 不 能 被 中 断 的 。 在 SMP 系 统 上 ， 该 常数 扩展 为 1ock。 这 是 一 个 单 
独 的 汇编 语句 ， 称 之 为 0] DD (lock prefix)， 它 阻止 系统 的 所 有 其 他 处 理 器 干扰 接 下 来 的 一 条 语句 的 
执行 ， 使 之 原子 化 执行 。 

事实 上 ， 内 联 代码 中 不 仅仅 能 够 使 用 单条 汇编 语句 。 例 如 ， 在 Alpha CPU 上 ， 将 整 型 变量 原子 化 
加 1 是 一 个 复杂 操作 ， 如 下 所 示 : 


include/asm-alpha/atomic.h 


















































































































































































































































static _ inline void atomic add(int i, atomic t * V) 
{ 

unsigned long temp; 

_asm _ volatile ( 


We 1d1_ 1 %0,%1\n" 

addl %0,%2,%0\n" 
stl_c %0,%1\n" 
beq %0,2f\n" 

" .Subsection 2\n" 


Ws bi LbNY 

".previous" 

:"=&r" (temp), "=m" (Vv->counter) 
: "Ir" (i), "m" (Vv->counter)); 


























本 附录 并 不 讨 1 从 为 何 需要 如 此 多 的 代码 ， 因 为 这 将 涉及 Alpha 处 理 器 的 特征 。 该 例子 要 说 明 的 是 ， 
相对 复杂 、 不 能 只 用 一 个 汇编 语句 为 此 的 操作 也 可 以 在 内 联 汇编 中 实现 。 


C.1.8 _ builtinek 函数 


_ builtin 函 数 向 编译 器 提供 了 其 他 选项 ， 可 以 执行 C 语 言 常规 能 力 范围 之 外 的 操作 ， 又 不 必 借 
助 于 内 联 汇编 。 
每 个 体系 结构 都 定义 了 自身 的 _builtin 函 数 集合 ， 详 情 可 参见 GCC 文档 。 有 若干 “builtin 函 

数 变 体 对 所 有 体系 结构 是 共同 的 ， 内 核 使 用 了 其 中 两 个 。 
口 _puiltin_return_aqaress (0) 获 得 函数 的 返回 地 址 ， 即 函数 结束 时 控制 流 将 定位 到 的 目标 

地 址 。 如 前 所 述 ， 该 信息 也 可 以 从 活动 记录 取得 。 这 实际 上 是 一 个 特定 于 体系 结构 的 任务 ， 

但 这 里 的 _builtin 函 数 为 该 功能 提供 了 一 个 通用 的 前 端 
参数 指定 了 该 _builtin 函 数 应 该 在 活动 记录 中 向 上 多 少 层 。0 表 示 当 前 运行 函数 将 返回 的 地 

址 ，1 表 示 调 用 当前 函数 的 函数 将 返回 的 地 址 ， 依 次 类 推 。 
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口 _ builtin_expect (long exp，long c) 帮 助 编译 器 优化 分 支 预测 。exp 指 定 一 个 将 计算 的 表 


























达 式 的 结果 值 ， 而 c 返 回 预期 结果 : 0 或 1。 举 例 来 
if (expression) { 

/* 是 */ 
} 


else { 
/* 否 */ 


} 
如 果 要 优化 上 述 代 码 ， 而 且 预 期 条 件 表达 式 在 大 


expect， 如 下 : 









































if (_ builtin expect (expression, 1)) { 
/* 是 */ 

} 

else { 
/* 否 */ 


} 




















说 ， 看 一 看 下 面 的 i£ 语 句 : 





























多 数 情况 下 值 为 1， 那 么 可 使 用 _builtin_ 


编译 器 通过 预先 计算 第 一 个 分 支 ， 来 影响 处 理 器 的 分 支 预测 。 
内 核定 义 了 以 下 两 个 宏 ， 来 标识 代码 中 很 可 能 和 不 太 可 能 的 分 支 : 














<compiler.h> 


#define likely (x) _ builtin expect(!! (x), 1) 
#define unlikely (x) _ builtin expect(!! (x), 0) 




















使 用 双重 否定 !1! 符 写 ， 有 下 面 两 个 理由 : 
口 它 使 得 宏 可 以 用 于 隐 式 转换 为 真 值 的 指针 ; 













































































口 大 于 0 的 真 值 (C 语 言明 确 允 许 这 种 做 法 ) 标准 化 为 1， 这 是 builtin_expect 所 预期 的 值 。 














内 核 中 有 多 处 使 用 了 这 两 个 宏 。 例 如 ， 在 slab 分 配 回 的 实现 中 ， 如 下 所 示 : 








mm/slab.c 

if (likely(ac->avail < ac->limit)) { 
STATS_INC_FREEHIT (cachep); 
ac_entry(ac) [ac->avail++] = objp; 
return; 





} else { 











STATS_INC_FREEMISS (cachep); 
cache_flusharray (cachep, ac); 
ac_entry(ac) [ac->avail++] = objp; 





} 











上 述 例子 表明 ，_pbuiltin_expect 不 仅 可 用 于 简单 值 
C.1.9 ”指针 运算 























， 还 可 以 用 于 必须 首先 求 值 的 条 件 表达 式 。 


















































通常 在 C 语 言 中 ， 仅 当 指针 具有 显 式 类 型 时 ， 才 可 用 于 计算 。 例 如 int * 或 1ong *。 和 否则 ， 不 可 


能 确定 指针 加 1 操作 的 语义 。GNU 编 译 器 拓宽 了 该 限制 ， 也 支持 voia 指 针 和 函数 指针 的 运算 ， 内 核 在 
多 处 用 到 。 在 这 两 种 情况 下 ， 加 1 操作 的 语义 是 增加 1 字 节 。 
























































有 趣 的 是 ，GCC 人 至 少 曾 经 支持 过 可 对 比特 位 寻 址 的 体系 结构 ， 即 TI (Texas Instrument， 德 州 仪 器 ) 





的 34010 处 理 器 。 指 针 加 1 在 该 机 器 上 意味 着 内 存 位置 向 前 移动 1 比特 位 ， 而 不 是 像 普遍 的 那样 移动 1 字 








节 。 昌 然 该 计算 机 的 存在 很 可 能 不 值 一 提 ， 但 有 件 事 却 值 
























































得 提起 ，2.6 系 列 内 核 开 发 的 关键 人 物 之 一 





Andrew Morton， 曾 经 为 该 处 理 器 编写 过 一 个 实时 内 核 。 读 者 可 以 从 www.zip.com.au/~akpm/ 下 载 其 源 


代码 。 
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C.2 内核 的 标准 数据 结构 和 技术 











C.2.1 





在 内 核 的 C 源 代码 中 ， 采 月 
程序 。 梧 将 讨论 这 些 技 术 ， 以 及 一 些 时 常 需要 月 


引用 计数 器 
































日 了 若干 方法 ， 这 些 对 操作 系统 编程 是 必要 的 ， 但 通常 不 用 于 普通 的 C 
日 到 的 标准 数据 结构 ， 这 些 一 般 实现 为 小 的 通 














] 库 。 








需要 长 期 使 用 的 数据 结构 实例 由 内 核 在 其 动态 内 存 空间 中 分 配 。 在 实例 不 再 需要 后 ,分 配 的 内 存 








空间 可 以 返还 给 内 存 各 
该 实例 ， 这 不 成 问题 。 在 这 种 情况 下 ， 
访问 同一 实例 时 ， 


的 进程 资源 ， 





何 时 不 再 需要 ， 因 











0 











里 子 系统 ， 如 同 普 通 的 C 程 序 。 如 





果 只 

















卜 


很 容易 确定 何 时 不 再 需要 该 内 存 空间 。 


有 一 个 内 核 组 件 在 一 条 控 币 





| 路径 中 访问 











在 几 个 进程 或 内 核 线程 























丸 为 资源 的 共享 ， 
都 是 几 个 地 方 需要 使 
而 无 法 判断 返还 相关 内 存 空 i 






























































使 情况 变 得 复杂 。 写 时 复 人 
] 同 一 数据 结构 实例 的 
司 的 时 机 。 

















吕方 法 和 通过 进程 分 支 来 共享 使 














] 不 同 

















列子 。 在 这 种 情况 下 ， 内 核 































































































不 知道 该 数据 




















为 解决 这 个 问题 ， 内 核 采 用 了 硬 链 接 实 现 所 用 的 一 种 技术 。 数 据 结构 中 具有 一 个 0 或 0DUDD 
口 ， 表 示 内 核 中 有 多 少 位 置 在 使 用 该 资源 。 使 用 计数 器 是 一 个 原子 化 的 整 型 变量 ， 嵌 入 数据 结构 中 某 
处 ， 通 常 名 为 count， 如 下 例 所 示 : 

struct shared { 

| atomic_t count; 

Se 

分 配 例 程 会 区 分 两 种 情况 。 如 果 没 有 合适 的 实例 ， 则 创建 一 个 新 的 实例 ， 并 将 其 使 用 计数 器 初始 
化 为 1。 如 果 有 合适 的 实例 存在 〈 可 借助 散 列 表 来 检查 ， 将 所 有 现存 实例 置 于 散 列 表 中 )， 将 实例 的 使 
用 计数 器 加 1 后 返回 该 实例 。 
































此 时 不 能 通过 简单 地 释放 内 存 空间 来 释放 数据 结 
首先 检查 使 用 计数 器 是 否 大 于 1。 如 果 是 ， 则 该 实例 还 
仅 当 计数 器 为 0 时 (在 函数 




















构 





的 实例 。 相 反 ， 该 任务 需要 委托 给 一 个 函数 ， 























1 内 核 的 其 他 部 分 使 














有 

















用 ， 将 计数 器 减 1 即 可 。 





























台 时 为 1)， 该 数据 结构 占 











大 




















为 此 时 该 实例 才 不 再 需要 了 。 
C.2.2 ”指针 类 型 转换 











在 可 移植 C 应 














了 程 请 由， 





换 ， 如 下 述 例子 : 
int var; 
void *ptr = &var; 


管 到 主 抽 二 二 人 


( 
( 


var 
Bt 


PELntE( 





如 果 两 次 输出 相同 的 值 ， 那 么 该 程序 似乎 就 能 工作 了 。 尽 
它 在 32 位 机 器 上 可 以 正常 工作 。C 语 言 并 不 保证 指针 和 整 型 变量 的 位 长 相同 ， 但 在 32 











子 颇 有 
位 平台 上 刚好 





了 欧 驴 性 ， 





在 64 位 习 


"ptr before typecast: %p\n", ptr); 
Lint) ptrs 

void*)var; 

"ptr after typecast: %Sp\n", ptr); 





如此， 整数 和 指针 变量 都 需要 4 个 字 节 。 








A FI 


的 内 存 空间 才能 返还 给 内 存 管 











里 子 系统 ， 





个 第 见 的 错误 来 源 于 假定 整数 和 指针 类 型 的 长 度 相同 ， 可 进行 类 型 转 











序 实际 上 是 不 正确 








该 


户 








三 














的 ， 但 这 个 例 









































FF 台 上 就 不 是 这 样 ， 指 针 需 要 8 个 字 节 ， 而 整 型 变量 仍然 需要 4 个 字 节 。 在 IA-64 系 统 上 ， 


8 U0DC 00 


cUUUODO 





示例 程序 将 产生 以 下 输出 : 





wolfgang@64meitner> 
ptr before typecast: 


ptr after typecast 


:BEE 
区 9 下 于 于 下 王 下 和 王 下 于 于 于 二 930 
央 站 总 于 下 下 下 在 下 本 和 不 下 下 直 攻 全 3:0 


这 种 情况 下 ， 指 针 到 整 型 的 类 型 转换 肯定 会 导致 数据 丢失 。32 位 平台 上 这 种 粗心 的 惯例 ， 成 为 了 


在 64 位 体系 结 














系 结构 上 执行 ， 必 须 保证 在 64 位 环境 下 是 正确 的 。 








根据 C 语 言 标准 ， 程 序 也 不 能 假定 指针 和 unsigned long 变 量 可 以 相互 进行 类 型 转换 。 但 
在 所 有 现存 的 平台 上 都 是 可 能 的 ， 所 以 内 核 将 该 假定 作为 一 个 先决 条 件 ， 明 确 允 许 二 者 进行 转换 ， 如 




















下 所 示 : 


unsigned long var; 
void* ptr; 


var 
ptr 


(void*)var; 






































unsigned long 数 据 类 型 ， 
有 用 )。 


C.2.3 ”对 齐 问题 


因为 有 时 候 unsigned long 变 量 比 void 指针 易 卫 
必须 考察 复合 数据 类 型 的 一 部 分 时 ， 这 就 很 有 用 。 
使 用 通常 的 指针 运算 ，var++ 将 导致 其 值 增加 sizeof (data type) 。 如 果 指 针 预 先 转换 为 





(unsigned long)ptr; 











构 上 运行 程序 时 频繁 发 生 的 一 个 错误 的 来 源 。 当 然 ， 内 核 源 代码 如 果 在 这 两 种 字 长 的 体 












































处 至 


























E， 二 者 可 能 先进 行 转换 后 























于 处 























里 。 例 如 ， 在 











就 可 以 逐 字 节 分 析 或 志 历 结构 的 内 容 《〈 在 提取 内 和 内 的 子 结构 时 ， 这 可 能 很 





我 们 现在 把 注意 力 转 向 对 齐 问题 。 





1. 自 然 对 齐 
大 多 数 现代 RISC 机 器 


须 能 够 被 数据 类 型 的 宽度 整除 。 例 





都 强制 要 求 内 存 访问 是 0D 0 对 齐 的 : 一 个 基本 类 型 数据 所 存储 的 位 置 ， 必 





如 ， 在 64 位 体系 结构 上 ， 指 针 有 8 








这 些 指 针 必 须 存储 在 可 以 被 8 整除 上 





所 有 常规 的 操作 这 都 不 成 问题 ， 因 为 在 内 核 中 分 配 内 存 时 ， 分 配 时 就 会 对 齐 到 1 
会 保证 向 结构 加 入 0 D ， 以 强制 实施 自然 对 齐 。 但 如 果 访 问 任意 地 址 上 的 内 存 , 可 


D get_unalignedq(ptz)， 用 


























则 必须 采用 以 下 两 个 畏 




















比较 | 











D put unaligned (val, ptr 
的 体系 结构 (如 IA-32) 





cs 4 二 























子 万 而 。 仁 
的 地 址 上 ， 如 24、32、800 等 都 是 有 效 的 地 址 ， 








然 对 齐 的 情况 下 ， 
而 30 和 25 则 不 是 。 


对 






































于 读 取 非 对 齐 指针 ; 








E 确 的 位 : 





。 编 译 器 还 





























台 已 百 
用 十 


非 对 齐 的 位 置 ， 








， 将 值 val 写 入 到 非 对 章 的 内 存 位 置 
























































对 所 有 非 对 齐 访问 都 必须 使 














考虑 下 列 结构 : 


struct align { 


全 可 站 *HEEL 

Ghar “cs 

char *ptr2 
在 64 位 系统 上 ， 一 个 和 





QD 这 个 是 作者 的 “发 明 ”， 








] 这 两 个 函数 ， 以 保证 可 移植 性 。 











’ 


’ 


可 以 透明 地 处 理 非 对 齐 访问 ， 但 大 多 数 RISC 机 器 不 是 这 样 。 因 而 





此 针 需要 8 字 节 ,而 一 个 char 类 型 变量 需要 1 字 节 。 








unsigned long 在 64 位 下 也 是 4 字 节 。 一 一 译 者 注 











ptr 表 示 。 


UD 


人 
ule 
这 
苹 





























只 保存 17 字 节 
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数据 ， 但 sizeof 报 告 的 该 结构 长 度 将 是 24。 这 是 因为 编译 器 需要 保证 第 二 个 指针 ptr2 正 确 对 齐 ， 需 
要 在 c 之 后 放置 7 个 填充 字 节 ， 这 些 字 节 并 不 使 用 。 如 图 C-4 所 示 。 

































































0 ptr1 7c8 填充 15 ptr2 23 
图 C-4 ”编译 器 自动 向 结构 插入 填充 字 节 ， 确 保 各 数据 成 员 对 齐 到 正确 位 置 


结构 中 的 填充 字 节 也 可 以 填 入 0 0 信息 , 因此 应 该 根据 对 齐 的 要 求 来 设法 安排 结构 中 的 各 个 数据 
成 员 。 
如 果 必 须 避 免 填充 , 例如， 可 能 一 个 结构 用 于 与 外 部 设备 交换 数据 ， 必 须 按 数据 结构 的 原 定 义 接 
收 数据 ， 就 可 以 在 结构 定义 中 指定 _ packed 属 性 ， 防 止 编译 器 加 入 填充 字 节 。 因此 ， 这 样 的 结构 中 ， 
那些 可 能 未 对 齐 的 部 分 只 能 使 用 前 述 的 两 个 函数 访问 。 
根据 字 节 类 型 的 定义 ， 它 们 总 是 对 齐 的 。 因 为 其 宽度 是 一 字 节 ， 而 每 个 地 址 都 可 以 被 一 整除 。 
2. 通用 对 齐 
有 时 ， 除 了 自然 对 齐 ， 还 必须 满足 其 他 的 对 齐 条 件 。 例 如 在 某 个 数据 结构 必须 沿 缓存 行 对 齐 时 ， 
但 在 内 存 管 理 的 实现 中 ， 还 有 大 量 的 其 他 应 用 。 内 核 为 此 提供 了 ALIGN (x，y) 宏 : 它 返回 将 数据 x 对 
齐 到 y 字 节 边 界 所 需 空间 长 度 的 最 小 值 。 此 前 在 第 3 章 ， 表 3-9 给 出 了 这 个 宏 用 法 的 一 些 例子 。 
C.2.4 位 运算 
位 操作 属于 内 核 的 标准 技术 之 一 ， 在 所 有 子 系统 中 都 经 常 使 用 。 过 去 ， 此 类 操作 经 常用 于 用 户 空 
间 程 序 ， 因 为 一 些 操作 可 以 做 得 比 标准 的 C 语 言 操作 更 快 。 现 在 ， 编 译 器 的 优化 机 制 已 经 变 得 更 为 精 
巧 复杂 ， 几 乎 不 需要 位 操作 了 。 但 内 核 作为 性 能 要 求 非常 高 的 程序 ， 是 一 个 例外 。 同 样 ， 位 操作 能 够 
实现 一 些 不 可 能 使 用 其 他 语句 实现 的 效果 。 
int 类 型 在 内 存 中 表示 为 一 个 32 项 的 位 串 。 同 样 ，unsignedq 1long 值 也 可 以 认为 是 32 项 或 64 项 的 
位 串 ， 这 取决 于 处 理 器 的 字 长 。 但 在 默认 情况 下 ，C 语 言 没 有 直接 访问 变量 中 各 比特 位 的 机 制 。 这 也 
是 内 核 必须 得 借助 于 一 些 技巧 的 原因 。 
对 整数 的 两 个 基本 的 位 操作 是 左 移 和 右 移 ， 分 别 由 << 和 >> 运 算 符 表示 。 参数 指定 了 位 串 中 的 各 比 
特 位 向 左 / 右 移动 的 位 数 。 例 如 ，a = a >> 3 将 a 中 所 有 比特 位 向 右 移动 3 位 。 
天 为 位 串 中 第 n 个 比特 位 代表 的 值 为 ”， 因 为 操作 将 所 有 比特 位 向 左 / 右 移动 一 位 时 ,第 n 个 比特 位 
的 值 将 变 为 2*!。 这 等 价 于 乘 以 或 除 以 3。 类 似 地 ，n 位 的 移 位 操作 等 价 于 乘 以 或 除 以 2 ， 因 为 这 等 效 于 
连续 z 次 移动 一 位 。 因 而 ， 整 数 乘 以 / 除 以 2 的 索 次 可 以 替换 为 移 位 操作 ， 如 下 例 所 示 〔〈 类 似 于 所 有 其 他 
算术 运算 符 ， 移 位 运算 符 也 能 以 <<= 或 >>= 的 形式 使 用 ， 把 移 位 和 将 新 值 赋予 上 日 变量 的 操作 合 起 来 ): 


int main() { 
unsigned int val = 1; 
unsigned int count; 


































































































































































































































































































































































































































































































for (count = 0; count <= 10; count++) { 
Brintf("eount, Vals Su SUu\n", COunt; Val)s 
val <<= 1; 
} 
} 


该 程序 将 产生 以 下 输出 : 


wolfgang@meitner> ./shift 





970 DOC OOCOOOOD 





count, val: 0 
COunt, vale,1 
GOUNnt, VaLl: 2 
count, val: 3 
count, val: 4 
Count; val 5 
count, val: 6 
COUNnty Vals 了 7 128 
count, val: 8 
COount, vale 
GE Vals 1 
若 



































C 语 言 提供 了 若干 二 元 位 运算 符 , 在 表 C-1 中 列 出 。~ 也 是 一 个 位 运算 符 (一 元 )， 用 于 对 一 个 数 按 
位 取 反 。 
表 C-1 二 元 位 运算 符 
运算 符 语义 
& 按 位 与 
| 按 位 或 
按 位 异 或 (XOR) 






































这 些 操作 可 用 于 查询 和 操作 位 串 中 的 各 个 比特 位 ， 而 无 须 借 助 处理 器 的 专用 汇编 指令 。 但 Linux 
偶尔 需要 用 到 此 类 汇编 指令 ， 来 快速 地 或 原子 化 地 操作 位 串 。 一 般 的 概念 包括 ， 使 用 掩 码 来 选择 一 个 
特定 的 比特 位 。 在 掩 码 中 ， 除 了 将 选择 的 比特 位 设置 为 1 之 外 ， 所 有 其 他 比特 位 都 设置 为 0。 将 掩 码 与 
目标 操作 数 按 位 与 ， 即 可 选择 所 要 的 比特 位 。 下 例 建 立 了 一 个 掩 码 ， 来 帮助 测试 位 串 的 第 5 个 比特 位 : 


int main() { 


















































int vall 
int val2 


int mask = 1; 
mask <<= dd 


if (vall & mask) { 
printf("Bit 5 in vall is set\n"); 


} 


if (val2 & mask) { 
printf("Bit 5 in val2 is set\n"); 
} 
} 


该 程序 产生 了 下 列 输出 : 


wolfgang@meitner> ./bitmask 
Bit 5 in val2 is set 


当然 ， 也 可 以 设置 适当 的 掩 码 ， 不 只 选择 一 个 比特 位 ， 而 是 选择 出 几 个 比特 位 。 例 如 ， 如 果 要 分 析 
一 个 数 的 最 后 5 个 比特 位 ， 构 建 掩 码 时 ， 可 以 将 1 左 移 到 比特 位 置 6， 然 后 减 去 1， 就 得 到 了 所 要 的 掩 码 。 
DOU0OD0U0000000000000050000001000000U00U0UUe6 
D31000000o00 
位 串 中 所 要 的 比特 位 可 以 通过 按 位 与 选择 ， 如 下 所 示 : 


int main() { 
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unsigned int val 49; 


unsigned int res; 


unsigned int mask = 1; 
mask <<s 57 





mask -= 1; printf("mask: %u\n", mask); 
res = val & mask; 
printf("val, res: %u, %u\n", val, res); 
} 
该 程序 将 产生 以 下 输出 : 
wolfgang@meitner> ./maskfive 
mask: 31 
val, res: 49, 17 








加 加 


gougouooogga gogor 人 goongogoouyo 








1。 当 然 


以 下 例子 说 明了 这 两 个 操作 的 差别 : 


int main() { 
int vall 
int val2 


4; 
8; 


if (vall & val2) { 

printf ("And\n"); 

} 

if (vall && val2) { 

printf("And and\n"); 
} 

} 


该 程序 产生 了 下 列 输 


wolfgang@meitner> and 


中 H 。 
中 : 






























































为 4 和 5 比特 位 置 2 都 等 于 








站 





























And and 
因为 两 个 数 没有 匹配 的 比特 位 ， 所 以 按 位 与 返回 0。 
如 果 将 4 和 5 用 作 输 入 ， 则 结果 不 同 ， 两 个 运算 符 都 会 返回 大 于 0 的 什 
， 二 者 都 是 大 于 0 的 (对 &&)。 
故事 的 富 意 是 (请 原谅 这 里 的 文字 游戏 )，AND 和 AND AND" 并 不 总 是 相同 。 





























pp 
用 














最 后 请 注意 , 内 核定 义 ] 








参数 给 定数 目的 比特 位 。 





<types.h> 


#define DECLARE BITMAP (name,bits) \ 

















葬 安 





























大 多 数 程序 员 都 熟悉 预 处 理 器 。 但 内 核 使 




















Q 这 让 我 们 想起 了 PLVI 语 言 的 一 个 控制 结构 ，IF 工 


unsigned long name [BITS_TO_LONGS (bits) ] 


动 地 计算 数组 中 所 需 long 数 组 项 的 数目 ， 使 得 为 所 有 比特 位 分 配 足够 的 空间 。 
C.2.5 ” 预 处 理 器 技巧 





3 了 两 个 不 常用 





EN THEN T 





助 函 数 DECLARE_BITMAP 来 创建 一 个 有 足够 空间 的 位 





图 , 以 存储 由 bits 











lr 


的 结构 ， 





因而 需要 讨论 一 番 。 





HI 


EN = ELSE ELSE ELSE = IF;o 
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出 现在 字符 串 内 部 的 宏 参 数 通常 不 会 进行 替换 。 如 果 需 要 根据 一 个 参数 来 生成 一 个 字符 串 ， 则 必 
须 使 用 专门 的 预 处 理 器 功能 ， 称 之 为 0 0 DD (stringification)。 字 符 串 内 部 如 果 有 需要 替换 为 宏 参 数 
的 ， 必 须 以 # 作 为 前 级 ， 如 下 例 所 示 : 


#define warning (text)\ 
printf("Warning: " #text "\n") 


如 果 像 下 面 这 样 使 用 该 宏 : 

warning (foobar not found); 

预 处 理 器 展开 后 ， 将 产生 以 下 输出 : 

printf ("Warning: " "foobar not foundq" "\n"); 

如 果 函 数 〈 其 名 称 有 一 部 分 通过 宏 参 数 指定 ) 借助 于 预 处 理 器 定义 ， 则 必须 利用 预 处 理 器 的 连 
功能 〈concatenation)。 该 功能 在 下 面 的 例子 中 说 明 ， 该 例子 取 自 内 核 中 针对 各 种 数据 类 型 定义 的 端 
IO 函数 。 两 个 # 用 于 在 进行 预 处 理 器 奉 换 时 ， 将 两 个 连续 的 标记 合成 为 一 个 复合 标记 。 


include/asm-x86/io_32.h 
#define BUILDIO (bwl,pbw,type) \ 
static inline void out##lbwl##_ local (unsigned type value, int port) { \ 

_asm _ volatile ("out" #bwl " %" #bw "0, Swil" : : "a"(value), "Nd"(port)); \ 



































































































































XE 
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根据 定义 的 函数 所 针对 的 数据 类 型 ，pwl 可 接受 后 面 三 个 值 之 一 : b、1 或 w。type 指 定 了 对 应 的 C 
语言 数据 类 型 。 对 字符 或 字 节 操作 ， 该 宏 如 下 调用 来 定义 对 应 的 函数 : 

BUILDIO (b, b, char) 

在 预 处 理 器 进行 处 理 之 后 ，C 语 言 文件 包含 下 列 代码 〈 为 便于 阅读 ， 已 经 增加 了 额外 的 换行 符 ): 


static inline void outb local (unsigned char value, int port) { _ 
_asm _ volatile ("out" "b" " %" "b" "0, %Swl" 










































































; "a (valve);: "Na"(port))s 
} 


C.2.6 ”杂项 
还 有 3 个 条 目 不 属 于 此 前 的 各 个 类 别 。 
内 核 中 经 常 包括 以 下 种 类 的 宏 : 


drivers/block/ataflop.c 











#define FDC_ WRITE(reg,val) 9 
do { \ 
dma_ wd.dma_mode_status = 0x80 | (reg); \ 
udelay (25);} 入 
dma_wd.fdc_acces_seccount = (val); \ 
MFPDELAY (); \ 

} while(0) 

















do 语句 在 形式 上 保证 宏 被 “调用 ”时 代码 只 执行 一 次 ， 与 没有 包含 在 ao 循环 中 的 形式 相 比 ， 并 未 
改变 语义 。 如 果 这 个 宏 用 于 if 语句 或 类 似 的 语言 要 素 ， 其 优点 就 变 得 比较 清楚 了 ， 如 下 所 示 : 

if (condition) 
FDC_WRITE (a,b); 


初 看 起 来 ， 代 人 码 看 上 去 是 正确 的 ， 因 为 单行 的 if 语 句 体 可 以 《而 且 在 内 核 通 常 也 这 样 用 ) 不 使 用 
花 括 号 。 但 如 果 不 使 用 ao 来 封装 ， 在 宏 扩 展 之 后 ， 就 会 出 现 问 题 ; 
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的 。 


if (condition) 


dma_wd.dma_mode_status = 0x80 | (reg); 
udelay (25); 

dma_wd.fdc_acces_seccount = (val); 
MFPDELAY (); 


只 有 第 一 行 代码 归 入 了 i 语 句 体 。 剩余 的 行 无 论 if 条 件 是 否 成 立 都 会 执行 ,这 当然 不 是 我 们 想 要 
天 为 在 结构 上 ao 循环 算 作 一 个 语句 ， 它 可 以 保证 包含 在 宏 中 的 所 有 语 名 都 将 置 于 it 语句 体内 部 。 
在 阅读 内 核 源 代码 时 ， 还 有 两 个 语法 元 素 可 能 会 导致 一 些 混淆 ， 即 C 语 言 中 的 break 和 continue 










































































语句 。 以 下 代码 很 容易 产生 混 消 ; 


换 言 


unsigned int count; 


for (count = 0; count < 5; count++) { 
if€ (eount sa 2) +{ 
continue; 
} 
printf("eounts Su\n"; Count)s 
} 


在 执行 时 ， 代 码 将 产生 下 列 输 出 : 


wolfgang@meitner> ./continue 





count: 0 
Count: 总 
count: 3 
count: 4 

















因为 使 用 了 continue 语 句 ， 循 环 的 第 三 记过 早 地 退出 。 但 后 续 的 各 次 循环 仍然 可 以 执行 。 
如 果 将 continue 替 换 为 如 下 列 代 码 所 示 的 break 语 多， 程序 的 行为 将 发 生 改变 ; 


unsigned int count; 
































for (count = 0; count < 5; count++) { 
iE. (Ont = 2) 
break; 


} 
BEintfE ("eounts Su\n” COunt); 


} 
现在 ， 程 序 输出 如 下 : 


wolfgang@meitner> ./break 
count: 0 
count: 1 


同样 ， 第 三 裔 循环 被 终结 。 但 循环 的 处 理 此 后 没有 恢复 ， 控 制 流 转向 循环 之 后 的 代码 开始 执行 。 
之 ，break 完 全 结束 了 循环 。 
C 语 言 中 男 一 个 绊脚石 是 switch/case 的 语义 ， 如 下 例 所 示 : 


int var = 3 
switch (var 


















































t 




















» 涉 


case 1: 
printf("one\n"); break; 
case 2: 
printf("two\n"); break; 
case 3: 
printf("three\n"); 
default: 
printf("default\n"); 
} 


该 代码 产生 下 列 输出 : 
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wolfgang@meitner> ./switch 


three 
default 


























因为 对 应 于 3 的 case 语 句 并 不 包括 break 语 句 , 代码 控制 流 接 下 来 执行 了 qefault 部 分 , 这 在 通常 


情况 下 是 不 会 执行 的 。 一 般 来 说 ，switch 语 句 只 能 通过 break 语 句 退 出 (或 在 switch 语 句 本 身 的 末 





喇 4 





退出 )。 在 找到 匹配 的 case 语 名 后， 代码 将 一 直 执 行 下 去 ， 直 至 到 达 一 个 对 应 的 break 语 名 (或 到 达 








switch 语 句 的 结束 )， 无 论 此 间 


C.2.7” 双 链表 


内 核 每 个 较 大 的 数据 结构 中 几乎 都 会 出 现 双 链表 。 因此 内 核 为 实现 双 链 表 提 供 了 若 3 

















结构 ， 用 于 各 个 

















程序 设计 方面 。 





链表 的 起 点 是 下 列 数据 结构 ， 它 可 以 嵌入 到 其 他 数据 结构 中 : 


<list.h> 


的 。 第 1 章 讨 论 了 使 月 








struct list_ head { 
struct list head *next, *prev; 


}}; 














旦 .不 
是 否 会 








跨越 多 个 case 语 句 (或 default)。 


一 > 
































是 循环 的 ， 即 第 
中 第 一 个 元 素 。 



































链表 功能 的 实现 基于 0 D 机 制 ， 





口 链表 元 素 不 一 定位 于 结 








个 链表 元 素 的 前 





























前 用 函数 和 


























日 双 链表 的 API。 本 节 将 描述 其 实现 ， 其 中 涉及 C 语 言 中 通用 的 


其 成 员 的 语义 很 清楚 。next 指 向 下 一 个 链表 元 素 ， 而 prev 指 向 前 一 个 链表 元 素 。 链 表 的 组 织 


项 是 链表 中 最 后 一 个 元 素 ， 而 最 后 一 个 链表 元 素 的 下 一 项 是 链表 


于 下 列 情况 的 存在 ， 链 表 功 能 的 实现 变 得 更 为 困难 。 
构 的 起 始 处 ， 而 可 能 位 于 结构 中 任意 位 置 。 因 为 链表 的 处 
于 任何 数据 类 型 ， 如 果 选 中 的 元 素 需 要 转换 为 目标 数据 类 型 ， 这 可 能 会 导致 问题 。 
D 在 一 个 结构 中 可 以 使 用 几 个 链表 元 素 ， 以 便 将 该 结构 的 一 个 实例 放置 到 多 个 链表 上 。 







































































内 核 提 供 ， 用 于 将 对 象 嵌 入 到 其 他 对 象 中 。 如 果 








个 子 结构 B， 如 下 例 所 示 ， 则 A 称 之 为 B 的 一 个 容器 ; 


struct A { 


struct B { 
} element; 


} container 





将 新 的 链表 元 素 提 
<list.h> 
/A* 





’ 














入 到 链表 时 ， 是 不 需要 容器 的 ， 如 下 所 示 : 


* 在 两 个 连续 的 链表 项 之 间 添 加 一 个 新 项 。 




















* 该 函数 只 














] 于 链表 内 部 处 理 ， 适 用 




















于 已 经 知道 前 后 两 个 链表 项 prev/next 的 情况 


static inline void _ list add(struct list head *new, 


next->prev = new; 
new->next = next; 
new->prev = preyv; 
prev->next = new; 


struct list head *preyv, 
struct list_ head *next) 





一 口 


纤 





























里 应 该 适用 


构 A 包 含 一 
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/** 

* 1ist_add: 添加 一 个 新 的 链表 项 

* enew: 需要 添加 的 新 链表 项 
@head: 添加 在 head 链 表 项 之 后 





x* 
* 
* 在 指定 的 链表 元 素 之 后 插入 一 个 新 的 链表 项 。 

* 这 对 实现 栈 是 有 用 的 。 

x 

static inline void list add(struct list head *new, struct list_ head *head) 


{ 


























list add(new, head, head->next); 
} 


链表 元 素 的 删除 ， 也 是 经 典 的 教科 书 风 格 ， 如 下 所 示 : 


<list.h> 
#define LIST_ POISON1 ((void *) 0x00100100) 
#define LIST_ POISON2 ((void *) 0x00200200) 

















* 

通过 使 链表 项 的 prev/next 指 向 彼此 ， 来 删除 一 个 链表 项 。 
* 
* 这 只 用 于 内 部 的 链表 处 理 ， 这 种 情况 下 ， 链 表 项 的 prev/next 项 都 是 已 知 的 ! 
* 

/ 
static inline void _ list del(struct list head * prev, struct list head * next) 


{ 


























next->prev 
prev->next 


prev; 
next; 


} 


/** 

* 1ist_del: 从 链表 加 除 一 项 。 

* Qentry: 需要 从 链表 删除 的 项 。 

* 请 注意 : 此后， 对 该 链表 项 调用 1ist_empty 并 不 返回 true， 此 时 链表 项 处 于 未 定义 状态 。 
X/ 

static inline void list dell(struct list head *entry) 


{ 























_ list dell(entry->prev, entry->next); 
entry->next = LIST_POISON1:， 
entry->prev = LIST_ POISON2; 


























} 

加 除 项 的 next 和 prev 指 针 指 向 的 两 个 LIST_POISON 值 用 于 调试 , 以 便 在 内 存 中 检测 已 经 删除 的 链 
表 元 素 。 

以 下 两 个 问题 ， 可 以 揭示 链表 实现 中 最 有 趣 的 两 个 方面 : 如 何 遍历 链表 元 素 ， 如 何 从 链表 中 移 除 
























































表 项 ? 换言之 ， 如 何 从 链表 元 素 提取 潜在 的 数据 ， 如 何 从 保存 的 信息 重建 整个 结构 ? 请 注意 ， 这 里 不 


是 讨论 从 链表 删除 元 素 。 
内 核 提供 了 下 列 宏 来 衣 历 一 个 链表 : 




















<list.h> 

/** 

* ]ist_for_each_entry: 遍历 给 定 类 型 的 链表 

* Q@pos: 用 作 循 环 游标 的 类 型 

* @head: 链表 的 表 头 

* @member: 实际 数据 结构 内 部 11st_headq 实 例 的 名 称 。 
#define list_for each entry(pos, head, member) 让 
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for (pos = list _ entry( (head)->next, typeof(*pos), member); 
prefetch(pos->member.next), &pos->member != (head); AN 
pos = list_ entry(pos->member.next, typeof (*pos) ，member) ) 
DOO00000000t0r0000000000000000000000UU00 
00000000000000000000000typeof(*pos 0000000 ros00 
DUOUOOOUUO00O000 


该 例 程 的 一 个 用 法 示例 是 遍历 与 一 个 超级 块 (struct super_block) 相关 联 的 所 有 文件 〈 通 过 
struct file 表 示 )， 这 些 file 实 例 包 含 在 一 个 双 链 表 中 ， 表 头 位 于 超级 块 实例 中 ， 如 下 所 示 : 

struct Super_block *sb = get_some_ sb(); 

Steuct EiLe. *E; 

list_for each entry(f, &sb->s_ files, f_ list) { 


/* 用 于 处 理 f 中 成 员 的 代码 */ 



















































































} 


为 说 明 1list_for_each_entry， 需 要 概述 一 下 file 和 super_block 结 构 中 所 涉及 的 一 些 成 员 。 
二 者 的 重要 成 员 如 下 所 示 : 

















<fs.h> 
struct file { 
struct list_ head f_list; 
}; 
<fs.h> 


struct guper block 蒜 


struct list_head s_files; 


super_block->s_files 用 作 链 表 的 起 始点 ， 其 中 存储 了 file 类 型 的 链表 项 。file->f_1list 用 
作 链 表 元 素 ， 用 于 建立 各 链表 项 之 间 的 关联 。 

链表 元 素 的 遍历 分 为 以 下 两 个 阶段 。 

(1) 查找 下 一 项 的 list_head 实 例 。 这 与 链表 中 保存 的 具体 数据 结构 无 关 。 内 核 通过 反 引 用 当前 
链表 元 素 的 next 成 员 ， 就 可 以 找到 下 一 个 链表 元 素 的 位 置 。 
插入 的 prefetch 语 句 向 编译 器 提供 信息 ， 说 明 哪 些 数据 应 该 优先 从 内 存 传输 到 处 理 器 的 高 速 绥 
存 中 。 在 遍历 链表 时 ， 这 对 查找 下 一 项 特别 有 用 。 
(2) 查找 链表 元 素 的 容器 对 象 实例 。 其 中 包含 了 有 用 数据 , 通过 1ist_entry 宏 查找 , 将 在 下 文 讨论 。 
用 于 链表 的 循环 结构 ， 内 核 很 容易 检测 何 时 已 经 遍历 完 所 有 链表 元 素 。 到 达 链 表 尾 部 时 ， 当 前 链 
项 的 next 成 员 将 指向 由 heagd 指 定 的 链表 头 。 
list_entry 定 义 如 下 : 
<list.h> 


define list_entry(ptr, type, member) \ 
container_of (ptr, type, member) 


ptr 是 一 个 指向 链表 元 素 的 指针 , type 指 定 了 容器 对 象 的 类 型 (本 例 中 是 struct file), 而 member 
定义 了 容器 的 哪个 元 素 表 示 当 前 链表 的 链表 元 素 ( 本 例 是 f_1ist, 因为 链表 元 素 由 file->f_1ist 表 示 )。 
list_entry 通 过 此 前 提 到 的 容器 机 制 实现 。 以 下 是 container_of 的 定义 , 初 看 起 来 可 能 有 点 困惑 : 


<kernel.h> 
#define offsetof (TYPE, MEMBER) ((size t) &((TYPE *)0)->MEMBER) 
/大 大 
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* container_of 从 结构 的 成 员 来 获得 包含 成 员 的 结构 实例 
* @ptr: 指向 成 员 数 据 的 指针 
* @type: 所 嵌入 到 的 容器 结构 的 类 型 。 
* @member: 成 员 在 结构 内 的 名 称 。 
Rf 
#define container of (ptr, type, member) ({ 
const typeof( ((type *)0)->member ) * mptr = (ptr); N 
(type *)( (char *)_ mptr -offsetof (type,member) );}) 
在 本 例 中 ，offsetof 宏 展开 如 下 为 便于 阅读 ， 已 经 忽略 了 一 些 括号 ): 
(size 七 ) &((struct file *)0)->f_ list 
通过 类 型 转换 ， 将 空 指针 0 转换 为 一 个 指向 struct file 的 指针 。 这 是 允许 的 ， 因 为 我 们 并 不 反 
引用 该 指针 。 接 下 来 执行 的 -> 和 &《〈 请 注意 C 语 言 的 运算 符 优 先 级 ) 获得 的 地 址 ， 计 算出 了 E_1ist 成 
员 相 对 于 struct file 实 例 的 偏 移 量 。 在 例子 中 ， 该 成 员 直 接 位 于 该 结构 的 起 始 处 ， 因 而 返回 的 值 是 
0。 如 果 链 表 元 素 位 于 具体 数据 结构 的 其 他 位 置 ， 则 该 宏 返 回 一 个 正 的 偏 移 量 。 如 下 所 示 : 
struct test { 
Nt a 
int b; 
struct list head *f_ list; 
TE ey 
于 
long diff = (long)&((struct test*)0)->f_list; 
brintf("Offset: SLld\n"; Qiff)s 
该 程序 将 得 出 一 个 8 字 节 的 偏 移 量 ， 因 为 需要 跳 过 两 个 4 字 节 的 整 型 变量 ， 才 能 到 达 f_list。 
如 果 使 用 下 列 变 体形 式 ， 而 不 是 此 前 的 struct test 定 义 ， 那 么 程序 返回 的 偏 移 量 将 为 0: 
struct test { 
struct list head xf list; 
int a; 
int. bs 
Tnt Cs 
}3 
有 了 这 一 信息 之 后 ，container_of 守 就 能 够 着 手提 取 容 器 数据 结构 的 实例 。 在 例子 中 ， 代 码 展 
开 如 下 : 
const (Struct file*) _ mptr = {ptr); 
(struct file *)( (char *)_ mptr -offset; 
ptr 指 向 容器 元 素 中 的 1ist_head 实 例 。 内 核 首 先 创建 一 个 指针 ”mptr， 其 值 与 ptr 相 同 ， 但 指 
可 所 要 求 的 目标 数据 类 型 struct file。 接 下 来 ， 使 用 此 前 计算 的 偏 移 量 来 移动 _mptr， 使 之 不 再 指 
可 链表 元 素 ， 而 是 指向 容器 对 象 实例 。 为 确保 指针 运算 是 按 字 节 执 行 的 ， 先 将 ”mptr 转 换 为 char * 
指针 。 但 在 计算 完成 后 的 赋值 操作 中 ， 又 转换 回 原来 的 数据 类 型 。 
C.2.8 散 列表 


内 核 还 提供 了 一 个 双 链 表 的 修改 版 本 ， 特 别 适 
表 元 素 也 髓 入 到 其 他 数据 结构 中 


<list.h> 
struct 


}3 




















hlist_ head { 




















struct hlist node *first; 


] 于 实现 散 列 表 中 的 溢出 链表 。 在 这 种 情况 下 ， 
但 表 头 和 链表 元 素 是 不 对 称 的 : 





链 
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struct hlist_nodqe { 
struct hlist _ node *next, 


过 
链表 元 素 

















问 ， 但 对 散 列 表 来 说 ， 这 通常 是 不 需要 的 。 
不 是 两 个 。 为 操作 散 
必须 将 1ist 蔡 换 为 hlist。 
变 成 hlist_qel。 所 有 这 些 都 相当 合乎 逻辑 。 

类 似 于 链表 ， 可 以 使 用 RCU 机 制 来 防 
作 必 须 增加 后 级 _rcu, 例如 hlist_qdel_rcu 用 于 删除 一 个 散 











只 需要 存储 一 个 指针 ，1 


差别 在 于 ， 

















**pprev; 


自身 仍然 是 双 链 ， 但 表 头 和 链表 只 通过 一 个 指针 关联 。 链 表 的 末端 无 法 
这 样 ， 包 含 hlist_heaq 的 结构 就 稍 














上 





再 用 常数 时 间 访 
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大 | | 













































































见 第 5 章 的 讲述 。 
C.2.9 红 黑 树 

0D0D0 (RB 树 ) 在 实现 内 存 管理 时 ， 用 于 将 排序 的 元 素 组 织 到 树 
中 的 数据 结构 ， 因 为 它们 在 速度 和 实现 复杂 度 之 间 , 提供 了 一 个 很 好 的 结合 。 
内 核 中 使 用 的 该 数据 结构 的 一 般 特 怕 
了 相关 内 容 )。 

红 黑 树 是 具有 下 列 特 征 的 二 又 树 。 














口 如 果 结 点 为 红 



































红 黑 树 的 一 个 优点 是 ， 所 有 重要 的 树 操 作 〈 插 入 、 
成 ，n 是 树 中 元 素 的 数目 。 

为 表示 RB 树 的 结 点 ， 其 数据 结构 不 仅 需 要 指向 子 结 点 的 指针 和 保存 有 用 数据 的 
个 成 员 来 保存 颜色 信息 。 内 核 通过 以 下 定义 来 实现 RB 树 的 结 点 

<rbtree.h> 

#define RB_RED 0 

#define RB_BLACK 二 





struct rb_node 


{ 


口 每 个 结 点 或 红 或 黑 
口 每 个 叶 结 点 〈 或 树 边 缘 的 结 点 ) 是 黑色 的 。 
色 ， 那 么 两 个 子 结 点 都 是 黑色 
径 上 ， 都 不 会 有 两 个 连续 的 红 
口 从 一 个 内 部 结 点 到 叶 结 点 的 简单 路 径 上 ， 对 所 有 叶 
川 除 、 搜 索 元 素 ) 都 可 以 在 OUdog nn) 时 间 内 完 








o 























大 | 











| 表 ， 实 际 上 可 以 使 
]，1ist_adqd_head 将 变 成 hlist_adg_ head，1ist_gdel 将 


微 变 小 了 一 点 ， 

















与 普通 链表 相 











上 针对 散 列 表 的 并 发 访问 。 如 果 需 要 这 样 做 ， 那 么 散 列 表 
列表 元 素 。 对 RCU 机 制 提供 的 保护 ， 请 参 


























色 结 点 ， 但 可 能 有 任意 数 



























































unsigned long rb parent color; 
int rb color; 
strict rb node *rb right:; 
struct rb node *rb_left; 
} _attribute ((aligned(sizeof (long)))); 





尽管 
rb_parent_color 中 : 














特 位 中 。 该 变量 其 余 的 比特 位 








少 要 求 对 齐 到 4 字 节 边界 ， 


信 ， 











在 结构 定义 不 能 直 


条 老 
人 








护 了 


接 看 到 ， 但 内 核 维 
































结 点 来 说 ， 黑 色 结 点 的 数 








一 个 比特 位 用 于 表示 两 种 
自 于 保存 父 结 点 指针 。 这 是 可 能 的 ， 


Ek 
































颜色 ， 该 信息 





人 一 口 人 AN\o 

















司 的 API。 


目 都 是 相 





因为 
的 























hh。RB 树 经 常用 作 计算 机 科学 
本 节 讲 述 了 RB 树 以 及 在 
E， 而 不 讨论 可 能 的 RB 树 操作 的 实现 (经 典 的 算法 教科 书 





已 经 涵 广 








而 ， 在 从 树 的 根 结 点 到 任意 叶 结 点 的 任何 路 
的 连续 黑色 结 点 


同 的 。 




















个 指向 父 结 点 的 附加 指针 。 
在 rb_parent_color 最 低 的 比 





包含 


因为 在 所 有 体系 结 



































因而 最 低 的 两 个 比特 位 保证 为 0。 但 7 





在 反 引 








用 该 指针 之 前 ， 








妃 从 指针 中 屏蔽 出 去 ， 包 


1 下 所 示 : 


了 段 ， 还 需要 一 


它 隐 藏 在 





构 上 ， 指 针 都 至 
内 核 必须 将 颜色 
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<rbtree.h> 


#define Tb_ parent ( 工 ) 








颜色 信息 还 必须 


<rbtree.h> 


#define rb_ color(r) 


另外， 内 核 还 提供 了 便捷 函数 ， 能 够 


<rbtree.h> 


#define rb is red(r) 
#define rb is black(r) 
#define rb_set_red 
#define rb _ set black(r) 


与 结 点 关联 的 有 用 数 和 
现 部 分 已 经 了 解 到 ) 将 结 
数据 : 








<rbtree.h> 


#define rb_entry(ptr, 
为 确保 RB 树 的 实现 是 通用 的 ， 并 不 受 限 于 内 存 管 
如 ， 旋 转 操作 )， 这 些 实现 

例如 ，Ext3 文 件 系 统 使 
的 容器 。 


fs/ext3/dir.c 


struct fname { 


U32 
32 


struct rb_node 
struct fname 


贡 3 有 2 
-ug 
-ug 
Ghar 
人 
搜索 和 操 





因而 实现 非常 容易 。 捐 
用 于 完成 该 操作 )。 接 下 来 必须 调 
前 描述 的 各 个 准则 。<rbtree.1 


C.2.10 ”基数 树 
内 核 中 第 二 种 以 库 





所 一 








直 进 行 上 
算法 教科 书 。 

















lib/radix-tree.c 
#define RA. 
#define RA. 
#define RA. 




















(Tr COl10r(r 


do { 











点 实现 为 有 


type, 

















jRB 树 在 物 到 














入 操作 必须 





( (Struct rb node *)(( 


一 个 专门 的 宏 获 取 ， 如 下 所 示 : 























) ) 
EGGlees(e) 
(r)->rb parent color &= ~1; } while (0) 


r)->rb parent_ color & ~3)) 


r)->rb_parent_color & 1) 


区 分 和 设置 结 点 的 颜色 ， 如 下 所 示 : 








do { (r)->rb parent color |= 1; } while (0) 














member) 





局 并 不 通过 男 一 个 成 员 来 关联 ， 相 反 ， 内 核 使 用 了 容器 机 制 ( 读 者 在 链表 实 
用 数据 的 一 部 分 。 内 核 提供 了 下 列 宏 ， 来 访问 包含 RB 结 点 的 有 用 





container_of (ptr, type, member) 











Elib/rbtree.c 中 。 




















里 ， 内 核 只 提供 了 操作 树 的 通用 标准 函数 〈 例 


























hash; 


minor_hash; 


rb_hash; 
*next; 
inode; 
name_len; 
file type; 
name[0]; 




















供 的 树 实 3 











较 。 这 与 其 人 
另外 ， 基 数 树 不 是 特别 


在 内 核 源 代 码 中 ， 基 数 树 的 结 








EE 内存 




















P 对 目录 项 排序 。 按 此 前 的 讲述 ， 数 据 项 实现 为 结 点 








使 用 红 黑 树 的 各 子 系统 分 别提 供 。 搜 索 与 二 又 树 中 普通 的 搜索 是 相同 的 ， 
时 必须 将 新 的 数据 元 素 以 红色 叶 结 点 的 形式 置 于 树 中 (rp_1link_node 可 
用 rb_insert_color 标 准 函 数 ， 以 重新 平衡 该 树 ， 使 之 仍然 遵守 此 
包含 了 一 些 例子 ， 子 系统 提供 的 函数 可 基于 这 些 实现 。 




































































现 是 基数 树 ， 





居于 在 内 存 中 组 织 数据 。 基 数 树 不 同 于 其 他 树 ， 




















DIX_TREF 
DIX PT 
DIX_T 























HIFT (CONFIG_BAS 
EE_MAP_SIZE (1UL << RA 
EE MAP _ MASK (RADIX_TRE 



































办 为 它 不 必 在 每 个 分 支 上 都 比较 整个 键 值 ， 在 进行 搜索 操作 时 ， 只 需要 将 键 值 的 一 部 分 与 结 点 中 存储 
上 ， 在 最 坏 情况 下 和 平均 情况 下 的 行为 稍 有 不 同 ， 
难于 实现 ， 这 也 增加 了 其 吸引 力 。 

寺 点 数据 结构 定义 如 下 ; 








AN 


多 细节 请 参考 相 





























E_SMALL ? 4 : 6) 
DIX_ TREE MAP_SHIFT) 
E_MAP_SIZE-1) 
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struct radix tree node { 
unsigned int height; /* 从 底部 开始 计算 的 高 度 */ 
unsigned int count; 
struct rcu_ head rcu_ head; 
voLd *Sslots[RADIX TREE MAP_SIZE]; 
unsigned long tags [RADIX TREE MAX_ TAGS] [RADIX_ TREE TAG LONGS]; 














站 
slots 是 一 个 指针 数组 ， 根 据 结 点 在 树 中 的 层次 ， 指 向 其 他 结 点 或 数据 元 素 。count 表 示 数 组 











UD 
































二 


的 数组 项 的 数目 。 代 码 片段 中 定义 的 宏 , 指定 了 每 个 结 点 中 包含 的 数组 项 的 数目 。 默认 情况 下 ， 
使 用 24 = 64。 空 的 数组 项 设置 为 NULL 指 针 。 
每 个 树 结 点 都 可 以 与 0 口 关联 ， 标 记 对 应 于 一 个 置 位 或 未 置 位 的 比特 位 。 每 个 结 点 最 多 有 










































































RADIX_TREE_MAX_TAGS 个 不 同 的 标记 ， 默 认 值 是 3。 这 对 页 缓存 的 使 用 已 经 足够 了 。 








使 得 
组 项 




















RCU 机 制 ( 在 第 5 章 讲 过 〉 用 于 对 基数 树 进行 无 锁 查 找 。 

一 个 数组 用 于 表示 标记 ， 数 组 项 类 型 为 unsigned long，RADIX_TREE_TAG LONGS 由 内 核 计算 ， 

为 保存 标记 分 配 足够 的 内 存 空间 。 一 个 有 RADIX_TREE_MAX_TAGS * RADIX_TREE_TAG_LONGS 个 数 
的 long 型 数组 ， 包 含 了 足够 的 比特 位 ， 可 以 向 slots 中 每 个 数组 项 都 附加 RADIX_TREE_MAX_TAGS 





































































































个 标记 。 函 数 radix_tree_tag_set 和 radix_ tree_tag_clear 分 别 用 于 设置 和 清除 标记 比特 位 。 请 


Ss 
注 忌 














， 标 记 不 仅仅 设置 到 叶 结 点 ， 而 是 从 根 到 页 的 每 个 结 点 都 会 设置 。 
树 的 根 结 点 由 下 列 数据 结构 定义 (请 注意 ， 该 定义 存在 于 一 个 公开 的 头 文件 中 ， 这 与 树 结 点 的 定 


















































义 相 反 ): 


实例 


<radix-tree.h> 
struct radix tree root { 

















unsigned int height; 

UEm. gfp_mask; 

struct radix_ tree node *rnode; 
和 
height 指 定 了 树 当 前 的 高 度 ， 而 *noqe 指 向 第 一 个 结 点 。gfp_mask 指 定 了 构建 树 所 需 的 数据 结构 
从 哪个 内 存 域 分 配 。 














树 可 容纳 结 点 的 最 大 数目 ， 可 以 从 树 的 高 度 〈 即 结 点 层次 数目 ) 直接 推出 。 内 核 提供 了 下 列 函 数 





























来 计算 高 度 : 


lib/radix-tree.c 
static inline unsigned long radix tree maxindex(unsigned int height) 
{ 

return height to maxindex[height]; 


} 
height_to_maxindex 是 一 个 数组 ， 其 中 存储 了 对 应 于 不 同 树 高 度 的 最 大 结 点 数目 。 这 些 数目 在 

















系统 初始 化 时 计算 ， 如 下 所 示 : 


lib/radix-tree.c 

#define RADIX TREE INDEX _ BITS (8 /* CHAR_ BIT */ * sizeof (unsigned long)) 

#define RADIX TREE MAX PATH (DIV_ROUND_ UP (RADIX TREE_ INDEX_ BITS, \ 
RADIX_ TREE MAP_SHIFT)) 
































lib/radix-tree.c 
static _ init unsigned long _ maxindex(unsigned int height) 
{ 
unsigned int width = height * RADIX TREE MAP_SHIFT; 
int shift = RADIX TREE_ INDEX BITS - width; 
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if (shift < 0) 





return ~0UL; 
if (shift >= BITS_PER_ LONG) 
return OUL; 
return ~0UL >> shift; 
} 
static _ init void radix tree_ init maxindex(void) 
{ 
unsigned int i; 
for (i = 0; i < ARRAY_SIZE(height to maxindex); i++) 
height to maxindex[i] = _ maxindex(i); 
} 














在 运行 时 ， 只 需要 进行 简单 的 数组 查找 ， 因 此 执行 得 非常 快速 。 这 一 点 是 很 重要 的 ， 因 为 对 给 定 

树 高 度 求 结 点 最 大 数目 的 计算 是 经 常 进 行 的 。 
树 中 包含 的 结 点 ， 由 一 个 描述 符 来 标识 ， 其 值 范 围 从 0 到 树 当 前 可 以 存储 的 最 大 结 点 数目 。 
radix_tree_insert 用 于 将 一 个 新 结 点 插入 到 基数 树 ， 如 下 所 示 : 


lib/radix-tree.c 
static inline void *radix tree indirect to_ ptr(void *ptr) 


{ 






























































return (void *) ((unsigned long)ptr & ~RADIX TREE_ INDIRECT PTR); 
} 


int radix tree_ insert(struct radix_ tree _ root *root, 
unsigned long index, void *item) 
{ 
struct radix_ tree node *node = NULL, *slot; 
unsigned int height, shift; 
int offset; 
int error; 


/* 确认 树 足 够 高 。*/ 

If (index > radix tree maxindex(root->height)) f{ 
error = radix tree extend(root, index); 
if (error) 

return error; 


} 
slot = radix tree indirect to_ ptr(root->rnode) 


height = root->height; 

shift = (height-1) * RADIX TREE MAP_SHIFT; 
offset = 0; /* 避免 未 初始 化 变量 的 警告 */ 
while (height > 0) { 


if (slot == NULL) { 
/* 必须 添加 一 个 子 结 点 */ 
if (!(slot = radix tree node alloc(root))) 


return -ENOMEM; 
if (node) { 
rcu_ assign pointer (node->slots[loffset], slot); 
node->count++; 
} else 
rcu assign _ pointer (root->rnode, 
radix tree ptr to_ indirect (slot)); 
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| 








/* 向 下 一 层 */ 
offset = (index >> shift) & RADIX TREE MAP MASK; 
node = slot; 
Slot = node->slots[loffset]; 
shift -= RADIX TREE MAP_ SHIFT; 
height--; 
} 
if (slot != NULL) 


return ~-EEXIST:; 


if (node) { 

node->count++; 

rcu assign pointer (node->slots[offset], item) 
} else { 

rcu assign pointer(root->rnode, item); 


} 


return 0; 








如 果 结 点 的 描述 符 大 于 当前 可 处 理 的 结 点 数目 ， 则 必须 将 树 扩大 ， 稍 后 会 讲解 。 
上 述 代 码 从 根 结 点 开始 自 顶 向 下 遍历 树 ， 而 搜索 的 路 径 完全 由 查找 的 键 值 定义 。 根 据 当 前 在 树 中 
所 处 的 位 置 ， 会 选择 键 值 的 某 些 部 分 ， 在 slots 数 组 中 查找 与 之 匹配 的 项 ， 然 后 向 下 一 层 。 这 正好 是 
















































































基数 树 的 特征 。 裔 历 树 是 为 分 配 尚 不 存在 的 分 支 。 在 完成 后 树 高 并 0 口 口 ， 因 为 树 可 以 只 增长 宽度 。 


























在 代码 到 达 层 次 0 之 后 , 会 将 新 结 点 插入 到 匹配 的 slots 数 组 项 中 。 由 于 该 树 受 RCU 机 制 的 保护 ,不 能 














对 数据 指针 直 











谨 : 

















接 赋值 ， 只 能 通过 rcu_assign_pointer， 这 在 第 $ 章 讨论 过 。 





























树 的 高 
它 在 内 核 源 

















radix_tree_extend 修 改 。 如 有 必要 ， 在 radix_tree_insert 开 始 时 会 调用 该 函数 。 











尺码 中 定义 如 下 : 


lib/radix-tree.c 
static int radix tree extend(struct radix tree root *root, unsigned long index) 


{ 


struct radix_tree node *node; 
unsigned int height; 
int tag; 





/* 算出 树 应 该 具有 的 高 度 。 */ 
height = root->height + 1; 
while (index > radix tree maxindex (height)) 


height++; 
if (root->rnode == NULL) { 
root->height = height; 
DGEG out; 
} 
do { 
if (!(node = radix tree node alloc(root))) 











return -ENOMEM; 


/* 增加 高 度 。 */ 
node->slots[0] = radix tree indirect to ptr(root->rnode) 




















/* 将 聚集 的 标记 信息 传播 到 新 的 根 结 点 */ 





UUC UUOCUU0OU0DUDU 983 





out: 


} 





Eor (tay 








if (root tag get (root, 


tag_set (node, 


} 


newheight = root->height+1; 
node->height = newheight; 
node->count = 1; 


tag)) 
tag, 0); 


node = radix tree ptr_ to_ indirect (node); 


rcu assign pointer (root->rnode 
root->height = newheight; 
} while (height > root->height); 


return 0; 





取决 于 新 的 最 大 索引 值 ， 可 





8 还 需要 向 树 增加 一 层 。 


, node); 


0; tag < RADIX_ TREE MAX TAGS; tag++) { 
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内 核 提 供 了 radix_tree_lookup 隙 数 ， 在 基数 树 





lib/radix-tree.c 
void *radix tree_ lookup(struct radix tree root *root, unsigned long index) 


{ 


unsigned int height, shift; 
struct radix_ tree node *node, **slot; 
node = rcu_dereference(root->rnode); 
if (node == NULL) 

return NULL; 




















if (!radix tree is_ indirect ptr(node)) { 


if (index > 0) 
return NULL; 
return node; 


} 


node = radix tree indirect to ptr (node); 


height = node->height; 


if (index > radix tree maxindex (height)) 


return NULL; 


T 








shift = (height-1) * RADIX TREE MAP_SHIFT; 


do { 





Slot = (struct radix_ 
(node->slots + ((i 


tree_node **) 
ndex>>shift) 


node = rcu_ dereference(*slot); 


if (node == NULL) 
return NULL; 


shift -= RADIX_ TREE MAP_SHIFT; 


height--; 
} while (height > 0); 


return node; 


& RADIX_TR 


中 根据 键 值 查找 结 点 ， 如 下 所 示 : 





E_MAP_ MASK)); 
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逻辑 上 , 用 于 遍历 树 的 算法 与 此 前 插入 新 结 点 时 讲述 的 算法 是 相同 的 。 但 搜索 是 一 个 简单 的 操作 ， 


内 核 无 须 关 注 分 配 新 分 支 的 问题 。 如 果 在 树 包 





( 即 不 存在 )， 那 么 搜索 的 目 


C.3 


C 是 一 个 斯 巴 达 式 ”的 语言 。 


朴素 ，1 





可 读 和 不 可 


小 结 
































某 个 高 度 ， 查 找 过 程 遇 到 一 个 slots 数 组 项 为 NULL 指 针 











标 结 点 就 不 在 树 中 。 因 而 ， 可 以 立即 结束 搜索 ， 并 返回 一 个 NULL 指 针 。 

















BC 语言 允许 使 用 许多 内 行 技巧 ， 这 些 技巧 可 能 发 挥 
全 护 的 代码 。 本章 









































初 看 起 来 ， 人 们 可 能 将 其 等 同 




















简单 ，{ 











日 事实 上 完全 相反 。 虽然 比较 











述 了 C 语 言 的 一 些 比较 非 标 ;# 





良好 的 作用 ， 也 可 能 被 滥用 ， 导 致 建立 不 









































性 来 从 硬件 中 压榨 出 最 后 百 








全 的 特性 ， 在 内 核 开 发 中 需要 利用 这 些 特 





分 之 一 的 性 能 。 本 章 还 向 读者 简要 介绍 了 GNU C 编 译 器 的 内 部 情况 ， 以 及 
一 些 优化 技术 。 另 外 ， 本 章 还 讲述 了 一 些 对 C 语 言 的 扩展 ， 内 核 开 发 中 大 量 使 用 了 此 类 扩展 。 








最 后 ， 本 章 介绍 了 一 些 标准 数据 结构 。 内 核 源 代码 大 量 



































得 尽 可 能 通用 ， 这 又 需要 利 














jC 语言 的 一 些微 妙 之 处 。 








斯 巴 达 人 轻视 文化 教育 。 
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二 少年 只 要 求 会 写 命令 























便条 就 可 以 。 这 里 借 来 形容 














使 用 了 这 些 数据 结构 ， 因 此 它们 必须 实现 





语言 是 一 种 简单 的 语言 。 


一 一 编者 注 





























2 内 核 在 执行 通常 的 任务 之 前 ， 会 经 历 一 个 加 载 和 初始 化 的 阶段 。 尽 管 
普通 应 用 程序 对 该 阶段 不 是 特别 感 兴趣 ， 但 内 核 作为 中 枢 的 系统 层 ， 必 须 解 决 若 干 特定 的 
ee 启动 阶段 划分 为 以 下 3 个 部 分 。 
口 内 核 载 入 物理 内 存 ， 并 创建 最 小 化 的 运行 时 环境 。 
口 转移 到 内 核 中 《平台 相关 ) 的 机 器 码 ， 并 初始 化 基本 的 系统 功能 ， 初 始 化 代码 是 特定 于 系统 
的 ， 用 汇编 语言 编写 
口 转移 到 初始 化 代码 中 平台 无 关 的 部 分 ， 用 C 语 言 编写 ， 并 完成 所 有 子 系统 的 初始 化 ， 最 后 切换 
到 正常 运作 模式 。 
通常 ， 由 启动 装载 程序 负责 第 一 阶段 。 其 任务 很 大 程度 上 依赖 于 具体 的 体系 结构 所 要 求 完 成 的 工 
作 。 因 为 只 有 深入 了 解 特定 处 理 器 的 特性 和 问题 ， 才 能 理解 第 一 阶段 的 所 有 细节 ， 特 定 于 体系 结构 的 
参考 手册 是 一 个 很 好 的 信息 来 源 。 第 二 阶段 与 硬件 的 相关 度 也 很 高 。 因 而 ， 本 附录 只 介绍 IA-32 体 系 
结构 的 一 些 关 键 知 识 。 
在 第 三 阶段 ， 即 系统 无 关 的 初始 化 阶段 ， 内 核 已 经 载 入 内 存 ， 而 《在 某 些 体系 结构 上 ) 处 理 器 已 
经 由 启动 模式 切换 为 执行 模式 ， 内 核 接 下 来 将 开始 运行 。 在 IA-32 机 器 上 ， 必 须 将 处 理 器 从 8086 仿 真 
模式 (系统 启动 即 激活 该 模式 ) 切换 到 0 口 口 口 ， 这 样 系统 才 具 备 32 位 处 理 能 力 。 其 他 体系 结构 也 需 
要 设置 工作 ， 例 如 ， 通 常 必须 显 式 激活 分 页 ， 必 须 将 核心 系统 组 件 置 于 定义 好 的 初始 状态 ， 以 便 系统 
开始 运作 。 所 有 这 些 任务 都 必须 以 汇编 语言 编码 ， 因 而 不 会 成 为 内 核 中 最 吸引 人 的 部 分 。 
专注 于 启动 的 第 三 阶段 ， 使 得 我 们 无 须 在 许多 体系 结构 相关 的 琐 导 事 务 上 浪费 时 间 ， 而 且 还 有 一 
个 优点 ， 一 般 说 来 ， 剩 余 操 作 的 顺序 是 与 内 核 运 行 的 特定 平台 无 关 的 。 


D.1 IA-32 系统 上 与 体系 结构 相关 的 设置 
在 使 用 启动 装载 器 (如 LILO、GRUB 等 ) 将 内 核 载 入 物理 内 存 之 后 ， 将 通过 跳 转 语句 ， 将 控制 流 
切换 到 内 存 中 适当 的 位 置 ， 来 调用 arch/x86/boot/header.S 中 的 汇编 语言 “函数 ”setup。 这 是 可 
能 的 ， 因 为 setup 函 数 总 是 位 于 目标 文件 中 的 同一 位 置 。 

该 代码 执行 下 列 任务 ， 这 需要 许多 汇编 代码 。 

() 它 检 查 内 核 是 否 加 载 到 内 存 中 正确 的 位 置 。 为 此 ， 它 使 用 一 个 4 字 节 的 特征 标记 ， 该 标记 在 编 
译 时 集成 到 内 核 映 像 中 ， 并 且 总 是 位 于 物理 内 存 中 一 个 不 变 的 正确 位 置 。 

(2) 它 确 定 系统 内 存 的 大 小 。 

(3) 初始 化 显卡 。 

(4) 将 内 核 映 像 移 动 到 内 存 中 的 某 个 位 置 ， 使 得 在 后 续 的 解压 缩 期 间 ， 了 映像 不 会 自 阻 其 路 。 

(5) 将 CPU 切换 到 保护 模式 。 
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在 完成 这 些 任务 后 ， 代 公分 支 到 startup_32 消 数 ( 位 于 arch/x86/boot/compressed/head_ 
32.S) ， 该 函数 将 执行 下 列 任务 。 

(1) 创建 一 个 临时 内 核 栈 。 

(2) 用 0 字 节 填充 未 初始 化 的 内 核 数 据 。 相 关 的 区 域 位 于 _eqata 和 _endq 常 数 指定 的 位 置 之 间 。 在 
内 核 链 接 时 ， 会 根据 内 核 二 进 制 文件 ， 自 动 对 这 些 常数 设置 正确 的 值 。 

(3) 调用 arch/x86/boot/compressed/misc_32.c 中 的 C 语 言 例 程 decompress_kernel。 该 函数 
将 解压 缩 内 核 , 并 将 未 压缩 的 机 器 码 写 入 从 0x100000 开 始 的 内 存 区 , “这 刚好 紧 接着 内 存 的 第 1 个 MiB。 
解压 缩 是 内 核 执 行 的 第 一 个 操作 , 屏幕 上 可 以 看 到 的 消息 是 Uncompressing Linux. . .和 Ok, booting 
the kernel,。 

现在 ， 开 始 特 定 于 处 理 器 的 初始 化 过 程 的 最 后 一 部 分 工作 ， 首 先 要 将 控制 流 重 定向 到 arch/x86/ 
kernel/heagd_32.s 中 的 Startup_ 32。 
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这 部 分 代码 负责 执行 下 列 任务 。 

(1) 激活 分 页 模式 ， 设 置 一 个 最 终 的 内 核 栈 。 

(2) 用 0 字 节 填充 _bss_start 和 _ bss_stop 之 间 的 .bss 段 。 

(3) 初始 化 中 断 描 述 符 表 。 但 所 有 中 断 的 处 理 程序 都 设置 为 gnore_int 空 例 程 ， 实 际 的 处 理 程序 
在 之 后 安装 。 

(4) 检测 处 理 器 类 型 。cpuig 语 句 可 用 于 识别 比较 新 的 处 理 器 模型 。 它 可 以 返回 有 关 处 理 器 类 型 及 
其 能 力 的 有 关 信 息 ， 但 它 并 不 区 分 80386 和 80486 处 理 器 。 这 两 种 处 理 器 是 通过 各 种 汇编 语言 技巧 来 区 
分 的 ， 不 过 这 些 技巧 既 无 趣 也 不 重要 。 

平台 相关 的 初始 化 现在 已 经 完成 ， 代 码 将 分 文 到 start_kernel1 函 数 。 不 同 于 此 前 的 代码 ， 该 函 
数 实现 为 一 个 普通 的 C 函 数 ， 因 而 更 容易 处 理 。 
D.2 高 层 初 始 化 

start_kernel 用 作 一 个 分 配器 函数 ， 来 执行 各 种 平台 无 关 /相关 的 任务 ， 所 有 这 些 都 是 用 C 语 言 
实现 的 。 它 负责 调用 几乎 所 有 的 内 核子 系统 的 高 层 初 始 化 例 程 。 用 户 可 以 识别 出 内 核 在 何 时 进入 到 这 
个 初始 化 阶段 ， 因 为 该 函数 最 初 的 操作 中 就 要 将 Linux 的 标识 显示 在 屏幕 上 。 例 如 ， 在 作者 的 某 个 系 
统 上 会 显示 下 列 信 息 : 


Linux version 2.6.24-default (wolfgang@schroedinger) (gcc version 4.2.1 (SUSE 
Linux)) #1 SMP PREEMPT Thu Mar 20 00:17:06 CET 2008 


加 
Oo 
在 后 续 的 操作 中 , 屏幕 输出 的 数量 会 大 增 , 因为 被 初始 化 的 子 系统 会 在 控制 台 显 示 很 多 状态 信息 。 
这 种 信息 很 有 用 ， 特 别 是 对 于 排除 故障 。 
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G 如 果 内 核 联 编 为 可 重 定位 的 二 进 制 映像 ， 该 地 址 可 以 是 不 同 的， 但 此 场景 与 这 里 无 关 。 
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以 下 各 节 将 主要 讲述 与 start_kernel 相 关 的 各 种 内 容 ， 以 便 阔 明 在 体系 结构 相关 阶段 结束 后 、 
内 核 的 启动 过 程 。 
D.2.1 子 系统 初始 化 

图 D-1 给 出 了 一 份 代码 流程 图 ， 简 要 说 明了 该 函数 的 任务 和 作用 。 





























start_kernel 





























显示 版 本 信息 














特定 于 体系 结构 的 、 内 存 管 理 的 高 层 设置 












计算 命令 行 参数 











初始 化 大 多 数 子 系统 的 核心 数据 结构 











确定 处 理 器 和 系统 错误 


























生动 idle 进 程 和 init 线 程 














































































































图 D-1 start-kerne1 涵 数 的 代码 流 程 图 
第 一 步 是 输出 版 本 信息 。 信 息 的 文本 保存 在 linux_banner 全 局 变量 中 ， 其 定义 在 init/ 
version.c 里 。 接 下 来 是 一 项 与 体系 结构 比较 相关 的 初始 化 步骤 ,该 步骤 不 再 处 理 底层 的 处 理 器 细节 ， 
而 是 用 C 语 言 编 写 的 。 在 大 多 数 系统 上 ， 其 主要 任务 都 是 设置 一 个 框架 ， 用 于 高 层 内 存 管理 子 系统 的 
初始 化 。 在 启动 上 传递 给 内 核 的 命令 行 参数 解释 之 后 ， 大 部 分 初始 化 工作 在 start_kernel 中 进行 ， 


即 设 置 各 个 内 核子 系统 的 中 届 





区 数据 结构 。 该 任务 涉及 鼎 广 ， 








该 任务 分 解 为 许多 简短 的 过 


























时 将 调用 该 进程 。 该 函数 ; 
间 进 程 ， 其 PID 为 1。 这 就 
1 
顾 名 思 
管理 各 个 方面 的 初始 化 。 
构 。 在 某 些 有 若干 变 体 的 
为 简明 起 见 ， 本 节 只 考 
D-2 给 出 了 对 

















setup_arch 








A 














后 








加 








项 





. 特定 于 体系 结构 的 设置 


侈 如， 在 大 多 
体系 结构 〈 例 如 ，IA-64 和 Alpha) 上 ， 此 时 将 执 
察 setup_arch 在 IA-32 系 统 上 的 实现 ， 我 们 在 第 3 章 简 自 
应 的 代码 流程 图 。 























于 体系 结构 的 


竺 定 于 
数 系统 上 ， 


= 
是 一 个 | 





























它 最 终 将 启 有 








因为 它 实 际 上 涉及 了 所 有 的 子 系统 。 因 








上 分 页 ， 才 





而 





























[ 程 ， 将 在 后 续 各 节 分 别 讲述 。 最 后 一 步 是 创建 idle 进 程 ， 内 核 在 无 事 可 做 
运行 各 个 子 系统 的 初始 化 例 程 ， 然 后 启动 /sbin/init 作 为 第 一 个 用 户 空 
结束 了 内 核 端的 初始 化 工作 。 


函数 。 它 执行 以 C 语 言 编写 的 任务 ， 主 要 关注 内 








为 核心 态 设置 适当 的 数据 
\ 行 特定 于 变 体 的 设置 。 

















确定 内 核 在 内 存 中 的 位 置 











setup_memory] 
paging_init] 








parse_early_paren | 


图 D-2” IA-32 系 统 上 setup_arch 的 代码 流程 图 








接触 过 该 实现 。 
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首先 , 记录 下 内 核 在 物理 和 虚拟 内 存 中 的 位 置 。 这 是 使 用 链接 器 在 内 核 编 译 时 插入 的 常数 完成 的 。 
这 些 常 数 指定 了 各 个 段 的 起 始 和 结束 地 址 ， 如 下 所 示 (还 可 以 参见 附录 E〉: 

arch/x86/kernel/setup_32.c 

init mm.start code = (unsigned long) _text; 

init mm.end code = (unsigned long) _etext; 

init mm.end data = (unsigned long) _edata; 

init mm.brk = init pg_ tables end + PAGE OFFSET; 

Code resource.start = virt to phys(_text); 

Code resource.end = virt to phys(_etext)-1; 

data_resource.start = virt_ to phys(_etext); 

data_ resource.end = virt to phys(_edata)-1; 

bss_resource.start = virt_ to phys(& bss_start); 

bss_resource.end = virt to phys(& bss_stop)-1; 

parse_early_param 对 命令 行 参数 进行 部 分 解释 ， 它 只 处 理 与 内 存 管 理 设置 相 关 的 参数 。 例 如 ， 
可 用 物理 内 存 的 总 长 度 ， 或 特定 的 ACPI 和 BIOS 内 存 区 的 位 置 。 用 户 可 以 改写 内 核 检 测 的 不 正确 的 值 。 
有 了 这 项 信息 ，setup_memory 可 以 检测 低 端 内 存 域 和 高 端 内 存 域 中 物理 内 存 页 的 数目 。 它 还 初始 化 
了 bootmem 分 配器 。 

接 下 来 eaging_init 设 置 内 核 的 参考 页 表 。 该 页 表 不 仅 用 于 映射 物理 内 存 ， 还 用 于 管理 vmalloc 
区 域 ， 如 第 3 章 所 述 。 新 页 表 的 启用 ， 是 通过 将 swapper_pg_gir (该 变量 存储 了 页 表 数 据 结构 的 地 
址 设置 到 处 理 器 的 CR3 寄 存 器 而 完成 的 。 

builq_all_zonelists 函 数 (在 第 3 章 讨 论 过 , 它 负责 用 于 内 存 管理 的 内 存 域 列 表 ) 由 start_kernel 
调用 ， 来 完成 内 存 管理 子 系统 的 初始 化 ， 并 设置 bpootmem 分 配器 来 控制 启动 过 程 的 其 余部 分 。 

2. 解释 命令 行 参数 

parse_args 由 start_kernel 中 的 parse_early_param 调 用 , 负责 解释 启动 时 传递 到 内 核 的 命令 
行 参 数 。 在 用 户 空间 中 也 会 过 到 同样 的 问题 ,这 是 固有 的 ， 必 须 将 一 个 字符 串 包含 “ 键 / 值 ” 对 的 字符 
串 分 解 ， 该 字符 串 形 如 0 1=0 10 2=0 2。 所 设置 的 选项 必须 保存 到 内 核 中 ， 或 触发 特定 的 响应 。 

内 核 不 仅 在 启动 时 会 遇 到 解析 参数 的 问题 ， 在 插入 模块 时 也 会 遇 到 。 因 而 它 使 用 了 同样 的 机 制 来 
解决 相关 问题 ， 从 而 避免 不 必要 的 代码 复制 ， 这 样 做 很 有 意义 

二 进 制 文件 对 每 个 内 核 参 数 都 包含 了 一 个 对 应 的 kernel_param 实 例 ， 这 一 点 对 动态 加 载 的 模块 
和 静态 的 内 核 二 进 制 映像 文件 都 是 成 立 的 。 该 实例 的 结构 如 下 ; 

<moduleparam.h> 

/* 成 功 返 回 0， 失 败 返回 -erzrno。 人 参数 在 kp->arg 中 。*/ 

typedef int (*param set_ fn) (const char *val, struct kernel param *kp) 

/* 成 功 返回 写 入 的 长 度 ， 失 败 返回 -errno。puffer 缓 冲 区 是 4k 长 (要 短 一 点 ! ) */ 

typedef int (*param get_fn) (char *buffer, struct kernel param *kp); 


struct kernel param { 
const char *name; 
param_ set_fn set; 
param get_fn get; 


union { 
void *arg; 
const struct kparam string *str; 
const struct kparam array *arr; 
于 
上 7 
name 给 出 了 参数 的 名 称 ， 而 set 和 get 函 数 分 别 用 于 设置 和 获取 参数 的 值 。 





arg 是 一 个 〈 可 选 ) 的 
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字符 串 或 数组 。 








参数 ， 也 会 传递 到 这 两 个 函数 。 它 使 得 同一 个 函数 可 以 对 不 同 的 参数 使 用 。 该 指针 也 可 以 具体 解释 为 









































值 填 充 一 个 kernel_param 的 实例 ， 并 将 其 写 入 到 二 进 制 文件 的 _param 段 。 
这 大 大 简化 了 启动 时 对 参数 的 解释 。 只 需要 进行 一 个 循环 ,执行 下 列 操作 


处 理 完毕 。 
























































参数 是 使 用 下 列 宏 注 册 到 内 核 的 : module_param、module_param_named， 等 等 。 它 们 用 适当 的 





直至 所 有 参数 都 已 经 
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(1) next_arg 从 内 核 以 正文 串 形式 提供 的 命令 行 中 ， 提 取 下 一 个 “名 称 / 值 








(2) parse_one 裔 历 所 有 注册 参数 的 列表 ,将 传递 进来 的 “名 称 / 值 ” 对 与 kernel_param 实 例 的 name 


























成 员 比 较 ， 在 找到 一 个 匹配 项 时 调用 其 set 函 数 。 
3. 初始 化 中 枢 的 数据 结构 和 缓存 




















简单 看 一 眼下 列 内 核 源 代码 就 会 知道 ，start_kernel 的 大 多 数 实 质 性 的 任务 是 调用 子 例 程 来 初 








始 化 几乎 所 有 重要 的 内 核子 系统 ; 


init/main.c 
asmlinkage void _ init Start_kernel (void) 


trap_init(); 
CU Tnit()s 
RO()3 

pidhash init(); 
sched_init(); 
init_timers(); 
hrtimers_init(); 
SOftirdg init(): 
timekeeping_ init(); 
time_ init():s 
profile init(); 


early_boot_irqgs_on(); 
local_irg enable(); 


/* 




















* 警告 ! 这 还 是 系统 启动 过 程 的 早期 。 我 们 正在 启用 控制 台 输出 ， 此 时 我 们 尚未 完成 PcI 设 置 等 工作 ， 














* 而 console_init() 必须 注意 到 这 一 点 。 
* 但 我 们 确实 想 要 尽 可 能 早 地 具有 输出 能 力 ， 以 防 发 生 错误 时 无 法 输出 信 
A 

console_init(); 











mem_ init(); 
kmem cache_init(); 


calibrate_delay (); 
pidmap_init(); 
pgtable cache_init(); 


vfs_caches_init (num physpages); 
radix_ tree_ init(); 
signals_init(); 
/* rootfs populating might need page-writeback */ 
page_ writeback init(); 
#ifdef CONFIG PROC_FS 
BroOC. root._init():; 
#endif 
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但 我 们 对 大 多 数 函 数 都 没什么 兴趣 ， 因 为 它们 只 是 调用 bootmem 分 配器 来 为 数据 结构 实例 分 配 内 
存 。 最 重要 的 函数 已 经 在 子 系统 相关 的 章节 介绍 了 ， 因 此 下 文 只 是 综述 各 个 操作 的 语义 。 
口 trap_init 和 init_IRO 设 置 异常 和 IRQ 的 处 理 程序 ， 这 是 一 项 体系 结构 相关 的 任务 。 例 如 ， 下 











列 代码 























于 IA-32 系 统 ， 对 处 理 


























器 返回 的 错误 信息 注册 寞 常 处 








arch/x86/kernel/traps_32.c 
void __init trap_init(void) 


{ 


















































里 程 ds; 




























































































































































































































































































set_trap_gate(0,g&divide error); 

set_intr_gate(1,&debug); 

set_intr gate(2,¢&nmi).; 

set_system gate(4,&overflow); 

set_system gate(5,é&bounds); 

set_trap_gate(6,¢&invalid op); 

set_trap_gate(7,g&device not_available); 

set_task_ga (8,GDT_ENTRY_DOUBLEFAULT_TSS); 

set_trap_gate(9,&coprocessor_segment_overrun); 

set_trap_gate(10,g&invalid TSS); 

set_trap_gate(l1l1,g&segment not present); 

set_trap_gate(12,¢&stack_ segment); 

set_trap_gate(13,&general protection); 

set_intr gate(14,&page_ fault); 

set_trap_gate(15,&spurious_ interrupt bug); 

set_trap_gate(16,¢&coprocessor_ error); 

set_trap_gate(17,g&alignment check); 

set_trap_gate(19,g&simd coprocessor_ error); 

set_system gate(SYSCALL VECTOR, &system call); 
} 
如 代码 所 示 ， 这 里 也 将 用 于 系统 调用 的 中 断定 义 为 一 个 系统 门 (sYSCALL_VECTOR 设 置 为 
0x80) 。 
IRQ 处 理 程序 的 初始 化 也 类 似 。 
schegd_init 初 始 化 调度 器 的 数据 结构 在 这 里 是 主 处 理 器 ， ， 并 创建 运行 队列 。 
pidhash_init 分 配 散 列表 ， 由 PID 分 配器 用 于 管理 空 闪 和 已 指派 的 PID。 
softirq_init 注 册 用 于 普通 和 高 优先 级 tasklet (TASKLET_SOFTIRQ 和 HI_SOFTIRQ) 的 软 中 断 
队列 。 
time_init 从 硬件 时 钟 读 取 系 统 时 间 。 这 是 一 个 处 理 器 相关 的 函数 ， 因 为 不 同 的 体系 结构 使 用 
不 同 的 机 制 来 读 取 时 钟 。 
init_console 初 始 化 系统 控制 台 。 在 提供 了 early printk 机 制 、 允 许 在 控制 台 完 全 初始 化 之 前 
向 控制 台 输 出 消息 的 系统 上 ， 局 用 early printk 机 制 〈 在 其 他 系统 上 ， 消 息 被 缓冲 起 来 ， 直 至 控 
制 台 激活 后 才 输 出 )。 
page_aaqress_init 建 立 持久 内 核 映 射 (PKMap，PersistentKernel Map ) 机 制 所 需 的 散 列 表 ， 
该 机 制 利 用 散 列 表 从 给 定 的 虚拟 地 址 确定 持久 内 核 映 射 的 物理 地 址 。 
mem_init 停 用 bootmem 分 配器 (并 执行 一 些 次 要 的 体系 结构 相关 操作 ， 我 们 并 不 关注 )， 
kmem_cache_init 分 多 个 阶段 初始 化 slab 分 配器 (在 第 3 章 详 细 讲 述 过 )。 


核 需要 该 人 











来 


calibrate_delay 计 算 BogoMIPS 值 ， 


直 算 一 些 进行 轮 询 或 忙 等 待 的 任务 所 需 





av 




















该 值 指定 了 在 每 个 jiffy 


的 时 间 。 


















































期 间 可 以 执行 多 少 个 空 循环 。 内 
下 列 代码 可 以 获得 每 个 jiffy 期 间 
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能 够 执行 的 室 循 环 的 一 个 很 好 的 近似 值 ， 并 将 结果 存储 到 loops_per_jiffy : 


init/calibrate.c 
void __init calibrate delay (void) 


{ 











unsigned long ticks, loopbit; 
int lps_precision = LPS_PREC; 


loops_per_ jiffy = (1<<12); 


printk("Calibrating delay loop... "); 
while (loops_ per _ jiffy <<= 1) { 
* 等 待 时 钟 信号 的 "开始 */ 
ticks = jiffies; 
while (ticks == jiffies) 
/* 无 */; 
/* 继续 .. */ 
tCGKkKS. = JTE 和 EES 
__delay (loops_ per _ jiffy); 
ticks = jiffies -ticks; 
if (ticks) 
break; 














} 


/* 
* 做 一 个 二 进 制 近似 ， 使 得 ljoops_per_jiffy 设 置 为 约 等 于 一 个 时 钟 周期 
* (不 超过 lps_precision 个 比特 位 ) 
类 
loops_per jiffy >>= 1; 
loopbit = loops_ per jiffy; 
while (lps_precision--&& (loopbit >>= 1) ) { 
loops_per_jiffy |= loopbit; 
ticks = jiffies; 
while (ticks == jiffies) 
/* 无 */; 
ticks = jiffies; 
__delay (loops_per_ jiffy); 
if (jiffies != ticks) /* longer than 1 tick */ 
loops_per_jiffy &= ~loopbit; 














} 


/* 舍 入 该 值 ， 并 输出 */ 

printk("%lu.%$02lu BogoMIPS (lpj=%lu)\n", 
loops_per_jiffy/(500000/HZ), 
(loops_per_jiffy/(5000/HZ)) % 100， 
loops_per_jiffy); 


} 
下 列 代码 结构 特别 有 趣 〈 尽 管 在 C 语 言 中 ， 这 通常 是 没有 意义 的 ， 甚 至 会 造成 无 限 循环 ): 
init/main.c 
ticks = JjJiffies; 
while (ticks == jiffies) 
/* 无 */; 

但 该 循环 确实 会 在 某 些 时 候 结束 ， 因 为 jiffies 的 值 在 系统 时 钟 〈 按 频率 Hz 睡眠 ) 的 每 个 周期 都 
会 被 中 断 处 理 程 序 加 1。 因 而 ，while 循 环 中 的 条 件 在 一 定时 间 后 将 变 为 false， 导 致 循环 结束 。 
































站 
























































G) 也 可 以 预 设 BogoMIPS 值 ， 阻 止 内 核 完 成 之 前 最 重要 的 一 个 操作 ， 显 然 是 无 趣 的 。 
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运 的 是 ， 大 多 数 错误 | 


口 pidmap_init 分 配 数 组 ， 其 中 
使 用 的 ) PID 0。 






















































































口 proc_root_init 初 始 化 proc 文 


、 





4. 查找 已 知 的 系统 错误 


口 radix_tree_init 创 建 内 存 管 
口 bage_writeback_init 初 始 化 刷 出 机 制 




















软件 不 是 唯一 会 出 现 bug 的 东西 ， 处 理 器 实 ] 
情形 都 可 以 规避 补救 。1 









































FP 将 保存 PID 分 配器 的 空闲 状态 。 它 也 为 所 有 PID 类 型 分 配 了 未 




















口 fork_init 分 配 了 task_struct 的 Slab 缓存 〈 假 定 没有 体系 结构 相关 的 机 制 来 生成 并 缓存 
task_struct 实 例 ) ， 并 计算 可 以 生成 的 线程 的 最 大 数目 。 
口 proc_caches_init 初 始 化 进程 
sighand、 signal、files、 fs、fs_struct 和 mm struct。 

口 buffer_init 创 建 一 个 buffer_head 的 缓存 ， 并 计算 max_buffer_heads 变 量 的 什 
头 绝 不 会 占用 超过 zONE_NORMAL 内 存 域 中 内 存 数量 的 10%。 

口 vfs_caches_init 创 建 虚拟 文件 系统 (VFS) 层 所 需 的 各 种 数据 结构 的 缓存 。 

里 所 需 的 radix_tree_node 实 例 的 slab 绥 存 。 









































上 § 述 所 涉及 的 其 他 数据 结构 的 slab 缓 存 。 其 中 考虑 了 下 列 结 构 : 
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， 更 具体 地 说 ， 定 义 脏 页 的 极限 值 ， 接 下 来 该 机 制 将 




















牛 系统 的 inode 绥 存 ， 在 内 核 中 注册 proc 文 件 系统 (procfs)， 
并 生成 核心 的 文件 系统 项 ， 例 如 /proc/meminfo、/proc/uptime、/proc/version 等 。 





岗 也 会 发 生 错 误 ， 蕊 片 也 可 能 无 法 像 预 期 的 那样 工作 。 


























在 规避 之 前 ， 内 核 必须 知道 特定 的 处 理 器 是 否 确实 有 








bug。 这 可 以 使 用 体系 结构 相关 的 check_bugs 函 数 确 定 。 
例如 ，IA-32 系 统 上 该 函数 的 代码 如 下 : 





PA-RISC 和 PPC64 的 check_bugs 例 程 : 








arch/x86/kernel/cpu/bugs.c 
static void __init check_bu 
t 

identify_ boot_cpu() 


check_config(); 
check_fpu(); 
check_hlt(); 
check_popad (); 


gs (void) 


有 


init utsname()->machine[1] = '0' 


alternative_ instruc 


} 


tions(); 


+ (boot_ cpu data.x86 > 6 ? 6 : boot cpu data.x86); 














最 后 一 个 语句 (alternative_instructions) 还 调用 了 一 个 函数 ， 根 据 处 理 器 的 类 型 ， 将 某 些 












































汇编 指令 替换 为 更 快速 、 更 现代 的 指令 。 这 使 得 发 行者 既 能 够 创建 可 以 在 多 种 机 器 上 运行 的 内 核 映 像 ， 
同时 也 无 须 放弃 更 新 的 特性 。 


对 不 同 CPU 质 量 的 比较 ， 这 里 是 S390、Alpha、Extensa、H8300、v850、FRV、Blackfin、Cris、 








static void check_ bugs (void) 


S390 内 核 是 最 自信 有 的， 读者 从 下 列 代码 可 以 看 出 来 : 


include/asm-s390/bugs.h 
static inline void check_bu 


{ 
/* s390 没 有 bug …… */ 
} 


5. idle 和 init 线 程 


gs (void) 





start_kernel 的 最 后 一 个 操作 有 如 下 两 个 步 又 : 
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(1) rest_init 启 动 一 个 新 线程 ， 在 执行 一 些 初始 化 操作 (如 下 一 步 所 述 ) 之 后 ， 最 终 调用 用 户 

空间 初始 化 程序 /spin/init; 
(2) 第 一 个 (此 前 是 唯一 的 ) 内 核 线程 变 为 idle 线 程 ， 在 系统 无 事 可 做 时 调用 。 
rest_init 实 质 的 实现 只 有 几 行 代码 : 


init/main.c 
static void rest_ init(void) 


{ 












































kernel_thread (kernel_init, NULL, CLONE_FS | CLONE_SIGHAND); 
pid = kernel_ thread(kthreadd, NULL, CLONE_FS | CLONE_FILES); 
kthreadd_ task = find task_ by_ pid(pid); 

unlock_ kernel (); 


schedule(); 
cpu_idle(); 




















在 一 个 新 的 名 为 init 的 内 核 线 程 ( 将 启动 init 进 程 》 和 男 一 个 名 为 kthreaggq 的 线程 (将 由 内 核 
用 于 启动 内 核 守 护 进程 开始 后 ， 内 核 调用 unlock_kernel 解 锁 大 内 核 锁 ， 并 通过 调用 cpu_iqdle, 使 
当前 线程 成 为 idle 线 程 。 此 前 ， 必 须 至 少 调用 schedule 一 次 ， 以 激活 其 他 线程 。 
idle 线 程 会 尽 可 能 少 地 使 用 系统 电源 〈 这 在 内 入 式 系统 中 非常 重要 ) ， 并 尽快 释放 CPU 给 可 运行 
的 进程 。 此 外 ， 如 果 CPU 处 于 空闲 状态 而 且 内 核 编译 为 文 持 动态 时 钟 ， 它 将 处 理 完 全 关闭 周期 时 钟 的 
任务 ， 如 第 15 章 所 述 。 

init 线 程 ， 其 代码 流程 图 如 图 D-3 所 示 ， 与 idle 线 程 和 kthreadd 线 程 是 并 行 的 。 


下 本 让 
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注册 为 孤儿 子 进程 收割 者 | 
SMP 初 始 化 


do_basic_setup] 
prepare_namespace] 


IJnatose 


free_initmem 


执行 





































户 空间 初始 化 程序 init 











图 D-3 ”init 的 代码 流程 图 


首先 ， 当 前 进程 需要 注册 为 全 局 PID 命 名 空间 中 的 child_reaper。 内 核 的 意图 很 清楚 : 


init/main.c 
static int _ init kernel init(void * unused) 


{ 






































/* 公开 宣布 ， 我 们 将 成 为 无 漳 的 孤儿 子 进程 的 收割 者 */ 


init pid ns.child reaper = current; 
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到 目前 为 止 ， 内 核 在 多 处 理 器 系统 
是 通过 以 下 3 个 步骤 完成 的 。 

(1) smp_prepare_cpus 确 保 激活 剩余 的 CPU， 该 函数 执行 了 处 理 器 的 体系 结构 相关 的 启动 序列 。 
但 这 些 CPU 尚 未 关联 到 内 核 的 调度 机 制 ， 因 而 仍然 是 不 可 用 的 。 

(2) ao_pre_smp_initcal1s 虽 然 名 为 smp, 但 实际 上 是 对 称 多 处 理 和 单 处 理 器 初始 化 例 程 的 混合 。 
在 SMP 系 统 上 ， 其 主要 任务 是 初始 化 迁移 队列 ， 该 队列 用 于 在 CPU 之 间 移 动 进程 ， 在 第 2 章 讨 论 过 。 
它 还 启动 了 软 中 断 守护 进程 。” 

(3) smp_init 在 内 核 中 启用 剩余 的 CPU， 使 之 变 得 可 用 。 

eUU0000 

下 一 个 初始 化 步骤 是 使 用 do_basic_setup 函 数 开始 驱动 程序 和 子 系统 的 一 般 初 始 化 工作 ， 该 函 
数 的 代码 流程 图 在 图 D-4 中 给 




















只 使 用 了 几 个 CPU 中 的 一 个 ， 现 在 需要 激活 其 他 的 CPU。 这 








上 












































































































































do_basic_ setup 


init workqueues 












usermodehelper_init 


denver nm 


图 D-4 ”do_basic_setup 的 代码 流程 


一 些 函 数 涉及 颇 广 ， 但 没什么 趣味 。 它 们 只 是 初始 化 更 多 的 内 核 数据 结 构 ， 这 些 结构 已 经 在 对 应 
子 系统 相关 的 章节 讲述 过 。adriver_init 设 置 用 于 通用 驱动 程序 模型 的 数据 结构 ， 而 init_irq_proc 
在 proc 文 件 系统 中 注册 关于 IRQ 的 信息 。init_workqueues 创 建 事件 工作 队列 ， 
init 创 建 knelper 工 作 队 列 。 
更 有 趣 的 是 ao_initcalls， 它 负责 调用 驱动 程序 相关 的 初始 化 函数 。 因 为 内 核 可 能 是 定制 配置 
的 ， 必 须 提 供 一 个 机 制 ， 来 确定 需要 调用 哪些 函数 ， 并 定义 这 些 函数 执行 的 顺序 。 其 称 之 为 initcall 机 
制 ， 将 在 本 节 稍 后 详细 讨论 。 

内 核定 义 了 下 列 宏 来 检测 初始 化 例 程 并 定义 其 顺序 或 优先 级 : 

<init.h> 


define _ define initcall(level,fn,id) \ 
static initcall_t _ initcall_ ##fn##id _ attribute used _\ 







































































下 
tt 











而 usermodehelper_ 























































































































_attribute  (( section (".initcall" level ".init"))) = fn 
define pure_ initcall (fn) __ define initcall("0",fn,0) 
define core_initcall (fn) _ define initcall("1",fn,1) 
define postcore initcall (fn) __ define initcall("2",fn,2) 
define arch initcall (fn) define initcall("3",fn,3) 












































GD 确切 地 说 ， 在 每 个 CPU 被 内 核 激 活 时 ， 内 核 调用 一 个 回调 函数 来 启动 该 守护 进程 。 只 要 知道 每 个 CPU 都 对 应 于 ; 
守护 进程 的 一 个 实例 ， 就 足够 了 。 





KS 


/ 
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#define subsys_initcall (fn) __ define initcall("4",fn,4) 
#define fs_initcall (fn) define 4mnitedll( "DY, En,S:) 
#define rootfs initcall (fn) __ define initcall("rootfs",fn,rootfs) 
#define device_ initcall (fn) _ define initcall("6",fn,6) 
#define late initcall (fn) __ define initcall("7",fn,7) 


函数 的 名 称 作 为 参数 传递 到 宏 ， 如 device_initcall (time init_device) 和 subsys_initcall 
(pcibios_init) 的 例子 所 示 。 这 会 在 .initcalllevel.init 段 中 创建 一 项 。 项 的 类 型 为 initcall_t， 
定义 如 下 : 

<init.h> 

typedef int (*initcall_t) (void); ] 


这 是 一 个 函数 指针 ， 无 需 参 数 ， 会 返回 一 个 整数 表示 其 状态 。 
链接 器 将 按 正确 的 次 序 ， 逐 一 将 各 个 initcall 段 放置 在 二 进 制 文件 中 。 其 顺序 定义 在 体系 结构 无 关 
的 文件 <includqe/asm-generic/vmlinux.lds.h> 中 ， 如 下 所 示 ; 


<asm-generic/vmlinux.lds.h> 







































































define INITCALLS \ 
(Eniteall0 ,Lnit) \ 
*(.initcalll.init) \ 
*( Lniteall2.. init) \ 
LL) \ 
*(.initcall4.init) \ 
* (initealls, Init) \ 
*(.initcallrootfs.init) \ 
*(.initcallé6 .init) \ 
*( Lmniteally,. Lnit) \ 
冯 


























以 下 举例 说 明了 一 个 链接 器 文件 应 用 该 规范 的 方式 (这 里 给 出 链接 器 脚本 是 用 于 Alpha 处 理 器 的 ， 


但 在 所 有 其 他 系统 上 ， 这 个 过 程 实际 上 都 是 相同 的 ) : 


arch/alpha/kernel/vmlinux.lds.S 
GLE A 
_ initcall start = .; 
INITCALLS 
__initcall end = .; 








t 























} 
































链接 器 在 ”initcall_start 和 ”initcall_end 变 量 中 保存 了 initcall 范 围 的 开始 和 结束 ， 这 两 个 
变量 在 内 核 中 是 可 见 的 ， 其 优点 稍 后 讲解 。 


加 
加 人 | 


因为 编译 器 和 链接 器 完成 了 准备 工作 ，do_initcalls 的 任务 就 不 是 那么 复杂 了 ， 如 下 列 代 码 所 





[ee 
4 









































示 : 
init/main.c 
static void _ init qo_initcalls(void) 
{ 


initeall t *ealls 
int count = preempt_count(); 


for (call = _ initcall start; call < _ initcall end; call++) { 
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} 


char *msg; 
int rwesults; 


if (initcall debug) { 


printk("calling initcall Ox%Sp\n", 


} 


result = (*call) (); 


/* 确保 initcal1 序 列 中 没有 尚 待 决 的 事务 */ 


flush_schedquledq_work() ; 


} 


本 质 上 ， 该 代码 裔 历 .initcall 段 中 的 所 有 项 ， 该 段 的 边界 由 链接 器 自动 定义 的 变 
的 地 址 被 提取 出 来 ， 然 后 调用 指定 的 函数 。 在 所 有 初始 调用 都 已 经 














ald)> 















































scheduledq_work 刷 出 可 能 由 这 些 例 程 创建 的 keventd 工 作 队 列 项 。 


en0U0000D0 
用 于 初始 化 数据 结构 和 设备 的 函数 通常 只 在 内 核 局 动 时 需要 ， 决 不 会 再 次 调用 。 为 明 
t 属 性 ， 该 属性 放 在 函数 声明 之 前 作为 前 级 ， 如 前 述 内 核 源 代码 所 示 。 该 属性 定 





点 ， 内 核定 义 了 _ ini 
义 如 下 : 

<init.h> 
define __init 











define _ initdata 
内 核 还 可 以 通过 
链接 器 将 标志 为 
























































执行 后 ， 内 核 使 用 flush_ 





表明 这 一 




















_ attribute  (( section _ (".init.text"))) 
_ attribute _ ((. section _ (".init.data"))) 








initdata 属 性 将 数据 声明 为 初始 化 数据 。 














init 的 函数 或 _initdata 的 数据 写 入 到 二 进 制 文 伯 








里 给 出 的 是 Alpha 平 台 的 链接 器 脚本 ， 其 他 体系 结构 几乎 是 相同 的 ) : 


arch/alpha/kernel/vmlinux.lds.S 
/* 将 在 初始 化 之 后 释放 */ 
. = ALIGN (PAGE SIZE); 
/* 初始 化 代码 和 数据 */ 
init begin = 。: 
.init.text :; 1 





} 


_Ssinittext = .;} 
(Tnit tet) 
einittext = 3 


.init.data : { 


} 


*(.init.data) 


. = ALIGN(16); 
:init,.SetuB £ 


setup_start = .; 
*(.init.setup) 
__ setup end = .; 


. = ALIGN(8); 
人生 必 记 入 二 二 和 信和 入 


initeall start = »3? 
INITCALLS 








01d 


F 的 特定 段 中 , 如 下 所 示 ( 这 
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__initcall end = 


“7 


. = ALIGN(2 * PAGE SIZE); 
i nd 


Va 将 在 初始 化 之 后 释放 的 代码 或 数据 ， 到 此 结束 */ 
还 有 其 他 几 个 段 会 添加 到 初始 化 段 ， 例 如 ， 其 中 包括 此 前 讨论 的 初始 调用 。 
录 并 不 打算 全 部 介绍 内 核 在 启动 结束 上 从 内 存 删除 的 数据 和 函数 类 型 。 
free_initmem 是 init 调 用 的 最 后 几 个 操作 之 一 ， 用 于 释放 _ init_begin 和 _ init_enq 之 间 的 
内 核 内 存 。 该 函数 定义 如 下 : 
arch/i386/mmy/init.c 
void free_ init pages (char *what, unsigned long begin, unsigned long end) 


{ 











玉 








日 为 简明 起 见 ， 本 附 




















unsigned long addr; 


for (addr = begin; addr < end; addr += PAGE SIZE) { 
ClearPageReserved(virt to page(addr)); 
init page count (virt to page(addr)); 
memset ( (void *)addr, POISON_FREE_ INITMEM, PAGE_ SIZE); 
free_page (addr); 
totalram pages++; 























} 
printk (KERN_INFO "Freeing %s: %luk freed\n", what, (end - begin) >> 10); 


} 
void free_initmem(void) 
{ 
free_init pages ("unused kernel memory", 
(unsigned long) (&_ init begin), 
(unsigned long) (&_ init end)); 
} 


























尽管 这 是 一 个 体系 结构 相关 的 函数 , 但 其 定义 在 所 有 文 持 的 体系 结构 上 几乎 都 是 相同 的 。 为 简明 
起 见 , 这 里 只 讲述 IA-32 平 台 上 的 版 本 。 该 代码 遍历 分 配给 初始 化 数据 的 各 个 内 存 页 , 并 使 用 free_page 
将 其 返还 给 伙伴 系统 。 接 下 来 输出 一 条 消息 ， 表 明 释 放 了 多 少 内 存 ， 通 常 大 约 是 200KiB。 

eUU0000000 
init 的 最 后 一 个 操作 是 调用 init_post， 该 函数 接 下 来 会 启动 一 个 程序 在 用 户 空 间 继续 初始 化 ， 
以 便 向 用 户 提 供 一 个 可 工作 的 系统 。 在 UNIX 和 Linux 系 统 下 ， 该 任务 传统 上 委托 给 /sbin/init。 如 果 
该 程序 不 可 用 ， 内 核 会 尝试 一 些 备 选项 。 备 选 程序 的 名 称 可 以 通过 init = progrem 在 合 令 行 传递 到 
内 核 。 如 果 传 递 了 该 参数 ， 那 么 内 核 将 试图 在 默认 选项 之 前 局 动 该 程序 〈 在 解析 命令 行 时 ， 该 程序 的 
名 称 保存 在 execute_command 中 )。 如 果 这 些 选项 都 不 能 工作 ， 则 会 触发 一 个 内 核 息 屏 ， 因为 系统 是 
\ 可 用 的 ， 如 下 所 示 : 


































































































































































































init/main.c 
static int noinline init post(void) 
{ 


if (execute command) { 
run_ init_ process (execute command); 
printk (KERN_WARNING "Failed to execute %s. Attempting " 
"defaults...\n", execute command); 





} 
run init process("/sbin/init"); 
run init process("/etc/init"); 
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run init process("/bin/init"); 
run_ init_ process("/bin/sh"); 


panic("No init found. Try passing init= option to kernel."); 
} 























xun_init_post 会 设置 一 个 最 低 限 度 的 环境 ， 以 便 init 过 程 运行 ， 如 下 所 示 : 


init/main.c 
static char * argv_init[MAX INIT ARGS+2] = { "init", NULL, }; 
char * envp_init[MAX INIT ENVS+2] = { "HOME=/", "TERM=linux", NULL, 


{ 





argv init [0 Ss 1nii 


















































t_filename; 
kernel_ execve (init_filename, 


argv_init, 









































static void run init process (char *init filename) 








人 








局 动 过 程 ， 





其 


envp_init); 

} 

kernel_execve 是 一 个 sys_execve 系 统 调用 的 包装 器 ， 每 个 体系 结构 都 必须 提供 。 
D.3 小 结 

Linux 内 核 的 启动 是 一 个 与 体系 结构 高 度 相 关 的 过 程 ， 至 少 在 初始 阶段 是 这 样 。 本 章 向 读者 介绍 
了 在 IA-32 系 统 上 使 内 核 启 动 并 运行 的 一 些 错综复杂 之 处 。 此 外 ， 本 章 还 讨论 了 高 层 的 - 
中 内 核 会 逐步 设置 硬件 ， 直 至 最 终 调用 第 一 个 用 户 层 进程 (通常 是 /spin/init) 并 




















全 常规 执行 。 


攻 and Linkable Format。 


式 。 


ELF 二 进 制 格式 




















以 用 了 





























身 的 程序 设计 。 


内 核 支持 的 几乎 所 有 体系 结构 
在 必须 为 可 执行 


例如 ， 























F 中 组 






































此 )。 有 
二 进 制 
有 体系 














E.1 


如 图 E-1 所 示 ，ELF 文 件 由 各 个 部 分 组 成 。 请 注意 ， 在 本 附录 中 ， 
执行 视图 


程序 头 表 


点 是 可 以 理解 的 ,二 进 
程序 不 能 在 Sparc Linux 上 执行 ) ， 因 
结构 而 言 ， 
Linux 不 仅 将 ELF 
ELF 是 一 种 开放 格式 ， 其 规范 可 以 
与 ELF 规 范 是 相同 的 ， 对 与 本 书 内 容 相关 


布局 和 结构 




















的 程序 之 间 存 在 二 进 
织 数据 的 方式 相 


判 程序 不 
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用 户 空 


空间 应 用 





链接 视图 
ELF 文 件 头 








口 除了 


及 文件 

















于 标识 ELF 文 件 






































制 兼容 性 ， 
FreeBSD 程 序 不 能 
不 能 在 不 同体 系 结构 间 交 
为 底层 的 体系 纪 


程序 和 库 ， 还 月 
1 获得 (在 本 


例如 











它 是 一 种 对 可 执行 文件 、 
它 在 Linux 下 成 为 标准 格式 已 经 很 长 时 间 ， 代 替 
在 于 ， 同 一 文件 格式 可 
建 ， 也 简化 了 内 核 
并 不 意味 着 不 同系 统 
格式 。 尽 管 二 者 在 文件 
差别 。 这 也 是 在 没有 中 间 仿 真 层 的 情况 下 ， 
































二 构 是 完全 不 同 的 。 但 


目标 文件 和 局 
了 早年 的 a.out 格 式 。ELF 一 个 特别 的 优 
上 。 这 不 仅 简 化 了 用 户 空 
文件 生成 装载 例 程 时 。 
，FreeBSD 和 Linux 都 使 月 
日 局 ， 但 在 系统 调用 机 制 以 及 系统 调用 
在 Linux 下 运行 的 原 








E 使 





的 文件 格 





AAA 


间 工 具 程序 的 创 
但 是 文件 格式 相同 
HELF 作 为 二 进 制 
的 语义 方面 ， 仍 然 有 
因 《 反 过 来 ， 同 样 如 












































换 (例如 , 为 Alpha CPU 编译 的 Linux 








1 于 ELF 的 存在 ， 对 所 























程序 本 身 的 相关 信息 以 及 程序 的 各 个 部 分 在 二 进 制 文件 中 编码 
于 构建 模块 。 内 核 本 身 
相关 的 网 


























的 信 ， 











县 进行 了 概述 。 





图 











加 载 后 程序 执行 的 入 





























国 强制 
国 可 选 


E-1 ELF 文 件 的 基本 布局 


的 几 个 字 节 之 外 ，ELF 头 还 包含 了 有 关 文 人 
口 点 信息 。 





必须 区 分 链接 对 象 和 可 执行 文件 。 


F 类 型 和 大 小 的 有 关 信 |， 


的 方式 都 是 相同 的 。 


岂 是 ELF 格 式 。 
站 上 也 可 以 获得 〉。 


本 附录 的 结构 








自 


[Ed 


以 


1000 


UDOE EIFOUUDUDD 





标 文 件 是 丸 


E.1 


Ah 二 


口 各 个 段 保 存 了 与 文件 





符 虽 





ODDODD 《section header 


口 口 口 DD (programheadertable) 回 系 统 提供 了 可 执行 文件 的 数据 在 进 条 
方式 的 相关 信息 。 它 还 表示 了 文件 可 能 包含 的 段 数目 、 段 的 位 置 和 用 途 。 
EF 相关 的 各 种 形式 的 数据 。 例 如 ， 符 号 表 、 实 际 的 三 进 制 码 、 固 定 值 (如 字 














间或 程序 使 用 的 数值 常数 。 
table) 包含 了 与 各 段 相关 的 附加 信息 。 












































Hi 





虚拟 地 址 空间 中 组 织 





















































reagdelf 是 一 个 有 用 的 工具 ， 用 于 分 析 ELF 文 件 的 结构 ， 如 下 所 示 : 


#include<stdio.h> 











int adqd (int a, int b) { 
printf ("Numbers are added together\n"); 
return a+b; 


} 


int main() { 
int a,b; 
a = 3; 


pb = 


4; 


int ret = add(a,b); 
printf("Result: Su\n"); 
exit(0)3 


} 











当然 ， 就 程序 本 身 而 言 ， 它 没什么 





1 何 生 成 的 : 























处 。 但 它 可 以 作为 一 个 很 好 的 例子 ， 来 说 明 可 执行 文件 和 目 














wolfgang@meitner> gcc test.c -oO test 
wolfgang@meitner> gcc test.c -c -o test.o 














可 以 用 file 命 令 ， 显 示 编 译 器 生成 的 两 个 ELF 文 件 的 信息 ， 一 个 是 可 执行 文件 ， 另 一 个 是 可 习 
位 的 目标 文件 。 


wolfgang@meitner> file test 


file test: 
(uses shared libs), 





wolfgang@meitner> file test.o 








test.o: 
.1 ELF 头 
本 节 使 月 





Class: 

Deatas 

Version: 

OS/ABI: 

ABI Version: 

Type: 

Machine: 

Version: 

Entry point address: 
Start of program headers: 








中 与 这 里 给 出 的 相 比 ， 该 程序 有 更 多 的 命 





显示 。 























Ul 
Pl 


ELF 32-bit LSB executable, Intel 80386, version 1, dynamically linked 
not stripped 


ELF 32-bit LSB relocatable, Intel 80386, version 1, not stripped 














有 reade1f 来 分 析 上 例 生成 的 两 个 文件 的 组 成 部 分 。” 首先， 看 一 看 ELF 头 : 


wolfgang@meitner> readelf test 
ELF Header: 
Magic: 








7£ 45 4c 46 01 01 01 00 00 00 00 00 00 00 00 00 


ELF32 

2's complement, little endian 
1 (current) 

UNIX - System V 

0 
EXEC (Executable file) 
Intel 80386 

0 
0x80482d0 

52 (bytes into file) 























令 行 选项 。 这 些 选项 记载 在 手册 页 readelf (1) 中， 可 以 用 readelf - help 














UUOE EFOUUDUDD 


1001 





Start of section headers: 10148 (bytes into file) 
Flags: 0x0 

Size of this header: 52 (bytes) 

Size of program headers: 32 (bytes) 

Number of program headers: 6 

Size of section headers: 40 (bytes) 

Number of section headers: 29 

Section header string table index: 26 



































在 文件 起 始 处 , 有 4 个 标识 字 节 。 在 ASCII 代 码 0x7f 字 符 之 后 , 接 下 来 是 字符 E (0x45) 、L (0x4c)、 


F (0X46) 的 ASCII 码 值 。 这 使 得 所 有 处 理 ELF 的 工具 都 可 以 识别 文件 是 否 是 所 要 的 格式 。 还 有 一 些 与 



































具体 体系 结构 相关 的 信息 ， 在 本 例 中 ， 是 一 台 Pentium II 系统 ， 与 IA32 兼 容 。 类 别 标识 (ELF32) 正确 












































EE 














四 





























相应 的 数据 。 









































readelf 显 示 的 下 列 字 段 : 


wolfgang@meitner> readelf -h test.o 


Type: REL (Relocatable file) 
Start of program headers: 0 (bytes into file) 
Size of program headers: 0 (bytes) 

Number of program headers: 0 





| 

















,。 换 言 之 ， 它 是 一 个 可 重 定位 文件 ， 其 代码 可 以 移动 





显示 的 文件 类 型 是 RI 

















E.1.2 程序 头 表 
以 下 是 可 执行 文件 中 的 程序 头 表 (目标 文件 没有 该 表 ): 


wolfgang@meitner> readelf -1 test 












































Elf file type is EXEC (Executable file) 
Entry point 0x80482d0 
There are 6 program headers, starting at offset 52 





Program Headers: 

Type Offset VirtAddr PhysAddr FileSiz MemSiz Flg Align 
PHDR Ox000034 0x08048034 0x08048034 0x000c0 0x000c0 R 

INTERP Ox0000f4 Ox080480f4 0x080480f4 0x00013 0x00013 R 

[Requesting program interpreter: /lib/ld-linux.so.2] 

LOAD Ox000000 0x08048000 0x08048000 0x0046d 0x0046d R 

LOAD Ox000470 0x08049470 0x08049470 0x00108 0x0010c RW 
DYNAMIC Ox000480 0x08049480 0x08049480 0x000c8 0x000c8 RW 
NOTE Ox000108 0x08048108 0x08048108 0x00020 0x00020 R 


























GO 特别 地 ， 这 意味 着 在 汇编 语言 代码 中 必须 使 用 相对 转移 地 址 ， 而 不 是 绝对 地 址 。 














地 表明 这 是 一 台 32 位 机 器 (在 Alpha、IA-64、Sparc64 及 其 他 64 位 平台 上 ， 该 字段 的 值 将 是 ELF64)。 

文件 类 型 是 ExEc， 意 味 着 文件 是 可 执行 的 。Version 字 段 用 于 区 分 ELF 标 准 的 各 个 修订 版 本 。 但 
为 版 本 1 仍然 是 最 新 的 ， 目 前 还 不 需要 这 个 特性 。 另 外 还 包括 ELF 文 件 的 各 个 部 分 的 长 度 和 索引 位 置 
言 息 〈 稍 后 会 更 详细 地 讨论 )。 因 为 这 些 部 分 的 长 度 可 能 依 程序 而 不 同 ， 所 以 在 文件 头 部 分 必须 提供 











在 分 析 一 个 目标 文件 而 不 是 可 执行 文件 时 ， 哪 些 字 段 会 有 不 同 呢 ? 为 简单 起 见 ， 本 附录 只 讨论 


到 任何 位 置 。 
件 没有 程序 头 表 ， 对 需要 进行 链接 的 对 象 而 言 ， 该 表 是 不 必要 的 ， 为 此 所 有 长 度 都 设置 为 0。 






































E Ox4 


0x1 





E 0x1000 


0x1000 
0X4 
0X4 






































1002 


UUE EIFOUUDUDD 





Section to Segment mapping: 
Segment Sections... 


00 

四 和 .interp 

02 .interp .note.ABI-tag .hash .dynsym .dynstr .gnu.version 
.gnu.version r .rel.dyn .rel.plt .init .plt .text .fini .rodata 

03 .data .eh frame .dynamic .ctors .dtors .jcr .got .bss 

04 .dynamic 

05 .note.ABI-tag 





在 程序 头 表 之 后 ， 







































































列 出 了 6 个 段 ， 这 些 组 成 了 最 终 在 内 存 中 执行 的 程序 。 其 还 提供 了 各 段 在 虚拟 
地 址 空间 和 物理 地 址 空间 中 的 大 小 、 位 置 "、 标 志 、 访 问 授权 和 对 齐 方面 的 信息 。 还 指定 了 一 个 类 型 ， 
来 更 精确 地 描述 段 。 示 例 程序 包含 5 种 不 同类 型 的 段 ， 各 段 的 语义 如 下 。 


分 指定 了 明 


[Xi 





吕 





DP 


HDR 保 存 程序 头 表 。 














口 INTERP 指 定 在 程序 已 经 从 可 执行 文 




















牛 映 射 到 内 存 之 后 ， 必 须 调 





的 解释 器 。 在 这 里 ， 解 释 器 

















通常 /1ip/ 











的 各 种 库 包 括 ， 
口 








口 DYNAMIC 段 保存 





1d-linux.so.2、/1ib/1d-linux-ia-64.so.2 等 库 ， 
程序 运行 所 需 的 动态 库 。 对 几乎 所 有 















































000D0 着 二 进 制 文件 的 内 容 必须 由 另 一 个 程序 解释 《比如 ，Java 字 节 代 码 需要 由 Java 虚 拟 机 
解释 )。 它 指 的 是 这 样 一 个 程序 : 通过 链接 其 他 库 ， 来 满足 未 解决 的 引用 。 



































用 于 在 虚拟 地 址 空间 中 插入 
的 程序 来 说 ， 可 能 C 标 准 库 都 是 必须 映射 的 。 还 需要 添加 


libjpeg， 等 等 。 





























GTK、 数 学 库 、 











LoAD 表 示 一 个 需要 从 二 进 制 文件 映射 到 虚拟 地 址 空间 的 段 ,其 中 保存 了 常量 数据 (如 字符 串 )， 
程序 的 目标 代码 ， 等 等 。 














了 











动态 链接 器 《〈 即 





，INTERP 中 指定 的 解释 器 ) 使 用 的 信息 。 














虚拟 地 址 空间 中 的 








口 NOTE 保 存 了 专 有 信息 ， 这 与 当前 主 


bh 些 节 载 入 到 哪些 段 节 段 映 射 》。。 


题 无 关 。 


于 ELF 文 件 中 特定 段 的 数据 。 因 而 readelf 输 出 的 第 二 部 




















各 个 段 ， 填 充 了 来 























加 


UUO00UIA3200U000000 





0 


























其 他 平台 基本 上 采用 了 同样 的 方法 , 但 取决 于 特定 的 体系 结构 ， 可 能 有 不 同 的 节 映 射 到 各 个 内 存 
FP， 如 以 下 IA-64 的 例子 所 示 : 





wolfgang@meitner> 


Elf file type is 
Entry point 0x40 





Program Headers: 
Type 
PHDR 
INTERP 


[Requesting 
LOAD 





There are 7 program headers, 


readelf -1 test ia64 

EXEC (Executable file) 
000000000004e0 

starting at offset 64 














Offset VirtAdgdr PhysAddr 
FileSiz MemSiz Flags Align 
0x0000000000000040 0x4000000000000040 0x4000000000000040 
0x0000000000000188 0x0000000000000188 RE8 
0x00000000000001c8 0x40000000000001c8 0x40000000000001c8 
0x0000000000000018 0x0000000000000018 R 1 

program interpreter: /lib/ld-linux-ia64.so.2] 
0x0000000000000000 0x4000000000000000 0x4000000000000000 























@ 物理 地 址 信息 将 被 忽 














各, 因为 该 信息 是 由 内 核 根据 物理 页 帧 到 虚拟 地 址 空间 中 相应 位 置 的 映射 情况 而 动态 分 配 的 。 











只 有 在 没有 MMU (了 因 





























而 没有 虚拟 内 存 ) 的 系统 上 ， 该 信息 才 是 有 意义 的 ， 例 如 小 型 的 嵌入 式 处 理 器 。 











@ 原 书 〈 德 文 版 /英文 版 





) 在 很 多 处 均 未 区 分 section/segment， 但 ELF 规 范 实际 上 是 区 分 节 / 段 概念 的 。 一 一 译 者 注 





UUE EIFOUUDUDD 


1003 





0x00000000000009f0 
0x00000000000009f0 
0x0000000000000270 
0x00000000000009f8 
0x00000000000001a0 
0x00000000000001e0 
0x0000000000000020 
0x00000000000009a8 
0x0000000000000048 


LOAD 


DYNAMIC 


NOTE 


IA_64_UNWIND 


Section to Segment mapping: 
Segment Sections... 

















0x00000000000009f0 
0x60000000000009f0 
0x0000000000000280 
0x60000000000009f8 
0x00000000000001a0 
0x40000000000001e0 
0x0000000000000020 
0x40000000000009a8 
0x0000000000000048 


RE10000 
0x60000000000009f0 
RW 10000 
0x60000000000009f8 
RW 8 
0x40000000000001e0 
R 4 
0x40000000000009a8 
R 8 





00 

01 .interp 

02 .interp .note.ABI-tag .hash .dynsym .dynstr .gnu.version .gnu.version r 
.rela.IA 64.pltoff .init .plt .text .fini .rodata .opd 
.IA_64.unwind_ info .IA 64.unwind 

03 .data .dynamic .ctors .dtors .jcr .got .IA 64.pltoff .sdata .sbss .bss 

04 .dynamic 

05 .note.ABI-tag 

06 .IA 64.unwind 

不 用 惊讶 这 里 使 用 了 64 位 地 址 ， 显 然 还 添加 了 男 外 一 个 类 型 为 TA_64_UNWIND 的 段 。 该 段 存储 了 

















0D0U0Uunwind0 口 口 ， 用 于 分 析 栈 帧 《例如 ， 








如 果 需 要 生成 调用 栈 














I 


大 | 





漳 的 话 ) 。 











为 一 些 与 体系 结构 


相关 ， 使 得 在 IA-64 系 统 上 不 能 只 通过 分 析 栈 的 内 容 来 生成 栈 回溯 。" 各 段 的 确切 语义 将 在 下 文 讨论 。 














UUU0U0000U000IA-320 readeltd UU UD 0%2000 ran 
DOD ox8048000 + Ox0046d = 0x0804846d[] DUUD .note.ABI DD0UUDU0UO 





0D 0x08048000 








D000000000000060 Nored0000 x080481080 0 0 0x08048108 + 
0x00020 = ox080481280 DDOD0U00000200ELFO0000U0U0UUUUO 
E.1.3 节 





ELF 文 件 中 描述 各 段 的 内 容 时 ， 是 指定 了 将 哪些 节 的 数据 映射 到 段 中 。 男 一 个 表 称 之 为 0D 0D ， 



































There are 10 section headers, 


Section Headers: 





























于 管理 文件 的 各 个 节 ， 如 图 E-1 所 示 。reagdelf 同 样 可 


wolfgang@meitner> readelf -S test.o 
starting at 

















offset 0x114: 


利于 显示 文件 的 各 个 节 ， 如 下 所 示 : 











































































































Nr] Name Type Addr 全 上 下 Size ES Flg Lk Inf Al 
0 NULL 00000000 000000 000000 00 0 0 0 
1] .text PROGBITS 00000000 000034 000065 00 AX 0 0 4 
2 .rel.text REL 00000000 000374 000030 08 8 于 4 
3 .data PROGBITS 00000000 00009c 000000 00 WA 0 0 4 
4] .bss NOBITS 00000000 00009c 000000 00 WA 0 0 4 
5] .rodata PROGBITS 00000000 00009c 000025 00 A 0 0 1 
6] .comment PROGBITS 00000000 0000c1 000012 00 0 0 1 
了 meshstrtab STRTAB 00000000 0000d3 000041 00 0 0 1 
8] .symtab SYMTAB 00000000 0002a4 0000b0 10 9 7 4 
(QD IA-64 使 用 DDD 来 存储 过 程 的 局 部 变量 。 处 理 器 为 此 自动 在 其 寄存 器 集合 中 分 配 了 一 个 。 根 据 需 要 ， 这 些 
寄存 器 的 一 部 分 可 以 换 出 到 内 存 ， 这 对 程序 是 透明 的 。 因 为 各 个 过 程 的 寄存 器 栈 大 小 是 不 同 的， 还 可 能 根据 调 
链 的 不 同 而 换 出 不 同 的 寄存 器 ,不 能 像 大 多 数 体系 结构 那样 ,只 通过 帧 指针 反 向 跟踪 栈 帧 而 建立 调用 栈 回 溯 ,IA-64 
机 器 需要 在 二 进 制 文件 中 保存 栈 的 展开 信息 。 




















































































































1004 00B ELFDOO0OOD 
[ 9] .strtab STRTAB 00000000 000354 00001qd 00 0 1 
Key to Flags: 
W (write), A (alloc), X (execute), M (merge), S (strings) 
I (info), L (link order), G (group), x (unknown) 
O (extra OS processing required) o (OS specific), p (processor specific) 
这 里 指定 的 偏 移 量 是 相对 于 二 进 制 文件 (这 里 指定 的 是 0x114〉。 节 信息 无 须 复 制 到 在 虚拟 地 址 
空间 中 为 可 执行 文件 创建 的 最 终 的 进程 映像 。 尽 管 如 此 ， 该 信息 在 二 进 制 文件 中 总 是 存在 的 。 
每 个 节 都 指定 了 一 个 类 型 ， 定 义 了 节 数 据 的 语义 。 例 子 中 最 重要 的 值 就 是 PROGBITS〔 程 序 必须 
解释 的 信息 ， 例 如 ， 三 进 制 代码 了?)、syMmTAB (符号 表 ) 和 REL ( 重 定位 信息 )。sTRTAB 用 于 存储 与 ELF 





格式 有 关 的 字符 串 ， 但 与 程序 没有 直接 关联 。 例 如 ， 节 的 符号 名 称 (如 .text 





































































































































































































或 .comment)。 














各 节 都 指定 了 大 小 和 在 二 进 制 文件 内 部 的 偏 移 量 。adgress 字 段 可 用 于 指定 节 加 载 到 虚拟 地 址 空 
间 中 的 位 置 。 但 因为 例子 处 理 的 是 一 个 可 链接 对 象 ， 目 标 地 址 是 未 定义 的 ， 因 而 表示 为 0。 标 志 表 明 
各 个 节 如 何 访问 或 处 理 。 我 们 对 A 标志 比较 感 兴趣 ， 因 为 它 控制 着 装载 文件 时 是 否 将 节 的 数据 复制 到 
虚拟 地 址 空间 。 

尽管 节 的 名 称 是 可 以 自由 选择 的 ，” Linux (和 所 有 其 他 使 用 ELF 的 类 UNIX 系 统 都 ) 提供 了 若干 
标准 节 ， 其 中 一 些 是 强制 性 的 。 总 有 一 个 名 为 .text 的 节 来 保存 二 进 制 代码 ， 即 与 该 文件 相关 联 的 程 
序 信 息 。.rel.text 保 存 了 text 节 的 重 定位 信息 〈 稍 后 讨论 ) 。 

可 执行 文件 包含 了 一 些 附加 信息 ， 如 下 所 示 : 











wolfgang@meitner> readelf -5 test 


There are 29 section headers, 












































starting at offset 0x27a4: 















































Section Headers: 
[Nr] Name Type Addr Off Size ES Flg Lk Inf Al 
0] NULL 00000000 000000 000000 00 0 0 
1] .interp PROGBITS 080480f£4 0000f4 000013 00 A 0 0 
2] .note.ABI-tag NOTE 08048108 000108 000020 00 A 0 0 
3] .hash HASH 08048128 000128 000030 04 A 4 0 
4] .dynsym DYNSYM 08048158 000158 000070 10A 5 下 
oil STRTAB 080481c8 0001c8 00005e 00 A 0 0 
6] .gnu.version VERSYM 08048226 000226 00000e 02 A 4 0 
7] .gnu.version r VERNEED 08048234 000234 000020 00 A 3 下 
8] .rel.dyn REL 08048254 000254 000008 08 A 4 0 
9] .rel.plt REL 0804825c 00025c 000018 08 A 4 b 
10] nit PROGBITS 08048274 000274 000018 00 AX 0 0 
LI Blt PROGBITS 0804828c 00028c 000040 04 AX 0 0 
12] .text PROGBITS 080482d0 0002gd0 000150 00 AX 0 0 
二 3] -下 二 从 计 PROGBITS 08048420 000420 00001e 00 AX 0 0 
14] .rodata PROGBITS 08048440 000440 00002d 00A 0 0 
15] .data PROGBITS 08049470 000470 00000c 00 WA 0 0 
16] .eh_frame PROGBITS 0804947c 00047c 000004 00 WA 0 0 
17] .dynamic DYNAMIC 08049480 000480 0000c8 08 WA 5 0 
18] .ctors PROGBITS 08049548 000548 000008 00 WA 0 0 
19] .dtors PROGBITS 08049550 000550 000008 00 WA 0 0 
20] .jer PROGBITS 08049558 000558 000004 00 WA 0 0 
21] .got PROGBITS 0804955c 00055c 00001c 04 WA 0 0 
22] .bss NOBITS 08049578 000578 000004 00 WA 0 0 
23] .stab PROGBITS 00000000 000578 0007b0 0c 2 0 
24] .stabstr STRTAB 00000000 000d28 001933 00 0 0 
@ 程序 的 二 进 制 代码 经 常 称 之 为 text， 但 这 当然 是 指 用 作 机 器 代码 的 二 进 制 信息 。 
@) 节 名 以 点 开始 ， 是 由 系统 自身 使 用 的 。 如 果 应 用 程序 想 要 定义 自身 的 节 ， 就 不 应 该 以 点 
称 的 冲突 。 
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文人 人 APPA 和 PADPAAAPO 








以 避免 与 系统 节 名 
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[25] .comment PROGBITS 00000000 00265b 00006c 00 0 0 1 
[26] .shstrtab STRTAB 00000000 0026c7 0000dd 00 0 0 1 
[27] .symtab SYMTAB 00000000 002c2c 000450 10 28 31 4 
[28] .strtab STRTAB 00000000 00307e 0001dq 00 0 0 1 


Key to Flags: 
W (write), A (alloc), X (execute), M (merge), 5S (strings) 


E (LnfG), 


L (link order), G (group), x (unknown) 


O (extra OS processing required) o (OS specific), p (processor specific) 
与 目标 文件 的 10 个 节 相 比 ， 可 执行 文件 有 29 个 节 ， 并 非 所 有 这 些 节 都 与 我 们 讨论 的 主题 相关 。 下 
列 节 是 有 具体 意义 的 。 








预先 初始 化 的 结构 )。 
口 .zxodqata 保 在 了 DD 数据 ， 可 以 读 取 但 不 能 修改 。 例 如 ， 编 译 器 将 出 现在 printf 语 句 中 的 所 














有 静态 字符 串 封 装 到 该 节 。 





























D .interp 保 存 了 解释 器 的 文件 名 ， 这 是 一 个 ASCI[ 字 符 串 。 
D .aata 保 存 了 初始 化 过 的 数据 ,这 是 普通 程序 数据 的 一 部 分 ,可 以 在 程序 运行 时 间 修 改 〈 例 如 ， 

































































口 .init 和 .fini 保 存 了 进程 初始 化 和 结束 所 用 的 代码 。 这 两 个 节 通 常 是 由 编译 器 自动 添加 的 ， 


无 须 应 月 








程序 员 关 注 。 








口 .hash 是 
































一 个 散 列 表 , 允许 在 不 对 全 表 元 素 进行 线性 搜索 的 情况 下 , 快速 访问 所 有 的 符号 表 项 。 




















六 《对 于 可 











间 中 某 些 定义 好 的 位 置 。 在 Linux 下 
E.1.4 ”符号 表 


符号 表 是 每 个 ELF 文 件 的 一 个 恒 

















数 。 如 果 程 序 引 




















] 了 一 个 自身 代码 未 定义 的 符号 , 则 称 之 为 0 DDDD“《 例 如, 例子 中 的 printf 函 数 ， 


























执行 文件 ) 的 adgress 字 段 保存 了 有 效 的 值 ， 因 为 相应 的 代码 必须 映射 到 虚拟 地 址 空 


























x 

















， 对 应 用 程序 通常 使 用 0x08000000 以 上 的 内 存 区 。 











要 部 分 ， 因 为 它 保存 了 程序 实现 或 使 用 的 所 有 《全 局 ) 变量 和 函 












































就 是 定义 在 C 标 准 库 中 )。 此 类 引用 必须 在 静态 链接 期 间 用 其 他 目标 模块 或 库 解 决 , 或 在 加 载 时 间 通 过 








动态 链接 使 用 






































19-linux.so) 解决 。 nm 工具 可 生成 程序 定义 和 使 用 的 所 有 符号 列表 ， 如 下 所 示 : 











wolfgang@meitner> nm test.o 


00000000 了 


0000001a 工 


add 

UU exit 
main 
peintt 














左 侧 一 列 给 出 了 符号 的 值 ， 即 符号 定义 在 目标 文件 中 的 位 置 。 例 子 包 括 两 个 不 同 的 符号 类 型 ， 函 








数 定义 在 text 段 









































， 以 下 例子 只 给 出 了 同时 出 现在 

















《由 缩写 T 标 明 )， 而 未 定义 的 引用 由 UV 标明。 逻辑 上 ， 未 定义 的 引用 没有 符号 值 。 
在 可 执行 文件 中 还 会 出 现 更 多 符号 。 但 由 于 大 多 数 都 是 编译 器 自动 生成 的 ， 供 运行 时 系统 内 部 使 






























































目标 文件 中 的 符号 














wolfgang@meitner> nm test 


08048388 了 


080483a2 了 


add 

U exit@@GLIBC 2.0 
main 

U printf@@GLIBC 2 





.0 











exit 和 printf 仍 然 是 未 定义 的 ， 但 同时 增加 了 一 些 信息 ， 表 明 能 够 提供 函数 的 GNU 标 准 库 的 最 


低 版 本 在 例子 











中 版 本 号 看 起 


体 ， 它 将 换 了 旧版 本 。 











FP， 要 求 库 的 版 本 不 能 低 于 2.0， 这 意味 着 该 程序 无 法 利用 Libc5 和 Libc4" 工 作 )。 由 程 





























来 相当 古怪 ， 但 却 是 正确 的 。Libc4 和 Libc5 是 Linux 专 用 的 C 标 准 库 ，Glibc 2.0 是 该 库 的 第 一 个 跨 平台 变 
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序 本 身 定义 的 add 和 main 符 号 已 经 移 到 虚拟 地 址 空间 中 的 固定 位 置 ( 在 文件 加 载 时 ， 对 应 的 代码 将 映 
射 到 这 些 位 置 )。 


ELF 是 如 


口 





简 言 之 ，.symtab 节 中 的 每 一 项 由 


何 实现 符号 表 机 
























































剖 的 ? 以 下 3 个 节 用 于 容纳 相关 的 数据 。 

口 .symtab 确 定 符号 的 名 称 与 其 值 之 间 的 关联 。 但 符号 的 名 称 不 是 直接 以 字符 串 形 式 出 现 的 ,而 
是 表示 为 某 个 字符 串 数 组 的 索引 。 
.strtab 保 存 了 字符 串 数组 。 
口 .hash 保 存 了 一 个 散 列 表 ， 以 帮助 快速 查找 符号 。 


















































接 下 来 会 看 到 ， 实 际 情 











况 要 稍微 复杂 一 些 ， 



































个 元 素 组 成 ， 符 号 名 在 字符 串 表 中 的 位 置 和 符号 的 值 。 读 者 














因为 需要 为 每 一 项 考虑 更 多 的 信息 。 

































































E.1.5 字符 串 表 
图 E-2 说 明了 字符 串 表 是 如 何在 ELF 文 件 中 实现 
图 E-2 ”ELF 文件 的 字符 串 表 
表 的 第 一 个 字 节 是 0， 后 续 的 各 字符 串通 过 0 字 节 分 隔 。 


为 

















引用 一 个 字符 串 ， 必 须 指 定 一 个 位 置 ， 

















即 该 数组 的 一 个 索引 。 这 将 选中 下 一 个 0 字 节 之 前 的 所 




















有 字符 

















《如 果 将 0 字 节 的 位 置 
































j 作 索引 ， 那 么 就 对 应 于 空 串 )。 如 果 人 允许 索引 不 仅仅 选择 字符 串 的 起 始 
































位 置 ， 


“SS 








名 称 ( 


列 如 ， .text) 


trtab 不 是 默认 情况 下 ELF 文 件 中 唯 





可 以 选择 字符 串 中 间 的 任何 位 置 ， 


就 能 够 支持 子 串 的 用 法 (非常 受 限 )。 


























的 字符 串 表 。.shstrtab 用 于 存放 文件 中 各 个 节 的 文本 

















o 


E.2 内核 中 的 数据 结构 
内 核 在 两 处 使 用 了 ELF 文 件 格式 。 首 先 ，ELF 用 于 处 理 可 执行 文件 和 库 。 其 次 ， 用 于 实现 模块 。 














日 了 不 同 的 代码 来 读 取 和 操作 数据 ， 但 这 两 种 情形 都 利用 了 本 节 介 绍 的 数据 结构 。 其 基础 








其 中 实现 了 ELF 标 准 ， 




















为 ELF 是 一 个 处 理 器 和 体系 结构 无 关 





这 些 地 方 使 月 

就 是 <eLE.h> 头 文件 ， 

E.2.1 数据 类 型 
因 

序 )， 

机 器 

所 有 



































<elf.h> 


/* 32 位 ELF 基 础 类 型 。 */ 


typedef _ _u32 
typedef _ ul16 
typedef _ _u32 
typedef _ _s32 


Elf32_Addr; 
Elf32_Half; 
El1Ef32_Off'; 
Elf32_Sword; 


















































基本 未 作 改 动 。 








的 格式 ， 它 不 能 依赖 特定 的 字 长 或 字 节 序 〈 小 端 序 或 大 端 

















至 少 对 文件 中 那些 需要 在 所 有 系统 上 读 取 和 理解 的 数据 元 素来 说 ， 是 这 样 。 出 现在 .text 段 中 的 
尺码 ， 存 储 为 宿主 系统 的 表示 形式 ， 以 避免 笨拙 的 转换 操作 。 为 此 内 核定 义 了 一 些 数据 类 型 ， 在 
本 系 结构 上 上 共有 相同 的 位 宽 ， 如 下 所 示 : 
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[es| 








E.2.2 ” 头 部 
对 ELF 格 式 站 


typedef _ u32 Elf32_Word; 


/* 64 位 ELF 基 础 类 型 。 */ 
typedef _ u64 Elf64 Addr; 
typedef _ u16 Elf64 Half; 
typedef _ s16 Elf64 SHalf; 
typedef _ u64 Elf64 Off; 
typedef _ s32 Elf64 Sword; 
typedef _ u32 Elf64_ Word; 
typedef _ u64 Elf64 Xxword; 
typedef _ s64 Elf64 Sxword; 


为 体系 结构 相关 的 代码 必须 总 是 明确 定义 整数 类 型 的 符 
不 费力 地 直接 通过 typedef 实 现 。 





东 准 的 数据 类 型 可 以 点 





由 
>h 
es 
Et 
澡 
四 
已 
2 























1. ELF 头 





<elf.h> 


typedef struct elf32_hdr{ 





FP 的 各 种 头 部 结构 ，32 位 和 64 位 系统 需要 分 别 定义 数据 结构 。 





























在 32 位 体系 结构 上 ，ELF 文 件 的 头 部 标识 由 以 下 数据 结构 表示 : 























unsigned char e_ ident[EI_ NIDENT]; 
Elf32_Half e_type; 
Elf32_Half e_machine; 
Elf32_Word e_version; 
Elf3 2_Addr e_entry; /* 入 口 点 */ 
Elf32_Off e_phoff; 
Elf32_Off e_shoff; 
Elf32_Word e_flags; 
Elf32_Half e_ehsize; 
Elf32_Half e_phentsize; 
Elf32_Half e_phnum; 
Elf32_Half e_shentsize; 
Elf32_Half e_shnum; 
Elf32_Half e_shstrndx; 

} Elf32._ Ehdr; 











各 成 员 项 的 语义 如 下 。 
口 e_ident 可 容纳 16 (EI_NIDENT) 个 字 节 , 这 些 字 节 在 所 有 体系 结构 上 都 由 char 数 据 类 型 表示 。 





























前 四 个 字 


和 EI_CLASS (4) 标识 文件 的 类 别 ， 将 文件 分 为 32 位 和 64 位 两 类 。 当 前 ， 定 义 的 值 包括 
ELFCLASS32 和 ELFCLASS64。 














节 包 含 了 0x7f 和 字母 E、L、F， 如 前 所 述 。 辕 干 其 他 的 学 节 位 置 有 特定 的 语义 。 






































on) 











EI_DATA (5) 指定 了 格式 使 用 的 字 节 序 。ELFDATA2LSB 代 表 least significant byte (因而 是 小 


端 序 ) 























， [而 ELFDATA2MSB 代 表 most significant byte (因而 是 大 端 序 )。 











昌 ETI_VERSION (6) 表示 ELF 头 的 文件 版 本 《该 版 本 可 能 独立 于 数据 段 的 版 本 ) 。 当 前 ， 只 多 





许 使 用 











EV_CURRENT， 这 是 第 一 个 版 本 。 





























四 从 EI_PAD《7) 起 ，ELF 头 的 标识 部 分 剩余 的 字 节 用 0 填充 ， 因 为 这 些 位 置 “目前 ) 尚 不 需要 。 
口 e_type 用 于 区 分 表 E-1 列 出 的 各 种 ELF 文 件 类 型 。 



























































@ 在 此 处 和 其 他 许多 地 方 ，ELF 标 准 实际 上 都 定义 了 表示 “未 定义 ”或 “无 效 ” 的 常数 。 为 简单 起 见 ， 描 述 中 没有 
包含 这 些 常 数 。 
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表 E-1 ELF 文件 类 型 
值 语 义 
ET_REL Relocatable file (object file) 
ET_EXEC Executable file 
ET_DYN Dynamic library 
ET_CORE Core dump 


口 e machine 指 定 了 文件 所 需 的 体系 结构 。 表 E-2 列 


口 





口 





DoOOOODOOOD 


64 位 下 ELF 头 
是 其 32 位 对 应 物 ， 这 使 得 文件 头 稍 大 。 但 这 两 种 变 体 的 放 
根据 这 些 字 节 ， 来 识别 用 于 不 同 字 长 机 器 的 ELF 文 件 ， 如 下 所 示 : 








系 结构 都 需要 定义 函数 el 
可 以 在 相应 的 体系 结构 
e_version 保 存 了 版 本 信息 ， 


EV_CURRENT 表 示 。 








正确 运行 。 
用 
































e_entry 给 出 了 文件 在 虚拟 内 存 中 的 入 口 














始 的 位 置 。 

















上 上 口 








e_phoff 存 储 了 程序 头 表 在 二 进 制 文 从 
e_shoff 保 存 了 节 头 表 所 在 的 偏 移 量 




















f_check_arch， 












































Bh 了 Linux 六 持 的 各 种 选项 。 请 注意 ， 每 种 体 
1 内 核 的 通用 





代码 使 用 ， 来 确保 加 载 的 ELF 文 件 














点 。 这 是 在 程序 已 经 加 载 





里 





o 





志 。 当 前 ， 内 核 不 使 用 该 数据 。 














e_flags 可 以 保存 特定 于 处 理 器 的 标 
e_ehsize 指 定 了 ELEF 头 的 长 度 ， 单 














e_phnum 指 定 了 程序 头 表 中 项 的 数 





目 。 


位 为 字 节 。 
e_phentsize 指 定 了 程序 头 表 中 一 项 的 长 度 ， 单 位 为 字 节 〈 所 有 - 














于 区 分 不 同 的 ELF 变 体 。 但 目前 该 规范 只 定义 了 版 本 1。 由 














映射 到 内 存 中 之 后 ， 执 行 

















页 的 长 度 都 相同 ) 。 





























e_shentsize 指 定 节 头 表 中 一 项 的 长 度 ， 单 位 为 字 节 《所 有 项 的 长 度 都 相同 ) 。 








e_shnum 指 定 了 节 头 表 中 项 的 数目 。 
e_shstrndx 保 存 了 包含 各 节 名 称 











的 字符 串 表 在 节 头 表 中 的 索引 位 置 。 























的 数据 结构 可 同样 定义 。" 


卫 








的 差别 在 于 ， 其 



































<elf.h> 
typedef struct elfé64 hdr { 


! 


unsigned char e_ ident[16]; A 
1f64 Half e_ type; 
1f64 _ Half e machine; 
1f64 Word e_ version; 
1f64_Addr e_entry; 
1f64_Off e phoff; 
1f64_Off e_ shoff; 


E 

E 

E 

E Ve 
E 

E 

Elf64 _ Word e_flags; 
E 

E 

E 

E 

E 

E 


/* 
/* 


1f64 Half e_ ehsize; 
1f64 Half e phentsize; 
1f64 _ Half e_phnum; 
1f64_ Half e_shentsize; 
1f64_ Half e_shnum; 
1f64 Half e_shstrndx; 
Elf64_ Ehdr; 








ELE" 魔 数 " 


入 


程 


二 


J16 季 六 








4 





上 * 





点 的 虚拟 地 









































中 使 用 了 对 应 的 64 位 数据 类 型 ， 而 不 
是 相同 的 。 两 种 体系 结构 类 型 都 能 够 


/ 


序 头 表 在 文件 中 的 偏 移 量 */ 


节 头 表 在 文件 中 的 偏 移 量 */ 
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表 E-2 ”由 ELF 支 持 的 体系 结构 





























值 体系 结构 
EM_SPARC 32-bit Sparc 
EM_SPARC32PLUS 32-bit Sparc ("v8 Plus") 
EM_SPARCV9 64-bit Sparc 
EM 386 and ELF 486 IA-32 
EM IA 64 IA-64 
EM X86_64 AMD64 
EM_68K Motorola 68K 
EM_MIPS Mips 
EM_PARISC Hewlet-Packard PA-Risc 
EM_PPC 了 PowerPC 
EM_PPC64 PowerPC 64 
EM_SH Hitachi SuperH 
EM_S390 IBM S/390 
EM_S390_OLD Former interim value for S390 
EM_CRIS Axis Communications Cris 
EM V850 NEC v850 
EM_H8_300H Hitachi H8/300H 
EM_ALPHA Alpha AXP 
EM_M32R Renseas M32R 
EM_H8_300 Renseas H8/300 
EM_FRV Fujitsu FR-V 
2. 程序 头 表 
程序 头 表 由 儿 个 项 组 成 ， 其 处 理 方式 类 似 于 数组 项 (项 的 数目 ， 由 ELF 头 中 的 e_phnum 指 定 )。 





















































表 项 的 数据 类 型 定义 为 一 个 独立 的 结构 。 在 32 位 系统 上 ， 其 内 容 如 下 : 


<elf.h> 
typedef struct elf32_phdr{ 
Elf32_Word p_type; 
Elf32_Off p_offset; 
Elf32_Addr p_vaddr; 
El1f32_Addr p_paddr; 
Elf32_Word p_filesz; 
Elf32_Word p_memsz; 
Elf32_Word p_flags; 
Elf32_Word p_align; 

} Elf32_Phdr; 


各 成 员 的 语义 如 下 。 

口 p_type 表 示 当 前 项 描述 的 段 的 种 类 。 为 此 定义 了 下 列 常 数 。 
和 PT_NULL 表 示 的 段 。 

PT_LORAD 用 于 表示 可 装载 段 ， 在 程序 执行 前 从 二 进 制 文 件 映射 到 内 存 。 

PT_DYNAMIC 表 示 段 包含 了 用 于 动态 链接 器 〈 在 E.2.6 节 讨论 ) 的 信息 。 

PT_INTERP 表 示 当 前 段 指 定 了 用 于 动态 链接 的 程序 解释 器 。 通 常 是 lda-linux.so, 前 面 讲 过 。 

PT_NOTE 指 定 一 个 段 ， 其 中 可 能 包含 专 有 的 编译 器 信息 。 
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还 有 两 个 常数 ， 定 义 用 于 处 理 器 相关 的 用 途 ， 内 核 并 不 使 用 。 
口 p_offset 给 出 了 所 述 段 在 文件 中 的 偏 移 量 〈 从 二 进 制 文 件 起 始 处 开始 计算 ， 单 位 为 字 节 )。 


口 
口 





读者 在 下 列 代码 
别 在 于 所 月 








口 p_vaggr 给 出 了 段 的 数 提 
寻 址 ， 不 文 持 虚拟 寻 址 的 系统 ， 将 使 














映射 到 虚拟 

















弛 址 空间 中 
jp_padgr 保 存 的 信息 。 
































的 位 置 (对 PT LOAD 类 型 的 段 )。 只 文 持 物理 














p_filesz 指 定 了 段 在 二 进 制 文件 中 的 长 度 《〈 单 位 为 字 节 )。 


p_memsz 指 定 了 上 段 在 
截断 数据 或 填充 0 字 节 来 补偿 




















虚拟 地 址 空间 中 

















云 o 


























的 长 度 〈 单 位 为 字 节 )。 与 文件 中 物 














De 














里 的 长 度 差 什 

















可 通过 


I 




















p_flags 保 存 了 标志 信息 ,定义 了 该 段 的 访问 权限 。PF_R 表 示 读 权限 ，PF_mwW 表 示 写 权限 ，PF_X 





b_align 的 ， 卓 


到 4 KiB 页 。 








<elf.h> 
typedef struct elf64 phdr { 
Elf64_ Word p_type; 
Elf64 Word p_flags; 
Elf64 Off p_offset; 
Elf64 Addr p_vaddr; 
Elf64_Addr p_paddr; 
Elf64 Xxword p_filesz; 
Elf64 xXword p_memsz; 
Elf64 Xxword p_align; 


} 
3. 


节 头 表 通 过 数组 实现 , 每 个 数组 项 包含 一 节 的 信息 。 各 个 节 构 成 了 程序 头 表 


Elf64_ Phdr; 








表示 执行 权限 。 
p_align 指 定 了 段 在 内 存 和 二 进 
hp_align 的 倍数 )。 








可 以 看 到 ， 对 64 位 
目的 数据 类 型 。 尽 管 如 此 ， 各 数据 项 的 语义 都 是 相同 的 : 








下 列 数据 结构 表示 一 个 节 ; 
<elf.h> 


typedef struct { 
Elf32_Word sh name; 


} 








Elf32_Shdr; 


其 成 员 的 语义 如 下 。 





口 





Oz 


sh_type 指 定 


1f32_Word sh_type; 
l1f32_Word sh_ flags; 
1f32_Addr sh _addr; 
I1f32_Off sh offset; 
Lf32_Word sh_ size; 
Lf32_Word sh _ link; 
1f32_Word sh_info; 
1£f32_Word sh _ addralign; 
1f32_Word sh_entsize; 


口 sh_name 指 定 了 节 的 名 称 。 








的 类 型 。 














/* 段 在 文件 中 的 偏 移 量 */ 
/* 段 虚 拟 地 址 */ 





/* 段 物理 





也 址 */ 


/* 文件 中 段 的 长 度 */ 
/* 内 存 中 段 的 长 度 */ 





/* 段 的 对 齐 值 ， 











在 文件 和 内 存 中 */ 














用 。 


和 SH_NULL 表 示 该 节 不 使 用 。 其 数据 将 忽略 。 


和 SH_PROGBITS 保 存 程序 相关 信 ， 











只， 其 格式 是 不 定义 的 ， 与 这 是 





其 值 不 是 字符 串 本 身 ， 而 是 字符 串 表 的 一 个 索引 。 
有 下 列 类 型 可 











的 讨论 无 关 。 








出 文件 中 对 章 的 方式 (pb_vadqqr 和 pb_offset 地 址 必须 是 模 
例如 ，p_align 的 值 为 0x1000=4096， 这 意味 着 段 必须 对 齐 

















体系 结构 定义 了 类 似 的 数据 结构 。 与 32 位 变 体 相 比 唯一 的 差 
Ph 定 义 的 各 段 的 内 容 。 
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国 S 


国 S 
国 S 
国 S 
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H_SYMTAI 











H_STRTAI 
_ RELA 和 SHT | 


_HASH 定 义 了 一 














讲 过 )。 








国 S 


Sh_ 


节 是 否 包 含 可 执行 的 机 器 代码 (CSHF 
sh_addr 指 定 节 映射 到 虚拟 


4 


sh 





论 。 


_offset 指 定 
sh_size 指 定 了 节 的 长 度 ， A 


sh_ 一 个 节 头 表 项 ， 可 外 


SHT _ 
设置 为 0。 











SHT_H 


程序 的 

















B 保 存 
差别 在 本 附录 稍 后 讨论 。 
B 表 示 一 个 包含 字符 


_DYNAMIC 保 存 了 关于 动态 
还 有 类 型 什 


和 应 用 程序 的 用 途 ， 








个 符 





EL oo 





RI 
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中 
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AT 


到 











立信 


定 








IPROC、 SHI] 
与 这 里 
































链接 的 信息 ， 将 在 E.2.6 节 讨 


[_LOPROC、 





的 节 。 
自 


百 心 ， 站 


节 ， 其 中 保存 了 一 个 散 列 表 ， 使 





雌 竺 





述 的 内 容 无 关 。 





flags 表 示 以 


下 语义 : 


姜 是 




















1ink 引 用 另 











以 地 坟 


不 
[a 


可 写 ( 


S 





EXE 











上 室 间 中 


的 位 置 

















在 文件 中 


节 


始 的 位 


\ 





| 





i 


以 且 。 


o 


SHT_HI 


HF_WRIT. 
CINSTR) 。 


号 表 ， 其 结构 将 在 E.2.4 节 讨论 。sH_DYNSYM 也 保存 一 


构 将 在 E.2.5 节 讨论 。 
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US 


E) ,是 





市 得 an i 


笨 付 配 








| 论 。 








sh_info 与 sh_link 联 用 。 其 确切 语义 











DYMAMIC 类 


























散 多 
口 
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[RE 











口 





AN 





照例 ， 


<elf.h> 


sh 
ec HF 


UD 





的 索引 ， 


表 〈(sHT_HASH 类 
节 头 表 上 


EL 和 SHT RE 





sh_aggralign 指 定 了 节 数 据 帮 
sh_entsize 指 定 了 节 中 各 数 # 
根据 节 类 型 不 同 ，sh_link 和 sh_info 的 
型 的 节 使 有 














型 的 节 ) 





项 的 长 度 ， 前 





使 有 











能 根据 节 类 型 而 进行 不 同 的 解释 。 








了 将 在 下 文 讨论 。 
内存 中 对 章 的 方式 。 
前 提 是 














法 也 : 


























LA 的 重 














节 ， 使 








表示 对 




















link 指 定 了 用 





64 位 系统 有 














紧 随 最 后 一 个 局 


符号 表 














typedef struct elf64 shdr { 





} Elf64_Shdr; 


Elf64_Word sh_ name; 
Elf64_ Word sh _ type; 
Elf64 Xxword sh_ flags 
Elf64_Addr sh_addr; 
Elf64_Off sh offset; 
Elf64 Xword sh size; 
Elf64 Word sh _ link; 
Elf64 Word sh info; 
Elf64 Xword sh addralign; 
Elf64 Xword sh _ entsize; 


-单独 的 数 











EE 定位 。 
和 表 (SHT_SYMTAB 和 SHT_DYNSYM) ， 而 sh_info 表 示 符 号 
局 部 符号 之 后 的 索引 位 置 (STB_LOCAL 类 型 ) 




















日 sh_link 指 向 节 数 据 所 月 





Ar 中 


字符 趾 
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全 ， 
节 类 型 */ 
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EG: 
日 


字符 
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行 时 

牛 吕 


的 索 
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纺 
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ELEF 标 疹 


从 点 开始 ， 





定义 了 
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EE 名称 的 局 











*/ 


的 虚拟 地 
的 偏 移 
立 为 字 


党 人 


yh 


/ 
的 是 表 ， 


且 . 
旱 


i 


表 中 的 索引 */ 


h 址 */ 
*/ 
*/ 





DH 


各 个 表 项 的 长 


表 


ER 和 SHT_LOUS] 











该 特性 





FP 的 项 可 以 更 


PR。 这些 专 供 特定 于 处 到 





接 下 


这 些 数据 项 的 长 度 都 相同 ， 例 如 字 
有 不 同 的 语义 ， 如 下 所 述 。 


个 符号 表 。 二 者 





速 地 查找 〈 前 








大 


否 将 为 其 分 配 虚拟 内 存 (SHEF_ALLOC ) ， 


来 单独 详细 讨 





符 串 表 。 





表 。 这 种 情况 下 不 使 用 sh_info， 


谨 
x 

















于 执行 大 多 数 








标 文 从 














所 需 的 标 六 


sh_ link 指 向 所 散 列 的 符号 表 。sh_info 不 使 
用 sh_link 指 向 相关 的 符号 表 。 














Pan 


sh rs 的 是 


任务 。 

















以 便 与 用 


户 定义 











或 非 标 准 











又 分 。 最 重 








HE 
且 女 





的 标准 节 如 下 所 示 。 


结构 ， 但 其 内 容 与 32 位 系统 没有 不 同 ， 如 下 所 示 : 


所 有 名 称 都 
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口 .bss 保 存 程序 未 初始 化 的 数据 节 ， 在 程序 开始 运行 前 填充 0 字 节 。 

口 .data 包 含 已 经 初始 化 的 程序 数据 。 例如 ,预先 初始 化 的 结构 , 其 中 在 编译 时 填充 了 静态 数据 。 
这 些 数据 可 以 在 程序 运行 期 间 更 改 。 

.rodata 保 存 了 程序 使 用 的 只 读数 据 ， 不 能 修改 ， 例 如 字符 串 。 

.dynamic 和 .dynstr 保 存 了 动态 信息 ， 后 面 将 会 讨论 。 

.interp 保 存 了 程序 解释 器 的 名 称 ， 形 式 为 字符 串 。 

.shstrtab 包 含 了 一 个 字符 串 表 ， 定 义 了 节 名 称 。 

.strtab 保 存 了 一 个 字符 串 表 ， 主 要 包含 了 符号 表 需 要 的 各 个 字符 串 。 

.symtab 保 存 了 二 进 制 文件 的 符号 表 。 
.init 和 .fini 保 在 了 程序 初始 化 和 结束 时 执行 的 机 器 指令 。 这 两 个 节 的 内 容 通常 是 由 编译 器 
及 其 辅助 工具 自动 创建 的 ， 主 要 是 为 程序 建立 一 个 适当 的 运行 时 环境 。 

口 .text 保 存 了 主要 的 机 器 指令 。 


E.2.3 ”字符 串 表 


字符 串 表 的 格式 此 前 在 E.1.5 节 讨论 过 。 因 为 其 格式 非常 动态 , 内 核 不 能 提供 一 个 固定 的 数据 结构 ， 
而 必须 手工 分 析 现 存 数 据 。 
E.2.4 ”符号 表 
符号 表 保存 了 查找 程序 符号 、 为 符号 赋值 、 重 定位 符号 所 需 的 全 部 信息 。 如 上 所 述 ， 有 一 个 专门 
类 型 的 节 来 保存 符号 表 。 符 号 表 表 项 的 格式 由 下 列 数据 结构 定义 : 
<elf.h> 
typedef struct elf32_symt{ 
Elf32_Word st_name; 
Elf32_Addr st_value; 
Elf32_Word st_size; 
unsigned char st_info; 
unsigned char st_other; 


Elf32_Half st_shndx; 
} El1f32_Sym; 


符号 的 主要 任务 是 将 一 个 字符 串 和 一 个 值 关联 起 来 。 例 如 ，printf 符 号 表示 printf 函 数 在 虚拟 
地 址 空间 中 的 地 址 ， 该 函数 的 机 器 代码 就 存在 于 该 地 址 。 符 号 也 可 能 有 绝对 值 ， 由 程序 解释 ， 例 如 数 
值 常数 。 
一 个 符号 的 确切 用 途 由 st_info 定 义 ， 它 分 为 两 部 分 《比特 位 如 何 划分 ， 与 此 处 的 讨论 不 相关 ) 。 
其 中 定义 了 下 列 信息 。 
口 符号 的 0 口 (binding)。 这 确定 了 符号 的 可 见 性 ， 人 允许 有 下 列 3 种 不 同 的 设置 。 
中 口 口 口 (STB_LOCAL)， 只 在 目标 文件 内 部 可 见 ， 在 与 程序 的 其 他 部 分 合并 时 ， 是 不 可 见 
的 。 如 果 一 个 程序 的 几 个 目标 文件 都 定义 同名 的 此 类 符号 ， 是 没有 问题 的 。 只 有 这 些 都 是 
局 部 符号 ， 就 不 会 彼此 干扰 。 
备品 口 口 口 (STB_GLOBAL), 在 定义 的 目标 文件 内 部 可 见 ， 也 可 以 由 构成 程序 的 其 他 目标 文件 
引用 。 每 个 全 局 符号 在 一 个 程序 内 部 都 只 能 定义 一 次 ， 否 则 链接 器 将 报告 错误 。 
指向 全 局 符号 的 未 定义 引用 ， 将 在 重 定位 期 间 确定 相关 符号 的 位 置 。 如 果 对 全 局 各 
定义 引用 无 法 解决 ， 则 拒绝 程序 执行 或 静态 绑 定 。 
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日 曲 口 口 〈《STBP_WEAK)， 也 在 整个 程序 内 可 见 ， 但 可 以 有 多 个 定义 。 如 果 程 序 中 的 一 个 全 局 符 
号 和 一 个 局 部 符号 名 称 相同 ， 全 局 符号 就 将 优先 处 理 。 
即使 一 个 弱 符 号 未 定义 ， 程 序 也 可 以 静态 或 动态 链接 ， 这 种 情况 下 ， 将 为 符号 指定 0 值 。 

口 符号 类 型 有 若干 备 选 值 , 只 有 以 下 3 个 与 目前 的 主题 相关 (对 其 他 值 的 描述 , 由 ELF 标 准 提供 ) 。 

四 STT_ OBJECT 表示 符号 关联 到 一 个 数据 对 象 ， 如 变量 、 数 组 或 指针 。 

昌 STT_FUNC 表 示 符 号 关联 到 一 个 函数 或 过 程 。 

四 STT_NOTYPE 表 示 符 号 的 类 型 未 指定 。 它 用 于 未 定义 引用 。 

Elf32_Sym 结 构 还 包括 st_name、st_value 和 st_info 之 外 的 成 员 。 其 语义 如 下 所 示 。 
口 st_size 指 定 对 象 的 长 度 。 例 如 ， 一 个 指针 的 长 度 或 struct 对 象 中 包含 的 字 节 数 。 如 果 长 度 

未 知 ， 其 值 可 以 设置 为 0。 

口 标准 的 当前 版 本 不 使 用 st_other。 
口 st_shngx 保 存 一 个 节 〔 在 节 头 表 中 ) 的 索引 ， 符 号 将 绑 定 到 该 节 ， 该 符号 通常 定义 在 此 节 的 
代码 中 。 但 下 列 两 个 值 具 有 特殊 的 语义 : 

和 SHN_ABS 指 定 符号 是 绝对 值 ， 不 因 重 定位 而 改变 ; 

和 四 SHN_UNDEF 标 识 未 定义 符号 ， 必 须 通过 外 部 来 源 《〈 如 其 他 目标 文件 或 库 ) 解决 。 

同样 , 符号 表 也 有 一 个 64 位 变 体 , 除了 使 用 的 数据 类 型 不 同 , 其 内 容 与 32 位 的 对 应 结构 是 相同 的 ， 
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如 下 所 示 : 

<elf.h> 

typedef struct elf64 sym { 
Elf£64_Word st_name; /* 符号 名 称 ， 字 符 串 表 中 的 索引 */ 
unsigned char st_info; /* 类 型 和 绑 定 属性 */ 
unsigned char st_other; /* 语义 未 定义 ，0 */ 
Elf64 Half st_shndx; /* 相关 节 的 索引 */ 
Elf64 Addr st_value; /* 符号 的 值 */ 
Elf64 Xxword st_size; /* 符号 的 长 度 */ 





} Elf64_ Sym; 
也 可 以 使 用 reagdelf 来 查找 程序 的 符号 表 中 所 有 的 符号 。 以 下 5 项 在 test.o 目 标 文件 中 特别 重要 
(其 他 的 数据 项 是 由 编译 器 自动 生成 的 ， 与 这 里 的 讨论 无 关 ) : 


wolfgang@meitner> readelf -s test.o 
Num: Value Size Type Bind Vis Ndx Name 

































































1: 00000000 0 FILE LOCAL DEFAULT ABS test.c 




















7: 00000000 26 FUNC GLOBAL DEFAULT 1 add 

8: 00000000 0 NOTYPE GLOBAL DEFAULT UND printf 
9: 0000001a 75 FUNC GLOBAL DEFAULT 1 main 

10: 00000000 0 NOTYPE GLOBAL DEFAULT UND exit 





























源 文件 的 名 称 存储 为 一 个 绝对 值 ， 它 是 常数 ， 不 随 重 定位 而 改变 。 该 局 部 符号 使 用 sTT_FILE 类 
型 ， 将 一 个 目标 文件 关联 到 对 应 的 源 文件 。 
文件 中 定义 的 两 个 函数 main 和 aa， 存储 为 srf_FUNC 类 型 的 全 局 符号 。 两 个 符号 都 指向 节 1， 即 
文件 的 .text 节 ， 保 存 了 这 两 个 函数 的 机 器 代码 。 
printf 和 exit 符 号 属于 未 定义 引用 ， 节 索引 值 为 bwp。 因 而 ， 在 程序 链接 时 它们 必须 关联 到 标准 
库 中 的 函数 〈 或 其 他 库 中 以 该 名 称 定义 的 符号 )。 因 为 编译 器 并 不 指定 所 涉及 符号 的 类 型 ， 因 而 这 两 


人 hp 吕 


个 符号 的 类 型 是 SmrT_NoTYPE。 
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E.2.5 重 定位 项 

重 定位 是 将 ELF 文 件 中 未 定义 符号 关联 到 有 效 值 的 处 理 过 程 。 在 标准 的 例子 test .o) 中 ， 这 意 
味 着 对 printt 和 exit 的 未 定义 引用 必须 蔡 换 为 该 进程 的 虚拟 地 址 空间 中 适当 的 机 器 代码 所 在 的 地 
址 。 在 目标 文件 中 用 到 相关 符号 之 处 ， 都 必须 蔡 换 。 

对 用 户 空间 程序 的 符号 替换 ， 内 核 并 不 涉 入 其 中 ， 因 为 所 有 的 替换 操作 都 是 由 外 部 工具 完成 的 。 
对 内 核 模块 来 说 ， 情 况 有 所 不 同 ， 如 第 7 章 所 讲 。 因 为 内 核 所 收 到 的 模块 裸 数据 ， 与 其 存储 在 二 进 抽 
文件 中 的 形式 完全 相同 ， 内 核 本 身 需要 负责 重 定位 操作 。 

在 每 个 目标 文件 中 ， 都 有 一 个 专门 的 表 ， 包 含 了 重 定位 项 ， 标 识 了 需要 进行 重 定位 之 处 。 每 个 表 














项 都 包含 下 列 








Es 





百世: 








Aor 


口 对 符号 


为 说 明 如 何 使 用 


D 一 个 10D ， 指 定 了 








的 引用 

















文件 中 所 有 的 重 定位 项 ， 
wolfgang@meitner> readelf -r test.o 


Relocation section 
Offset Info Type Sym.Value Sym. Name 


00000009 
0000000e 
00000046 
00000050 
00000055 
00000061 


00000501 
00000802 
00000702 
00000501 
00000802 
00000a02 


ET 
而 妇 





重 定位 信 ， 





如 下 所 示 : 





在 程序 运行 时 或 链接 test.o 产 生 可 执行 文 从 
尚 不 明确 的 函数 或 符号 ， 则 将 使 用 Offset 列 的 信息 。main 的 ? 
偏 移 量 0x46 (adqd)、0xe 和 0x55 (printf)、0x61 (exit)， 这 些 可 以 使 











‘.rel.text’ 


R_386_32 00000000 
R_386_PC32 00000000 printf 
R_386_PC32 00000000 add 
R_386_32 00000000 
R_386_PC32 00000000 printf 
R_386_PC32 00000000 exit 


修改 的 项 的 位 置 ; 
(符号 表 的 索引 ) ， 提 供 了 需要 提 








EH 























行 在 输出 中 以 斜体 表示 : 


wolfgang@meitner> objdump - disassemble test.o 





0000001a <main>: 


Las 
ys 
1d: 
20s 


在 printf 和 aqq 函 数 的 地 址 已 经 确定 后 ， 必 须 将 其 捐 


e5 
ec 
ed 
00 
C4 
45 
45 
45 
44 
45 
04 
已 
45 
04 
Re 
04 
Ee: 





EE 


00 


00 
00 


00 00 
00 00 


00 00 


00 00 








push 
mov 
sub 
and 
mov 
sub 
movl 
movil 
mov 
mov 
mov 
mov 
call 
mov 
movl 
call 
movil 
call 











.rodata 


.rodata 


F 时 ， 如 果菜 些 机 器 代码 引 

















入 到 重 定位 位 置 的 数据 。 
妃 ， 我 们 再 来 看 一 下 此 前 的 test .c 测 试 程序 。 首 先 ， 使 用 readelf 显 示 








at offset 0x374 contains 6 entries: 

















了 虚拟 地 址 空间 中 位 置 














函数， 分 别 位 于 
































[ 编 语言 代码 调用 了 若 
用 objaump 

g% ebp 

Sesp, Sebp 

$0x18,%Sesp 

SOxfffffff0,S%esp 

$0x0, Seax 

Seax, Sesp 

SOx3,0xfffffffc(%Sebp) 

$0Ox4, Oxfffffff8 (Sebp) 

Oxfffffff8(%ebp),%Seax 

Seax, Ox4 (Sesp,1) 

Oxfffffffc(%ebp),$Seax 

Seax, (Sesp,1) 

46 <main+0x2c> 

Seax, Oxfffffff4(%ebp) 








$0Ox17, (Sesp,1) 
55 <main+0x3b> 
$0x0, (Sesp,1) 

61 <main+0x47> 


[ 具 看 到 。 相 关 的 








有 入 到 指定 的 偏 移 量 处 ， 以 便 生成 能 够 正确 运 
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行 的 可 执行 代码 。 
1. 数据 结构 
遗憾 的 是 ， 由 于 技术 原因 ， 有 两 种 类 型 的 重 定 位 信息 ， 由 两 种 稍 有 不 同 的 数据 结构 表示 。 第 一 种 
类 型 称 之 为 普通 重 定位 。SHT_REL 类 型 的 节 中 的 重 定 位 表 项 由 以 下 数据 结构 定义 : 
<elf.h> 
typedef struct elf32_rel { 
Elf32_Addr r_offset; 
Elf32_Word r_info; 
} Elf32_Rel; 
r_offset 指 定 需 要 重 定位 的 项 的 位 置 ，r_info 不 仅 提 供 了 符号 表 中 的 一 个 位 置 ， 还 包括 重 定位 
类 型 的 有 关 信 息 〈 稍 后 讲述 )。 这 是 通过 将 值 划分 为 两 部 分 来 达到 的 “具体 的 划分 方式 并 不 重要 ) 。 
另 一 种 类 型 ， 称 之 为 需要 添加 常数 的 重 定位 项 ， 上 只 出 现在 SHT_RELA 类 型 的 节 中 。 这 种 表 项 由 下 
列 数据 结构 定义 ; 
<elf.h> 


typedef struct elf32_relat 





} Elf32_Rela; 


















































Elf32_Addr r_offset; 
Elf32_Word r_info; 
Elf32_Sword r_addend; 
































































































































































































































































































































这 里 除了 第 一 种 重 定位 类 型 提供 的 r_offset 和 r_info 字 有 段 之 外 ， 还 补充 了 r_adqend 指 定 ， 其 中 
包含 一 个 称 之 为 口 《addend) 的 值 。 在 计算 重 定位 值 时 ， 将 根据 重 定位 类 型 ， 对 该 值 进行 不 同 的 
处 理 。 

DUOO0OO0O0U0eltf2reaUU0OO0O00000000000000000000000 
DOOD0000000000000000000000000000000000U00 
DUOOO0O0000 
对 两 种 重 定位 类 型 ， 都 有 功能 等 效 的 64 位 数据 结构 : 
<elf.h> 

typedef struct elf64_rel { 

El1f64_Addr r_offset; /* 应 用 重 定位 操作 的 位 置 */ 
Elf64_Xword r_info; /* 重 定位 类 型 和 符号 表 索 引 */ 

} Elf64 Rel; 

<elf.h> 

typedef struct elf64 rela { 

Elf64_Addr r_offset; /* 应 用 重 定位 操作 的 位 置 */ 
Elf64 Xxword r_info; /* 重 定位 类 型 和 符号 表 索 引 */ 
Elf64_Sxword r_addend; /* 用 于 计算 值 的 常量 加 数 */ 

} Elf64 Rela; 

于 这 两 个 结构 与 其 32 位 对 应 物 非常 相似 ， 这 里 不 再 讨论 。 

2. 重 定位 类 型 

ELF 标 准 定义 了 许多 重 定位 类 型 ， 对 每 种 支持 的 体系 结构 ， 都 有 一 个 独立 的 集合 。 这 些 类 型 大 部 
分 用 于 生成 动态 库 或 与 装载 位 置 无 关 的 代码 。 在 一 些 平 台 上 ， 特 别 是 IA-32 平 台 ， 还 必须 弥补 许多 设 
计 错 误 或 历史 包容 。 幸 运 的 是 ，Linux 内 核 上 只 对 模块 的 重 定位 感 兴趣 ， 因 此 用 以 下 两 种 重 定位 类 型 也 
就 够 用 了 : 


口 相对 重 定 位 ; 
口 绝对 重 定位 。 
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相对 重 定位 生成 的 重 定位 表 项 指向 相对 于 口 口 口 口 口 program counter, 简称 PC， 亦 即 指令 指针 ) 
指定 的 内 存 地 址 。” 这 些 主要 用 于 子 例 程 调用 。 另 一 种 重 定位 生成 绝对 地 址 ， 从 名 字 就 能 看 出 来 。 通 
常 ， 这 种 重 定位 项 指向 内 存 中 在 编译 时 就 已 知 的 数据 ， 例 如 字符 串 常数 。 

在 IA-32 系 统 上 ,这 两 种 重 定位 类 型 由 常数 R_386_Pc32 (相对 重 定位 ) 和 R_386_32 (绝对 重 定 位 ) 
表示 。 重 定位 结果 计算 如 下 : 






















































































R_386_32 :Result=S+A 
R_386_PC32 :Result=S—P+A 

4 代表 加 数值 ， 在 IA-32 体 系 结构 上 ， 由 重 定位 位 置 处 的 内 存 内 容 隐 式 提供 。5 是 符号 表 中 保存 的 
符号 的 值 ， 而 P 代 表 重 新 定位 的 位 置 偏 移 量 ， 换 言 之 ， 即 算出 的 数据 写 入 到 二 进 制 文件 中 的 位 置 偏 移 
量 。 如 果 加 数值 为 0， 那 么 绝对 重 定位 只 是 将 符号 表 中 符号 的 值 插 入 在 重 定位 位 置 。 但 在 相对 重 定位 
中 ， 需 要 计算 符号 位 置 和 重 定位 位 置 之 间 的 差 值 。 换 言 之 ， 需 要 通过 计算 确定 符号 与 重 定位 位 置 相距 
多 少 字 市 。 
在 这 两 种 情况 下 ， 都 会 加 上 加 数值 

en0U0000D0 

测试 文件 test .o 包 括 以 下 调用 语句 : 

45: e8 fc ff ff ff call 46 <main+0x2c> 

e8 是 cal1 语 名 的 操作 码 ， 而 0xffffffffc (小 端 序 表示 法 ! ) 是 传递 给 cal1 作 为 参数 的 值 。 因 为 IJA-32 
使 用 普通 的 重 定位 而 不 是 加 式 重 定位 ， 该 值 就 是 加 数值 。 因 而 ，0xfffffffec 不 是 最 终 地 址 ， 而 必须 通过 
二 位 过 程 进 行 处 理 。 换 算 成 十 进 制 ，0xfffffffe 对 应 于 值 -4， 但 应 该 注意 到 这 里 使 用 了 2 的 补 码 来 表示 






























































tu 






















































































































































































天 而 使 结果 产生 一 个 线性 位 移 。 






































































































































Cn 加 可 有 可 加 可 是 
国有 


如 重 定位 表 所 示 ， 重 定位 位 置 46 是 add 函 数 调 用 。 
00000046 00000702 R_386_PC32 00000000 adq 
因为 二 进 制 文件 的 节 在 重 定 位 之 前 就 会 移动 到 其 在 内 存 中 的 最 终 位 置 ，adqd 在 内 存 中 的 位 置 是 已 
知 的 。 例 如 ， 如 果 aaq 位 于 0x08048388， 那 么 main 函 数 应 该 在 位 置 0x080483a2， 这 意味 着 重 定位 结果 
应 该 写 入 到 重 定位 位 置 0x80483ce。 
重 定位 结果 使 用 相对 重 定位 的 公式 计算 : 
Result = S—P +A 
= 0x08048388 -0x80483ce +(-4) 
= 134513544 -134513614 -4 
=—74 
这 个 结果 对 应 于 可 执行 文件 test 中 的 代码 ， 可 以 使 用 objaump 证 实 。 
80483cd: e8 b6 ff ff ff call 8048388 <add> 
0xffffffb6 对 应 于 十 进 制 数 -74〈 这 很 容易 检查 ， 假 定 考虑 到 小 端 序 和 2 的 补 码 记 数 法 )。objdump 
输出 右 侧 的 符号 表示 没有 给 出 相对 跳 转 地 址 ， 而 是 将 相对 地 址 转换 为 绝对 地 址 ， 使 得 程序 员 更 容易 在 
机 器 代码 中 找到 对 应 的 位 置 。 






















































































































































































GD 提示 : 程序 计数 器 是 一 个 专用 的 处 理 器 寄存 器 ， 定 义 了 处 理 器 在 程序 执行 期 间 在 机 器 代码 中 的 位 置 。 
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初 看 起 来 ， 结 果 仿 佛 是 不 正确 的 。 读 者 已 经 看 到 ，add 语 句 的 机 器 代码 重 定 位 位 置 D 口 70 个 字 节 
(0x46) ， 不 是 74 字 节 。4 字 节 的 位 移 是 由 于 加 数值 。 为 什么 编译 器 生成 目标 文件 est .o 时 将 该 值 设 置 
为 -4， 而 不 是 0? 其 原因 与 IA-32 处 理 器 的 工作 方式 有 关 。 程 序 计数 器 总 是 指向 当前 执行 语句 之 后 的 下 
一 个 语句 ， 因 而 如 果 人 处理 器 在 机 器 代码 中 从 相对 地 址 计算 绝对 跳 转 地 址 ， 会 多 出 4 字 节 。 因 而 ， 编 译 
器 必须 从 相对 跳 转 地 址 扣除 4 字 节 ， 使 得 程序 能 够 跳 转 到 正确 的 位 置 。 
绝对 重 定位 采用 了 同样 的 方案 。 但 计算 更 简单 ， 因 为 它 只 需要 将 目标 符号 的 地 址 与 加 数值 相 加 即 
可 。 
E.2.6 动态 链接 
内 核对 必须 与 库 动 态 链接 才能 运行 的 ELF 文 件 不 感 兴趣 。 模 块 中 的 所 有 引用 都 可 以 通过 重 定位 解 
决 , 而 用 户 空间 程序 的 动态 链接 则 完全 由 用 户 空间 中 的 19.so 进 行 。 因而 ,本 附录 只 简略 提 到 dynamic 
节 的 语义 。 
以 下 两 个 节 用 于 保存 动态 链接 器 所 需 数据 : 
口 .dynsym 保 存 了 有 关 符 号 表 ， 包 含 了 所 有 需要 通过 外 部 引用 解决 的 符号 ; 
口 .qynamic 保 存 了 一 个 数组 ， 数 组 项 为 Blf32_Dyn 类 型 ， 这 些 项 提供 了 以 下 几 个 段落 所 描述 的 
dynsym 的 内 容 可 以 使 用 reade1lf 查 询 ， 如 下 所 示 : 
wolfgang@meitner> readelf - syms test 
Symbol table '.dynsym' contains 7 entries: 
Num: Value Size Type Bind Vis Ndx Name 
0: 00000000 0 NOTYPE LOCAL DEFAULT UND 
1: 08049474 0 OBJECT GLOBAL DEFAULT 15 __dso_handle 
2: 0804829c 206 FUNC GLOBAL DEFAULT UND __ libc start main@GLIBC 2.0 (2) 
3: 080482ac 47 FUNC GLOBAL DEFAULT UND printf@GLIBC 2.0 (2) 
4: 080482bc 257 FUNC GLOBAL DEFAULT UND exit@GLIBC 2.0 (2) 
5: 08048444 4 OBJECT GLOBAL DEFAULT 14 _IO_ stdin used 
6: 00000000 0 NOTYPE WEAK DEFAULT UND __gmon start_ _ 
输出 内 容 不 仅 包括 若干 生成 可 执行 文件 时 自动 添加 的 符号 ， 还 包括 机 器 代码 中 使 用 的 print 和 
exit 阔 数 。@_GLIBC_2 .0 指定 口 口 口 0 使 用 GNU 标 准 库 的 2.0 版 本 ， 才 能 解决 这 些 引 用 。 
dynamic 节 中 的 数组 项 的 数据 类 型 在 内 核 中 定义 如 下 ， 但 根本 没有 使 用 ， 因 为 该 信息 在 用 户 空间 
解释 : 
<elf.h> 
typedef struct dynamict 
El1f32_Sword d tag; 
uniont 
Elf32_Sword d_val; 
Elf32_Addr d_ptr; 
} d_un; 
} Elf32_Dyn; 
dg_tag 用 于 区 分 各 种 指定 信息 类 型 的 标记 ， 该 结构 中 的 联合 根据 该 标记 进行 解释 。g_un 或 者 保存 
一 个 虚拟 地 址 ， 或 者 保存 一 个 整数 ， 可 以 根据 特定 的 标记 进行 解释 。 
最 重要 的 标记 如 下 所 示 。 
口 DT_NEEDED 指 定 该 程序 执行 所 需 的 一 个 动态 库 。Qa_un 指 向 一 个 字符 串 表 项 ， 给 出 库 的 名 称 。 
对 于 test.c 测 试 程序 来 说 ， 只 需要 C 标 准 库 ， 如 下 述 的 readqelf 所 示 : 
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wolfgang@meitner> readelf — dynamic test 
Dynamic segment at offset 0x480 contains 20 entries: 
Tag Type Name/Value 
0x00000001 (NEEDED) Shared library: [libc.so.6] 


实际 的 程序 ， 如 emacs 编 辑 器 ， 运 行 所 需 的 动态 库 数目 明显 会 大 得 多 。 


wolfgang@meitner> readelf - dynamic /usr/bin/emacs 
Dynamic segment at offset 0xlea6ec contains 36 entries: 
























































Tag Type Name/Value 

0x00000001 (NEEDED) Shared library: [libXaw3d.so.7] 
0x00000001 (NEEDED) Shared library: [libXmu.so.6 
0x00000001 (NEEDED) Shared library: [libXt.so.6] 
0x00000001 (NEEDED) Shared library: [libSM.so.6] 
Ox00000001 (NEEDED) Shared library: [libICE.so.6 
Ox00000001 (NEEDED) Shared library: [libXext.so.6] 
0x00000001 (NEEDED) Shared library: [libtiff.so.3] 
0x00000001 (NEEDED) Shared library: [libjpeg.so.62] 
Ox00000001 (NEEDED) Shared library: [libpng.so.2 
0x00000001 (NEEDED) Shared library: [libz.so.1] 
0x00000001 (NEEDED) Shared library: [libm.so.6] 
0x00000001 (NEEDED) Shared library: [libungif.so.4] 
0x00000001 (NEEDED) Shared library: [libXpm.so.4 
0x00000001 (NEEDED) Shared library: [libXxX11.so.6 
0x00000001 (NEEDED) Shared library: [libncurses.so.5] 
0x00000001 (NEEDED) Shared library: [libc.so.6] 
0x0000000f (RPATH) Library rpath: [/usr/X11R6/1ib] 














口 DT_STRTAB 保 存 了 字符 串 表 的 位 置 ， 其 中 包括 了 qdqynamic 节 所 需 的 所 有 动态 库 和 符号 的 名 称 。 
DT_SYMTAB 保 存 了 符号 表 的 位 置 ， 其 中 包含 了 dynamic 节 所 需 的 所 有 信息 。 
口 DT_INIT 和 DT_FINI 保 存 了 用 于 初始 化 和 结束 程序 的 函数 的 地 址 。 


E.3 小 结 


在 Linux 支 持 的 大 多 数 体系 结构 上 , 可 执行 文件 中 的 二 进 制 代码 按照 ELF 标 准 布置 。 本 附录 向 读者 
详细 介绍 了 该 文件 格式 。 这 种 格式 不 仅 对 用 户 层 应 用 程序 重要 ， 对 内 核 模块 同样 重要 。 在 向 读者 提供 
了 有 关 ELF 的 一 般 概述 之 后 ， 本 章 讨论 了 模块 装载 器 在 内 核 中 所 需 的 数据 结构 ， 并 提供 了 一 种 便捷 方 
式 来 分 析 ELF 文 件 格式 的 各 种 特性 。 
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内 核 开 发 过 程 





























书 已 经 向 读者 提供 了 大 量 有 关 概 念 、 算 法 、 数 据 结构 、 代 码 方面 的 信息 。 显 然 ， 这 些 构成 

了 Linux 开 发 的 最 核心 部 分 ， 内 核 就 是 这 些 内容 。 但 Linux 还 有 男 一 个 侧面 ， 不 应 该 被 忽视 : 
开发 了 内 核 的 社区 、 其 工作 方式 、 人 与 人 之 间 交 互 的 方式 。 这 个 方面 是 很 有 趣 的 ， 因 为 内 核 是 现存 最 
大 、 最 复杂 的 开源 项 目 之 一 ， 它 对 于 大 规模 的 分 布 式 分 散 开发 来 说 ， 是 一 个 样板 。 本 附录 将 对 内 核 开 
发 涉及 的 技术 和 社会 方面 提供 一 个 概述 。 此 外 ， 还 讨论 了 Linux 内 核 和 学 术 界 的 关系 。 


F.1 简介 


内 核 源 代 码 (在 主要 的 README 文 件 中 ) 将 开发 社区 描述 为 一 个 “在 网 络 上 松散 组 织 的 黑客 团队 ”， 
尽管 从 开始 到 现在 ， 内 核 开发 涉及 的 人 数 及 其 职业 来 源 一 直 在 发 生变 化 ， 但 所 述说 法 一 直 是 真实 的 。 
这 导致 的 一 个 直接 结果 就 是 开放 性 : 开发 者 之 间 大 多 数 的 通信 都 发 生 在 邮件 列表 上 ， 任 何 对 操作 系统 
演变 方式 感 兴趣 的 人 都 可 以 阅读 这 些 。 一 个 要 点 在 于 , 来 自 许多 在 各 方面 激烈 竞争 〈 请 注意 ， 是 公司 ， 
不 是 开发 者 ) 的 公司 的 开发 者 在 内 核 开 发 中 密切 协作 。 而 非 技 术 人 员 ， 通 常 只 能 惊讶 地 站 在 一 边 。 实 
际 上 ， 这 是 一 项 非凡 的 壮举 ! 

现在 ， 已 经 不 需要 多 说 Linux 内 核 开 发 的 基本 原理 了 。 尽 管 仅仅 在 15 年 前 创建 一 个 可 以 实际 使 用 
的 开源 操作 系统 似乎 还 是 一 个 妄想 ， 但 大 多 数 技术 人 员 已 经 习以为常 。Linux 内 核 开发 与 经 典 的 开发 
模型 相 比 ， 一 个 本 质 区 别 是 ， 前 者 没有 什么 固定 的 形式 化 规则 来 规范 开发 过 程 如 何 运作 。 确 实 有 惯例 
存在 ， 但 很 少 以 文档 方式 形式 化 。 没 有 开发 路 线 图 ， 也 没有 中 央 代 码 存储 库 。 但 确实 有 0 0 0 代码 存 
储 库 和 D 口 口 开 发 者 。 与 固定 的 刚性 结构 相 比 ， 这 在 许多 情况 下 可 能 都 是 优点 ， 因 为 开发 过 程 变 得 更 
为 动态 和 灵活 。 但 如 果 对 领域 不 熟悉 ， 工 作 也 会 变 得 更 困难 。 

本 附录 讨论 的 许多 主题 ,同样 也 在 内 核 源 代码 有 相关 阐述 。Documentation/ 目 录 下 的 阁 干 文件 ， 
都 涉及 开发 过 程 的 风格 和 机 制 。 其 中 的 内 容 相当 广泛 ， 因 此 本 附录 只 简 述 其 基本 思想 。 


F.2 内核 代码 树 和 开发 的 结构 


Linux 内 核 是 一 个 非常 动态 的 软件 ， 最 令 人 惊讶 之 处 在 于 ， 其 开发 根本 0 D 开发 版 本 ! 至 少 没有 
Linus Torvalds 管 理 的 显 式 、 长 期 的 开发 版 本 。 

此 前 的 情况 有 所 不 同 。 传 统 上 ， 内 核 开发 分 为 两 个 不 同 的 分 文 。 一 个 分 文 包含 稳定 的 内 核 版 本 ， 
应 该 用 于 生产 系统 ， 其 次 版 本 号 为 偶数 。 内 核 分 支 2.0、2.2、2.4 都 是 稳定 分 支 (2.0.x、2.2.x、2.4.x 是 
发 布 的 各 系列 版 本 )， 而 2.1、2.3、2.5 是 开发 版 本 ， 诸 如 2.5.x 等 。 这 种 方法 的 基本 思想 在 于 ， 使 新 的 特 
性 和 试验 性 的 补丁 经 历 大 量 的 测试 和 改进 ， 一 旦 添加 了 足够 数量 的 新 特性 ， 而 且 代码 在 实际 上 以 可 察 
觉 的 方式 稳定 下 来 时 ， 就 打开 一 个 新 的 稳定 的 源 代码 树 。 理 想 情 况 下 ， 发 布 商 可 以 从 稳定 的 版 本 分 支 
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取得 内 核 ， 将 其 集成 到 发 行 版 中 。 














遗憾 的 是 ， 这 种 方式 运作 得 不 十 分 好 。 在 打开 新 的 稳定 版 本 之 前 ， 一 个 























[发 周期 可 能 需要 数 年 ， 


在 IT 界 这 是 一 个 非常 长 的 时 间 了 。 在 新 硬件 出 现时 ， 买 家 通常 不 会 伦 几 年 的 时 间 等 竺 内 核 的 支持 (至 
































少 是 大 多 数 人 使 用 的 稳定 版 本 的 内 核 )。 不 仅 对 设备 驱动 程序 是 这 样 ， 对 大 多 数 新 特 怕 




















此 。 因 而 ， 发 布 商 确实 从 开发 版 内 核 向 稳定 分 支 移 植 了 一 些 新 特性 。 而 
不 同 ， 后 向 移植 所 选择 的 特性 也 不 同 ， 这 导致 了 发 行 版 内 核 之 间 的 分 歧 越 来 






































于 每 个 发 行 版 的 “ 口 





越 大 。 














从 内 核 版 本 2.6 系 列 以 来 ， 采 用 了 一 种 新 的 开发 策略 。 只 有 一 个 内 核 系列 ， 不 再 划分 稳定 代 
经 过 稳定 和 测试 期 之 后 ， 





























和 开发 代码 树 。 而 采用 了 若干 比较 试验 性 的 内 核 代 码 树 来 测试 新 的 特性 ， 在 






































他 是 Linux 最 初 的 创造 者 和 发 起 者 。 来 自 该 代码 树 的 内 核 通常 称 之 为 vanilla 内 
体 需 要 修改 而 来 的 内 核 ， 或 各 种 试验 性 的 代码 树 。 该 内 核 系 列 通常 称 之 为 口 































































































主线 内 核 代码 树 之 外 的 代码 树 ， 通 常 在 版 本 号 之 后 增加 一 个 后 级 进行 标识 。 主 线 内 核 之 外 ， 
要 的 代码 树 是 2.6-mm， 由 Andrew Morton 管 理 ， 大 多 数 补丁 在 被 主线 2.6 内 核 接受 之 前 ， 都 会 先 经 




















来 说 ， 都 是 如 


味 ” 


码 树 


新 特性 将 直接 合并 到 内 核 的 主 系列 中 。2.6 版 本 的 内 核 代 码 树 由 Linus Torvalds 管 理 ， 读 者 可 能 听 说 过 ， 


核 ， 以 区 别 发 行 版 根据 其 





| 



































代码 树 。 还 存在 许多 其 包子 系统 相关 的 代码 树 ， 它们 通常 关注 内 核 的 某 个 特定 方面 : 2.6-net 关 注 网 络 ， 
































最 重 
过 该 


而 2.6-rt 包 含 了 与 实时 间 题 和 交互 性 问题 相关 的 工作 ， 这 只 是 其 中 两 个 例子 。 还 有 一 个 -stable 版 本 ， 






















































































可 能 也 会 消失 。 


F.2.1 命令 链 




















内 核 的 所 有 活动 组 件 都 有 一 个 0 0 口 ， 他 会 关注 相关 的 特定 领域 的 开发 。 



































用 于 在 正式 的 内 核 版 本 发 布 后 ， 将 重要 的 bug 修 复 集 成 进来 。 内 核 代码 树 的 变动 可 能 因 种 种 原 基 
生 : 开发 者 可 能 失去 维护 代码 的 兴趣 ， 如 果 代 码 树 涉及 的 问题 已 经 以 某 种 方法 解决 ， 那 么 代码 树 本 身 


























许多 维护 者 (特别 











组 件 的 维护 者 都 被 各 个 Linux 厂 商 雇 佣 ， 但 有 一 些 仍然 是 在 空间 时 间 工 作 。 维 护 者 的 职责 变动 

































































代码 树 顶 层 的 MAINTAINERS 文 件 中 列 出 ， 其 中 包括 几 项 信息 ， 读 者 在 这 里 可 


MAINTAINERS 
IA64 (Itanium) PLATFORM 

2 Tony Euck 

M: tony.luck@intel .com 

L: linux-ia64@vger.kernel .org 
W: http://www.ia64-linux.org/ 
下 
Ss 











ho) 


: git kernel.org:/pub/scm/linux/kernel/git/aegl/linux-2.6.9gi 
: Maintained 








除了 维护 者 的 名 字 及 其 电子 邮件 联络 方式 ,该 文件 提供 了 一 个 邮件 列表 




































































转 
很 大 ， 可 能 只 是 控制 单个 设备 驱动 程序 ， 也 可 能 涉及 一 项 基础 设施 (如 内 核对 象 机 制 ) ， 更 大 的 范围 
可 能 涉及 整个 子 系统 (如 所 有 的 网 络 代码 、 块 层 或 特定 体系 结构 在 arch/ 下 的 所 有 代码 )。 维护 者 在 























以 看 到 : 
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天 
用 迟 





是 大 


若 
了 











内 核 








， 供 讨论 相应 领域 的 











使 用 。 通 常 ， 与 直接 联系 维护 者 相 比 ， 在 邮件 列表 上 提出 和 讨论 问题 更 受 欢 迎 。 如 果 代 码 通过 












































发 
个 公 








众 可 访问 的 版 本 控制 存储 库 进行 管理 ， 那 么 文件 中 会 指定 存储 库 的 位 置 ， 在 上 面 的 例子 中 是 一 个 git 
存储 库 ， 这 是 许多 内 核 开发 者 的 首选 源 代码 管理 系统 (git 在 附录 B 中 讨论 过 )。 最 后 ， 还 可 以 指定 一 个 















































Web 页 面 ， 其 中 包含 了 有 关 该 子 系统 及 其 维护 状态 的 信息 。 原 则 上 ， 











个 信息 项 都 可 以 用 状态 






































Supported 和 Maintaineq 来 区 分 维护 者 是 否 受 雇 于 Linux 厂 商 ， 但 这 通常 是 




















个 哲学 问题 。 更 重 


要 的 


区 别 是 ， 受 到 活跃 维护 的 部 分 、 没 有 维护 者 的 部 分 (orphan)、 旧 的 代码 和 废弃 的 代码 (Cobsolete)、 









































很 少 被 关注 但 并 非 完 全 没有 维护 的 部 分 〈oqq Fixes )。 





























对 内 核 的 各 个 部 分 设置 维护 者 ， 从 很 小 的 部 分 (如 驱动 程序 ) 到 比较 大 的 部 分 (如 整个 子 系统 )， 这 

















DOF 000000 1021 
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取决 于 贡 


在 开发 者 之 间 建 立 了 一 个 松散 的 层次 结构 。 但 没有 一 个 形式 上 的 权威 忆 
代码 的 人 及 其 彼此 间 的 


献 





几 构 来 确定 这 个 层次 结构 ， 它 完 
。 在 代码 进入 内 核 时 ， 通 常 ( 但 并 非 唯 一 ) 的 方式 是 自 





党 任 程度 



































上 遍历 


二 | 


下 
达 
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相应 的 维护 者 ， 接 下 来 向 较 高 
比 最 终 可 能 合并 至 








层次 弓 





吉 构 。 对 





























代码 的 修正 或 新 特性 通常 首先 进入 到 特定 于 设备 或 子 系统 的 邮件 列表 或 到 
层 的 维护 者 前 进 ， 这 些 维护 者 将 其 传递 到 Andrew Morton 的 -mm 代码 树 ，” 
vanilla 内 核 代码 树 中 。 该 过 程 通常 称 之 为 口 口 口 《merging upstream) 。 但 这 只 



















































































是 一 种 可 能 怕 
F.2.2 开发 周期 


放弃 明确 的 开发 版 内 核 系列 ， 最 重要 的 理 
度 ， 而 不 必 由 发 行 版 厂商 来 后 向 移植 。 该 目标 显 
70~110 天 ， 这 意味 着 每 两 三 个 月 ， 就 有 一 个 新 内 核 出 现 。 
版 的 一 项 研究 前 明 《〈[KHCM]) ， 对 该 研究 的 更 新 不 时 
的 预测 是 ，vanilla 内 核 树 的 进展 是 以 一 种 狸 发 形式 进行 
位 后 ， 突 然 向 前 跨 出 一 步 。 参 见 图 F-1， 该 图 说 明了 对 内 核 的 修改 随时 


1.106 


E， 规 则 决 非 是 固定 的 。 
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发 工作 的 


上 现在 www.lwn 

































































修改 一 一 


1.106 
8.105 


6.105 


影响 的 行 数 


4.105 


2.105 
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内 核 版 本 2.6.x 


F 合 并 窗口 ， 都 会 出 现 一 次 
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图 F-1 vanilla 内 核 树 的 的 变化 率 。 每 当 打 和 
段 稳定 时 期 ， 只 有 相对 少 的 修改 


在 一 个 新 的 内 核 版 本 发 布 后 ，Linus Torvalds 都 会 打开 一 个 口 
的 一 段 时 间 内 保持 开放 ,大约 两 个 星期 。3 















































所 代码 通常 只 能 在 这 段 时 





间 内 
























































GD 为 减少 因为 新 代码 彼此 不 兼容 而 造成 的 -mm 代码 树 中 合并 冲突 的 数目 
发 系列 的 代码 树 -next 将 此 类 问题 整理 出 来 。 








就 是 希望 加 速 新 特 愧 
然 已 经 达到 : 2.6 系 列 中 ， 内 核 


的 ， 这 是 故意 的 。 


， 在 新 代码 进入 -mm 树 之 前 ， 应 该 | 








FE 应 





到 产品 版 本 内 核 的 速 
版 本 发 布 的 间隔 大 约 是 
方面 已 经 由 Linux 基 金 会 
.net 上 。 该 研究 的 一 个 特别 有 趣 
该 代码 树 会 等 待 一 些 特 性 就 


间 的 变化 。 








| 
LT 


许 多 
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狂 发 的 大 量变 更 ， 而 后 是 一 





DODD (Cmerge window)， 在 比较 短 








进入 。 尽 管 该 规则 有 例外 情况 ， 



































为 二 个 开 
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UUF UUOU00D0D 





























个 ， 后 续 





影响 的 行 数 〈 对 数 坐 标 ) 


的 稳定 期 
注意 ， 
































但 该 策略 的 实施 是 相当 严格 的 。 在 此 期 间 ， 代 码 的 变化 率 是 相当 大 的 。 在 合并 窗口 关闭 时 ， 这 段 活动 
时 间 就 结束 了 ， 而 候选 的 发 布 版 内 核 也 准备 好 了 。 候 选 发 布 版 提供 了 一 个 机 会 ， 可 以 测试 各 项 修改 之 
| 及 


以 及 识别 并 修复 bug。 这 段 时 间 的 变化 率 会 飞速 下 降 ， 因 为 修复 通常 是 非常 短 的 补丁 ， 其 

















时 
间 的 交互 ， 
重要 性 等 同 于 初始 的 特性 提交 。 在 一 切 都 稳 


定 以 后 ， 


卖 就 降低 的 更 多 ， 直 至 最 后 正式 发 布 。 


1.107 


1.106 


1.105 


1.104 


1.103 
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A 





如 果 用 纯粹 的 数字 来 度量 软 从 
码 行 的 增删 时 。 例 如 ， 先 引进 大 量 代码 ， 然 后 再 删除 ， 











法 测量 时 ， 


的 组 织 方 式 获 得 一 个 很 好 的 直观 理解 。 
库 中 可 以 获得 完整 的 内 核 开 发 历史 ， 读 者 











应 该 并 不 





将 导致 很 高 的 变化 率 。 不 过 呢 ， 





个 新 的 内 核 版 本 就 发 布 了 。 这 种 行为 模式 的 细 





























节 如 图 F-2 所 示 ， 其 中 给 出 了 内 核 版 本 2.6.21 到 2.6.24 的 开发 进展 情况 。 请 注意 ，y 坐 标 轴 采 用 的 是 对 数 
坐标 。 虽 然 第 一 个 候选 发 布 版 包含 了 1 000 000 个 修改 ， 但 下 一 个 发 布 版 这 个 数字 就 下 降 到 大 约 10 000 
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内 核 版 本 2.6.x 
图 F-2 ”对 内 核 版 本 2.6.22 到 2.6.24 之 间 代 码 变 化 率 的 详细 分 析 。 请 注意 ，y 轴 采用 的 是 对 数 坐 标 

















nd 稍 有 不 同 ， 该 图 通过 对 各 个 内 核 版 本 及 候选 发 布 版 累积 作出 的 修改 来 考察 代码 树 稳 


楚 地 看 到 合并 窗口 ， 而 后 是 比较 平坦 的 曲线 ， 表 明 这 是 代码 树 



































这 里 介绍 









































\ 困 难 。 





也 


is 


尺 注 尼 ， 这 












































F 项 目的 生产 率 ， 总 是 很 困难 ， 特 别 是 这 些 数字 只 是 基于 代 


合并 的 效果 是 没什么 意义 的 ， 当 然 按 上 述 方 
的 这 种 相对 简单 的 方法 可 以 使 读者 对 开发 过 程 
样 的 结果 可 以 非常 容易 地 得 到 ， 因 为 在 git 存 储 
































] 类 似 的 方法 来 自行 分 析 内 核 源 代码 中 感 兴 趣 的 领域 ， 也 

















GD 这 种 呈现 数据 的 方式 ， 是 受 Jonathan Corbet 的 Kernel Report 演 讲 的 鼓舞 ， 在 许多 Linux 相 关 的 会 议和 类 似 的 场合 ， 都 


可 以 看 到 他 的 演 ; 














。 一 些 会 议 的 网 站 (如 linux.confau) 提 供 























了 其 演讲 的 视频 。 
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影响 的 代码 行 数 





1.107 
1.107 
9.106 
8.106 
7.106 
6.106 
5.106 
4.106 
3.106 
2.106 


1.106 


13 


12 


14 








图 F-3 ”在 Linux 开 














发 过 程 中 累积 的 修改 。 合 





18 19 20 21 22 23 24 
内 核 版 本 2.6.x 
谷口 

















和 稳定 











期 的 效应 看 上 去 非常 明显 

























































































































































































新 特性 不 会 突然 从 天 上 掉 下 来 ， 在 被 主线 内 核 接受 之 前 ， 它 们 通常 有 一 段 很 长 的 开发 历史 。 
发 在 这 一 阶段 如 何 进行 ， 很 大 程度 上 取决 于 特定 的 子 系统 和 相关 的 维护 者 。 在 代码 被 主线 内 核 接受 
之 前 ， 可 能 已 经 讨论 了 多 年 ， 这 并 非 罕见 。 例 如 ，Reiser 文 件 系统 就 花费 了 很 长 时 间 来 解决 许多 开发 
者 对 其 提出 的 问题 。 有 时 候 需要 花费 大 量 时 间 才 能 将 代码 推进 到 vanilla 内 核 中 , 但 有 时 候 进展 会 快速 
得 多 。 

例如 ，Ext4 文 件 系统 的 开发 过 程 是 与 vanilla 内 核 密切 集成 的 ， 其 代码 从 最 初 开 始 开发 到 最 终 接受 
广泛 测试 的 整个 过 程 中 ,一直 都 处 于 主线 内 核 中 。 实 际 上 ， 其 代码 库 是 从 Ext3 的 一 个 副本 开始 ， 然 后 
不 断 地 修改 以 集成 许多 新 的 思想 和 改进 。 








F.2.3 在 线 资源 

有 大 量 网 站 致力 于 Linux 内 核 开 
里 进行 综述 没有 实际 的 意义 ， 
来 扩 
量 时 。 





发 ， 

















因 
口 当前 的 内 核 源 代码 以 及 许 
gitkernel.org 上 列 出 





耳 














多 基本 的 





] 

















它们 提供 了 很 多 有 
因为 大 多 数 链接 可 能 
取 有 关内 核 开 发 的 有 用 链接 ， 并 不 是 到 达成 妃 
而 ， 下 述 列 表 根 据 作 者 个 人 的 偏好 ， 提 供 


1 了 大 量 的 git 源 代码 存 人 





自 


Co 

















用 信息 。 因 
都 会 很 快 过 期 。 但 是 ， 
的 最 容易 路 径 ， 特 别 








口 


~、 











为 Web 的 结 
依赖 于 


吉 构 快速 变化 ， 在 这 
所 喜爱 的 搜索 引擎 
































分 较 好 的 链接 。 





























间断 结果 的 相关 愧 


是 需要 判 册 


工具 都 可 以 从 网 站 www.kernel.org 获 得 。 





E 和 和 质 


在 

















口 





www.lwn.net 是 内 核 开 发 过 程 方 再 
些 更 新 不 仅仅 只 是 内 核 方面 的 。 














的 首要 信息 源 ， 
该 网 站 收集 了 Linux 开 











该 网 站 每 周 定 共 





报道 这 方面 





的 更 新 情况 。 这 























发 所 有 方 












































相关 事件 ， 而 优秀 的 研究 文章 对 各 个 项 

















的 发 展现 状 给 出 了 深交 








四 的 有 趣 六 
| 的 见解 。 


折 闻 以 及 IT 社 





区 中 的 
内 核 在 发 表 一 星期 
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之 后 即 免费 提供 ， 但 大 多 数 最 


阅 ! ” 

内 核 的 全 部 修改 日 志 很 容易 
交 ， 但 实际 上 不 可 能 根据 
谢 天 谢 























新 的 信 息 只 对 订 阅 者 











取 




















达到 若 


地 ，www. in net 提 供 了 不 那么 纪 











口 Linux 基 金 会 提供 了 











个 “天 气 预 报 ” 服 务 ， 
纳 。 这 项 服务 是 最 接近 于 Linux 内 核 8 





兆 字 节 。 尽 
志 记 录 来 从 一 个 比较 宽泛 


路 线 图 


管 它们 纪 
的 
昌 致 的 修改 

试图 预测 哪些 
的 ， 它 对 












































是 www.linux-foundation.org/en/Linux Weather Forecast。 


F.3 补丁 的 结构 


































































































放 。 由 于 费用 较 


肥 度 概览 内 核 
日 志 ， 更 多 ] 
补丁 和 特性 
发 的 方向 提供 了 有 





氏 ， 我 











准 荐 读者 尽快 订 














上 致 地 记录 了 到 最 终 版 本 的 每 一 次 提 

















也 强 












































放 过 程 中 发 生 的 情况 。 
调 全 景 而 不 是 细 ” 
将 被 未 来 的 内 核 版 本 接 
介 值 























的 信息 。 其 URL 
































内 核 开发 者 预期 好 的 补丁 应 该 满足 某 些 固定 的 条 件 。 尽 管 这 对 补丁 的 准备 工作 提出 了 更 多 要 求 ， 
但 它 使 得 维护 者 、 审 阅 者 、 测 试 者 的 工作 更 为 容易 。 因 思 测 生 和 本 种， 作风 二 项 例 。 就 可 以 减少 理 
解 各 项 修改 所 需 的 时 间 。 内 核对 如 何 准 备 补丁 包含 了 详细 的 指令 ， 可 以 在 Documentation/ 
SubmittingPatches 中 找到 。 本 节 将 综述 要 点 ， 但 读者 在 向 任何 维护 者 或 邮件 列表 发 送 代 码 之 前 ， 都 
务 请 阅读 整个 submittingPatches 文 档 。 更 多 的 建议 在 Andrew Morton 的 The Perfect Patch 文 档 中 给 出 ， 


可 以 在 www.zip.com.au/~akpm/linux/patches/stuffytpp.txt 上 获得 ， 


上 得 到 。 




















文件 相 比 ， 单 项 修改 易于 提取 要 点 。 
要 一 个 
补丁 
该 对 











上 该 是 可 以 独立 应 
应 用 补丁 的 正确 顺序 给 出 文档 。 
原则 上 ， 补 丁 序列 可 以 


















































味 ， 
从 而 在 一 定 程度 上 减轻 了 工作 。 
F.3.1 技术 问题 

就 补丁 格式 的 技术 方面 来 说 ,i 
的 信息 
必须 




















1. 编码 风格 
内 核 有 
该 文件 中 每 一 个 要 求 ， 但 许多 
事情 。 内 核 包 含 了 大 量 代码 ， 如 















































青 注意 ， 
。 这 样 的 补丁 可 使 用 diff -up 生成 。 如 果 补 丁 添加 了 六 
上 用 ai ff -upr 米 解决。 附录 B 讨 论 了 形成 的 补丁 的 外 观 ， 及 其 包含 的 内 容 。 
些 编码 风格 要 求 ， 定 义 在 


果 补 





首要 地 ， 必 须 将 大 的 修改 分 解 为 单项 修改 ， 
一 个 补丁 应 该 对 源 代码 进行 一 项 
丁 系列 ， 其 中 有 多 个 补丁 会 修改 同一 个 文件 ， 
用 的 。 但 由 于 修改 的 性 质 所 致 ， 这 不 见得 总 


附录 B 所 述 的 aifE 和 patch 手 工 创建 。 
日 http:/savannah.nongnu.org/projects/quilt 的 auilt 工 具 箱 可 以 

















可 以 

















在 linux.yyz.us/patch-format.html 


与 在 单个 补丁 中 修改 跨越 50 000 个 子 目 录 的 1 000 万 个 

















也 是 如 此 。 














是 可 



































使 A 





弓 











三 和 




















Documentation/CodingStyle。 


A 
上 本 


尽管 





逻辑 上 的 修改 ， 即 使 这 意味 着 需 





里 想 地 ， 补 丁 应 该 是 可 闭 加 的 ， 即 








时 间 稍 长 ， 这 可 外 


补丁 栈 的 大 部 分 工作 





并 非 所 有 开 


能 的 ， 在 不 可 能 的 情况 下 ， 位 


就 变 得 相当 乏 
自动 化 ， 








一 个 0D 的 (unified) 补丁 要 求 包含 所 修改 的 C 函 数 相 关 
所 文件 或 关注 多 个 子 目录 下 的 文件 ， 那 么 





发 者 都 同意 





发 者 对 违反 编码 风格 的 做 法 比较 敏感 。 有 一 











] /文件 使 





大 和 

















内 核 在 编码 风格 方面 不 像 其 他 ] 

文档 片段 中 看 到 : 
Documentation/CodingStyle 

先 ， 我 建议 打印 一 份 SGNU 编 码 标准 ， 


页 目 昼 
































了 样 狂热， 














但 不 要 阅读 


。 烧 掉 它 们 ， 这 是 一 种 姿态 。 


























加 当 





然 ， 我 与 LWN 没 有 商业 利益 ， 也 没有 任何 关系 。 但 这 个 网 站 确实 令 人 敬 蝴 。 





量 不 同 的 规范 ， 那 是 真 中 
晶 对 不 受 欢 迎 的 风格 有 着 明确 








的 意 


个 共同 的 编码 风 
E 的 麻烦 。 


意见 ， 


格 是 件 好 
谢 天 谢 地 ，Linux 
读者 可 以 在 下 述 





附录 下 ”内核 开发 过 程 
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内 核 开 发 者 预期 何 种 风格 呢 ? 要 点 如 下 所 示 。 

口 不 同 缩 进 层 次 总 是 以 一 个 tab 分 隔 ， 一 个 tab 总 是 等 于 8 个 空格 。 这 对 于 看 过 
程序 员 来 说 ， 可 能 太 大 了 ， 但 内 核 是 不 同 的 。 很 自然 ， 代 码 在 几 次 缩 进 之 
快速 移动 ， 但 这 可 用 作 一 个 报警 信号 : 需要 太 多 缩 进 层 次 的 代码 通常 应 该 
码 ， 或 划分 为 函数 ， 接 下 来 问题 自动 地 解决 了 。 




































































户 层 代码 的 
向 屏幕 右 侧 














蔡 换 为 更 干净 的 代 








比较 大 的 缩 进 通 常会 导致 字符 串 和 过 程 参 数 超过 一 行 80 个 字符 的 边界 , 因而 必须 明智 地 分 解 为 











块 。 读 者 在 本 书 中 应 该 看 到 了 很 多 此 类 例子 。 

















除了 前 述 原因 之 外 , 许多 内 核 开发 者 的 工作 方式 有 很 不 寻常 的 倾向 , 长 时 间 地 专注 于 代码 并 非 






























































对 这 种 情况 有 所 帮助 〈 以 及 大 量 咖啡 饮料 )。 



































罕见 的 情况 。 在 连续 三 天 在 一 行 中 编写 了 大 量 代码 之 后 ,视觉 可 能 会 变 得 模糊 ， 大 的 缩 进 肯定 





口 开始 的 花 括 号 放 在 行 的 结尾 ， 而 结束 的 花 括 号 放 在 行 的 开头 。 在 接 下 来 是 控制 语句 时 《例如 







































































增加 额外 的 花 括 号 〈 想 一 想 ， 从 长 期 来 看 ， 这 可 以 为 你 节省 多 少 次 输入 )。 
函数 的 惯例 不 同 : 开始 和 结束 的 花 括 号 都 需要 独立 的 一 行 。 
下 列 代 码 给 出 了 上 述 规则 的 示例 : 


kernel/sched.c 
static void _ update rq clock(struct rq *rq) 


{ 


























u64 prev_raw = rq->prev_clock_ raw; 
u64 now = sched_ clock(); 


if (unlikely(delta < 0)) { 
Clock+t+; 
rq->clock_ warps++; 

} else { 
/* 
* Catch too large forward jumps too: 














else 分 文 ， 或 ao 循环 中 的 while 条 件 ) ， 接 下 来 的 语句 不 再 占用 新 行 ， 而 是 接着 结束 的 花 括 号 
开始 。 如 果 一 个 块 语句 中 只 包含 一 个 语句 ， 那 么 额外 的 花 括 号 是 不 必要 的 。 实 际 上 ， 不 鼓励 





if (unlikely (clock + delta > rq->tick timestamp + TICK_NSEC) ) { 


if (clock < rq->tick timestamp + TICK_NSEC) 
clock = rgq->tick timestamp + TICK_NSEC; 
else 
Clock++; 
rq->clock_overflows+t+; 
} else { 
If (unlikely (delta > rq->clock max_ delta)) 
rq->clock max_ delta = delta; 
Clock += delta; 





} 


rq->prev_clock_ raw = now; 
rq-SC1lock = Clock: 





OD 
让 一 








包含 了 这 些 规 则 的 示例 。 
口 常数 应 该 由 宏 或 enum 枚 举 中 的 成 员 表 示 ， 其 名 称 应 该 都 是 大 写字 母 。 























1 号 内 部 不 应 该 使 用 环绕 空格 ， 因 此 if( condition ) 是 反对 的 ， 而 if (condition) 将 受到 
普遍 欢迎 。 关 键 字 ( 如 if6) 后 应 接 一 个 空格 ， 而 函数 定义 和 函数 调用 则 不 需要 。 前 述 代码 片段 也 
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口 函数 通常 不 应 该 长 于 一 个 屏幕 《〈《 即 24 行 )。 更 长 的 代码 应 该 分 解 为 多 个 函数 ， 即 使 形成 的 辅助 
函数 只 有 一 个 调用 者 ， 也 是 如 此 。 
口 局 部 变量 名 称 应 该 简短 ， 不 要 试图 像 写 小 说 那样 讲 故 事 ， 比 如 onceUponATimeThereWasA- 
CounterWhichMustBeIntializedWithzero。 也 可 以 使 用 tmp 这 样 的 名 称 , 这 样 也 减少 了 输入 
次 数 〈 同 时 保护 了 你 的 手指 )。 
0 0 标识 符 应 该 提供 更 多 有 关 其 自身 的 信息 , 因为 它们 在 所 有 上 下 文 都 是 可 见 的 。 prio_tree_ 
remove 是 一 个 全 局 函数 的 好 名 字 ， 而 curz 和 ret 则 只 适用 于 局 部 变量 名 称 。 由 多 个 表达 式 注册 
的 名 称 ， 应 该 使 用 下 划 线 来 分 隔 其 组 成 部 分 ， 而 不 能 混用 大 小 写字 母 。 
口 typedef 被 认为 是 邪恶 的 化 喘 ， 因 为 它们 隐藏 了 一 个 对 象 的 实际 定义 ， 因 此 通常 不 应 该 采用 。 
它 可 能 为 补丁 的 创建 者 节省 一 些 输入 ， 但 将 给 所 有 其 他 开发 者 的 阅读 增加 困难 。 
日 有 时 候 必须 隐藏 某 个 数据 类 型 的 定义 , 例如 在 需要 根据 底层 体系 结构 而 对 一 个 量 提供 不 同 实现 
的 时 候 ， 但 通用 代码 不 应 该 注意 到 这 一 点 。 例 如 ， 用 于 原子 计数 器 的 atomic_t 类 型 , 或 页 表 的 各 种 成 
员 类 型 (如 pte_t、puqd_t 等 )。 它 们 都 不 能 直接 访问 和 修改 ， 只 能 通过 专用 的 辅助 函数 ， 因 此 其 定义 
对 通用 代码 是 不 可 见 的 。 
所 有 这 些 规则 (还 有 更 多 ) 痢 在 编码 风格 文档 Documentation/Codingstyle 中 进行 了 讨论 ， 连 
同 其 后 的 基本 原理 (包括 最 重要 的 规则 ， 编 号 为 17: 口 口 口 DDODODDODO 中。 因此， 在 这 里 重复 该 文 
中 的 信息 是 没有 意义 的 ， 每 一 份 内 核 副 本 都 带 有 该 文档 ， 直 接 去 看 就 可 以 了 ! 此 外 ， 在 通读 内 核 源 
码 时 ， 读 者 会 很 快 熟悉 所 要 求 的 风格 。 
下 列 两 个 实用 程序 ， 有 助 于 遵守 所 要 求 的 编码 风格 : 
口 Lindqent， 位 于 内 核 的 scripts/ 目 录 下 ， 它 向 GNU indqent 提 供 命令 行 选项 ， 以 便 根据 内 核 首 
选 的 缩 进 选项 ， 来 对 一 个 文件 重新 缩 进 。 
口 checkpatch.pl， 同 样 位 于 内 核 源 代码 树 的 scripts/ 目 录 下 ， 它 可 以 扫描 补丁 文件 ， 以 查找 
违反 编码 风格 之 处 ， 并 提供 适当 的 诊断 。 
2. 可 移植 性 
内 核 可 以 在 大 量 体 系 结构 上 运行 ， 这 些 体系 结构 有 很 多 不 同 之 处 ， 对 C 代 码 也 具有 各 种 不 同 的 限 
制 。 新 代码 的 先决 条 件 之 一 ， 就 是 在 原则 上 可 能 的 情况 下 ， 该 代码 应 该 能 够 移植 到 所 有 支持 的 体系 结 
构 并 运行 。 本 书 此 前 前 述 了 各 体系 结构 之 间 的 差别 ， 以 及 规避 这 些 差别 的 方法 。 这 里 将 提醒 读者 一 些 
重要 的 、 在 为 内 核 编写 代码 时 必须 考虑 的 问题 。 
口 使 用 适当 的 锁 机 制 ， 确 保 你 的 代码 能 够 在 多 处 理 器 环境 下 安全 运行 。 由 于 可 抢占 内 核 的 缘故 ， 
这 在 单 处 理 器 系统 上 同样 重要 。 
口 总 是 应 该 编写 字 节 序 中 立 的 代码 。 对 小 端 序 和 大 端 序 机 器 ， 你 的 代码 都 应 该 能 够 工作 。 
口 不 要 假定 页 长 度 为 4KiB， 而 应 该 使 用 PAGE_SIZE。 
口 不 要 对 任何 数据 类 型 假定 位 宽度 。 在 需要 固定 数目 的 比特 位 时 ， 总 是 使 用 具有 显 式 位 宽 的 类 
型 (如 u16、s64 等 )。 但 读者 总 是 可 以 假定 sizeof (long) == sizeof (void *)。 
口 不 要 使 用 浮 点 计算 。 
口 要 记 住 ， 栈 长 度 是 固定 的 ， 有 上 限 。 
3. 为 代码 编写 文档 
除了 为 提交 的 补丁 编写 文档 之 外 ， 同样 重要 的 是 为 代码 编写 文档 , 特别 是 可 能 从 其 他 子 系 统 或 驱 
动 程序 调用 的 函数 。 内 核 为 此 使 用 了 下 列 特殊 形式 的 C 注 释 : 
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fs/char_dev.c 


/* 


和 


浆 


4 


* 

register_ chrdev() - Register a major number for character devices. 

@major: major device number or 0 for dynamic allocation 

@name: name of this range of devices 

@fops: file operations associated with this devices 

If @major == 0 this functions will dynamically allocate a major and return 
its number. 

If @major > 0 this function will attempt to reserve a device with the given 
major number and will return zero on success. 

Returns a -ve errno on failure. 

The name of this device has nothing to do with the name of the device in 
/dev. It only helps to keep track of the different owners of devices. If 
your module name has only one type of devices it’'s ok to use, for example, the name 
of the module here. 


This function registers a range of 256 minor numbers. The first minor number 
ES 0 


int register chrdev(unsigned int major, const char *name, 
const struct file operations *fops) 


请 








口 
口 
口 


F.3.2 


本 
1. 


大 








注意 ， 注 释 行 以 两 个 星 号 开始 ， 表 明 该 注释 是 一 个 kerneldoc 注 释 。 以 此 类 注释 开头 的 函数 将 包 
含 在 API 参 考 手 册 中 ， 参 考 手 册 可 以 用 make htmldocs 或 类 似 的 命令 创建 。 参 数 名 必须 以 e 符 号 为 前 绥 











开始 ， 在 生成 的 输出 中 将 包含 对 应 参数 的 注释 。 注 释 应 该 包括 以 下 内 容 : 








对 参数 的 描述 ， 指 定 该 函数 做 什么 〈 而 不 是 如 何 做 ) ; 

可 能 的 返回 代码 及 其 语义 ; 

对 函数 的 限制 ， 有 效 参数 的 范围 ， 和 /或 任何 必须 考虑 的 特殊 问题 。 

提交 和 审阅 

节 讲 述 内 核 开发 中 两 个 重要 的 社会 性 部 分 : 将 补丁 提交 到 邮件 列表 ， 以 及 后 续 的 审阅 过 程 。 
为 邮件 列表 准备 补丁 

多 数 补丁 在 被 考虑 包含 到 任 





















































4< 马 











内 核 代 码 树 之 前 ， 都 首先 发 送 到 对 应 子 系统 的 邮件 列表 ， 除 非 你 


是 一 个 第 一 流 的 内 核 贡 献 者 ， 能 够 直接 向 Linus 或 Andrew 提 交 补 丁 〈 在 这 种 情况 下 ， 你 可 能 不 会 来 阅 


读本 书 
口 


口 


口 


口 








































































































)。 还 有 一 些 需要 遵守 的 惯例 ， 如 下 所 述 。 

标题 行 以 [PATCH] 开始 ,标题 的 其 余部 分 应 该 对 补丁 所 做 的 事情 作 一 个 简明 的 描述 。 一 个 好 的 
标题 是 非常 重要 的 ， 因 为 它 不 仅仅 用 于 邮件 列表 上 ， 在 被 接受 的 情况 下 ， 它 还 会 出 现在 git 的 
修改 日 志 中 。 

如 果 一 个 补丁 不 应 该 直接 应 用 ， 或 需要 更 多 讨论 ， 它 可 以 用 一 个 其 他 的 标识 符 进行 标记 ， 如 
[RFC]。 

较 大 的 改动 应 该 分 解 为 多 个 补丁 ， 每 个 补丁 完成 逻辑 上 的 修改 。 类 似 地 ， 每 个 电子 邮件 只 应 

















该 发 送 一 个 补丁 。 每 个 补丁 应 该 以 [PATCH m/N] 的 形式 进行 编号 ， 其 中 m 是 一 个 计数 器 ， 而 


则 是 补丁 的 总 数 。 [PATCH 0/N] 应 该 包含 有 关 后 续 补 丁 的 一 个 概述 。 


























N 


对 每 个 补丁 自身 的 更 详细 描述 应 该 包含 在 电子 邮件 的 内 容 部 分 。 同 样 ， 在 补丁 集成 后 ， 该 说 
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明文 本 也 不 会 丢失 ， 它 也 会 进入 至 














口 代码 本 身 应 该 直接 呈现 在 电子 邮 从 









































附件 也 不 特别 受 欢 迎 ， 首 选 的 方式 是 直接 将 代码 包含 在 邮件 























不 应 该 进入 到 git 存 储 库 


不 。 








的 文本 ， 都 应 该 从 凶 








jgit 存 储 库 中 ， 用 作 此 次 修改 的 文档 。 
中， 而 不 能 使 用 任何 形式 的 pase64 编 码 、 压 缩 或 其 他 技巧 。 


Ph。 任 何 应 该 包含 在 描述 中 ， 而 




















了 分 陋 开 来 ， 可 通 











行 上 的 连续 三 个 破 折 号 表 
































很 自然 ， 电子 邮件 客户 端 不 应 该 进行 
码 。 还 有 ，HTML 格式 的 电子 邮 但 
接 下 来 ， 给 出 了 一 个 试验 性 


[PATCH 0/4] [RFC] Verification and debugging o 





三 一生 ESTY 


[PATCH 1/4] Add a basic debugging framewor. 


2008 = "09551:32 BST) 












































操作 。 有 谣言 声称 ， 编 译 器 很 难 接受 随机 换行 的 代 
是 不 合适 的 ， 纯 属 多 余 。 

FE 补丁 的 标题 行 。 它 们 遵守 了 此 前 讨论 的 惯例 : 

F memory initialisation Mel Gorman (Wed Apr 16 2008 


k for memory initialisation Mel Gorman (Wed Apr 16 


[PATCH 2/4] Verify the page links and memory model Mel Gorman (Wed Apr 16 2008 - 09:51:53 EST) 
[PATCH 3/4] Print out the zonelists on request for manual verification Mel Gorman (Wed Apr 16 








2008 = /09:52:22 BST) 





[PATCH 4/4] Make defencive checks around PFN values registered for memory usage Mel Gorman (Wed 


Apr 16 2008 - 09:52:37 





请 注意 ，4 个 包含 实际 代码 的 邮 们 
户 端 可 以 将 发 表 的 邮件 归 类 ， 更 容易 将 这 些 补丁 识别 为 一 个 实体 。 





看 一 下 第 一 个 邮件 的 内 容 : 








EST) 











F 是 作为 对 第 一 个 介绍 怕 





I 

















复发 表 的 。 这 使 得 许多 邮件 客 


This patch creates a new file mm/mm init.c which memory initialisation should 
be moved to over time to avoid further polluting page alloc.c. This patch 


introduces a simple mminit debug printk() 


function and an 


(undocumented) 


mminit debug_level command-line parameter for setting the level of tracing 


and verification that should be done. 


Signed-off-by: Mel Gorman <mel@xxxxxxxxx> 


mm/Makefile | 2 +- 


mm/internal.h | 9 +++++++++ 


mm/mm_init.c | 40 + 十 二 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 
mm/page_alloc.c | 16 +++ 十 十 二 十 十 十 十 
4 files changed, 60 :insertions (+) ， 


(PATCH) 





在 概述 代码 之 后 ， 附 加 了 








入 的 修改 数目 ， 这 是 以 添加 和 天 





7 deletions(-) 








diffstat 产 生 的 diff 统 计 信 息 。 这 些 信息 可 以 快速 确定 一 个 补丁 续 
除 的 代码 行 来 衡量 的 ， 还 包括 了 这 些 修改 发 生 的 位 置 。 这 些 统计 信息 
































对 讨论 代码 是 有 用 的 ， 但 没有 必要 保存 到 长 8 
置 在 三 个 破 折 号 之 后 。 接 下 来 是 
































体内 容 。 
2. 补丁 的 来 源 


























0 


划 述 还 包含 了 一 个 signed-off 行 ， 














gdiff 生 成 























EE 上 有 效 的 声明 ， 表 明 开 发 
座 





























的 补丁 ， 但 这 就 与 我 们 的 讨论 不 相关 了 ， 因 此 不 转载 其 具 

















者 有 权利 以 开源 形式 发 表 该 代码 ， 通 常 由 GNU General Public License (GPL ) 版 本 2 涵盖 。 











多 个 人 可 以 sign off 同 一 个 补丁 ， 即 使 他 个 





GD signed-off 是 未 经 签署 而 同意 ， 即 非 了 



























































E 式 同 


让 





非 该 代码 的 直接 作者 。 这 表示 签字 人 已 经 审阅 了 该 补 
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丁 ， 对 该 代码 非常 熟悉 ， 并 根据 其 学 识 判断 ， 该 代码 能 够 像 声 称 的 那样 工作 ， 不 会 导致 数据 破坏 ， 不 
会 使 笔记 本 电脑 着 火 ， 也 不 会 做 其 他 险恶 之 事 。 它 还 跟踪 了 补丁 最 终 到 达 vanilla 内 核 树 之 前 ， 其 穿 过 
发 者 层次 结构 的 路 径 。 维 护 者 会 大 量 参与 sign off 活 动 ， 因 为 他 们 必须 审阅 大 量 并 非 自己 编写 、 但 要 
加 入 到 相应 子 系统 的 代码 。 
在 signed-off 行 上 只 接受 真名 ， 笔 名 和 假名 是 不 能 使 用 的 。 形 式 上 ， 补 丁 的 sign of 意味 着 签字 
人 可 以 证 明 以 下 事实 : 

Documentation/SubmittingPatches 

Developer's Certificate of Origin 1.1 























































































































By making a contribution to this project, I certify that: 
(a) The contribution was created in whole or in part by me and I have the right to submit 
it under the open source license indicated in the file; or 


(b) The contribution is based upon previous work that, to the best of my knowledge, 
is covered under an appropriate open source license and I have the right under that 
license to submit that work with modifications, whether created in whole or in part 
by me, under the same open source license (unless I am permitted to submit under 
a different license), as indicated in the file; or 


© 


The contribution was provided directly to me by some other person who certified 
(a), (b) or (c) and I have not modified it. 


(d) I understand and agree that this project and the contribution are public and that 
a record of the contribution (including all personal information I submit with it, 
including my sign-off) is maintained indefinitely and may be redistributed 
consistent with this project or the open source license(s) involved. 


补丁 的 sign off 在 很 晚 才 引入 到 内 核 开发 中 ，“ 三 字母 公司 ”(SCO) 声称 因 种 种 原因 他 们 将 拥有 
所 有 内 核 代码 ， 因 而 所 有 Linux 用 户 应 该 把 钱 都 交 给 该 公司 ，sign off 在 本 质 上 是 对 该 公司 的 说 法 的 一 
种 反应 。 很 自然 ， 一 些 开 发 者 对 该 公司 的 这 种 说 法 很 是 不 以 为 然 ， 包 括 Linus Torvalds 本 人 : ” 


Some of you may have heard of this crazy company called SCO (aka "Smoking 
Crack Organization") who seem to have a hard time believing that open 
source works better than their five engineers do. They've apparently made 
a couple of outlandish claims about where our source code comes from, 
including claiming to own code that was clearly written by me over a 
decade ago. 


实际 上 ， 这 个 案子 现在 已 经 几乎 成 为 历史 了 , 而 人 们 (SCO 公司 的 CEO 可 能 是 个 例外 ) 普遍 确信 ， 
即使 你 可 能 拥有 一 个 简单 的 最 先 适 配 分 配器 的 版 权 ， 这 绝 不 意味 着 一 个 完整 的 UNIX 内 核 。 不 过 ， 由 
于 Signed-off-by 标 记 ， 现 在 我 们 可 以 确切 地 标识 补丁 的 开发 者 。 

在 标记 补丁 时 ， 还 有 两 种 较 弱 的 形式 。 

口 Acked-by 意 味 着 一 个 开发 者 没有 直接 涉 入 该 补丁 ， 但 在 经 过 一 些 审 阅 之 后 认为 它 是 正确 的 。 


国有 本 和 本 
加 0 rsa 0 areyaszag0 
国有 































































































































































































Q 吕 顺便 说 及 ， 在 Linux 内 核 邮 件 列表 上 指责 别人 是 可 卡 因 瘾 君子 ， 并 不 是 非常 军 见 的 事情 ， 邮 件 列表 上 的 对 话 有 时 候 
还 是 比较 粗鲁 的 。 
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附录 下 内 核 开 发 过 程 





文件 中 包含 奇数 个 字符 的 字符 串 ， 这 种 情况 下 是 不 能 指责 进行 确认 的 开发 者 的 。 


味 ” 


当然 , 上 述 情况 的 可 能 性 很 小 , 因为 体系 结构 维护 者 都 非常 专业 , 将 根据 该 文件 的 “ 气 
"来 检测 到 补丁 的 破坏 性 问题 ， 上 例 只 是 用 来 说 明 概念 。 









































口 cc 用 于 表示 ， 一 个 人 至 少 已 经 知道 该 补丁 ， 因 此 他 在 理论 上 意识 到 该 补丁 的 存在 ， 并 有 机 会 


发 表 反 对 意见 。 

















在 内 核 版 本 2.6.25 的 开发 期 间 ， 发 生 了 一 次 讨论 ， 主 题 是 关于 代码 审阅 的 价值 ， 以 及 如 何 对 审阅 
者 评定 信用 ， 讨 论 者 就 一 个 解决 方案 达成 一 致 ， 引 入 了 所 谓 的 Reviewed-py 补 本 标记。 该 标记 声称 : 


Documentation/SubmittingPatches 
Reviewer's statement of oversight 




















By offering my Reviewed-by: tag, I state that: 


(a) 


(b) 


I have carried out a technical review of this patch to evaluate its appropriateness 
and readiness for inclusion into the mainline kernel. 


Any problems, concerns, or gquestions relating to the patch have been communicated 
back to the submitter. I am satisfied with the submitter's response to my comments. 


While there may be things that could be improved with this submission, I believe 
that it is, at this time, (1) a worthwhile modification to the kernel, and (2) free 
of known issues which would argue against its inclusion. 


While I have reviewed the patch and believe it to be sound, I do not (unless 
explicitly stated elsewhere) make any warranties or guarantees that it will achieve 
its stated purpose or function properly in any given situation. 






































于 这 个 原因 引入 的 男 一 个 新 标记 是 Tested-by， 读者 可 以 猜测 到 ， 它 声称 补丁 已 经 由 签字 人 测 























试 过 ， 而 且 在 所 处 计算 机 上 进行 的 测试 是 足够 的 ， 可 以 癌 该 补丁 增加 一 个 rested-by 标 记 。 
F.4 Linux 和 学 术 界 


编写 操作 系统 不 是 一 项 容易 的 任务 , 我 相信 读者 同意 这 一 点 ， 这 是 对 软件 工程 师 最 复杂 的 挑战 之 
一 。 参 与 创造 Linux 内 核 的 开发 者 中 ， 许 多 人 在 其 领域 中 都 属于 顶尖 者 之 列 ， 这 使 得 Linux 成 为 现存 最 


好 的 操作 


操作 系统 也 是 学 术 研究 中 






























































系统 之 一 。 开 发 者 拥有 学 位 是 很 常见 的 ， 而 计算 机 科学 的 学 位 是 很 具 代 表 性 的 。” 
活跃 主题 。 类 似 于 每 一 个 其 他 的 研究 领域 , 操作 系统 的 研究 伴随 着 









































a 









































定量 的 理论 ， 这 很 自然 ， 你 不 能 以 实用 方式 解决 所 有 问题 。 与 许多 其 他 关注 基本 问题 的 领域 相 比 ， 但 





























操作 系统 研究 的 问题 究 其 本 质 是 实用 性 的 ， 而 且 影 响 到 实际 的 事物 。 如 果 操 作 系统 研究 不 能 有 助 于 改 








































































































统 ， 那 么 它 还 有 什么 用 ? 而 且 因为 操作 系统 本 质 上 是 一 种 实用 产品 《毕竟 ， 谁 会 需要 一 种 理 




































































论 上 的 操作 系统 呢 ? 理想 计算 机 当然 不 需要 使 用 操作 系统 , 而 真实 的 计算 机 更 不 需要 理论 操作 系统 ) ， 















































操作 系统 研究 的 结果 必定 会 影响 实践 。 研 究 圈 量 子 引 力 〈loop quantum gravity) 的 人 可 能 不 需要 考虑 




















其 工作 的 




















实际 影响 ， 但 这 与 操作 系统 研究 的 情况 不 同 。 























考虑 到 这 一 点 ， 我 们 可 以 料想 Linux 和 学 术 界 应 该 是 紧密 关联 的 ， 但 遗憾 的 是 ， 事 实 并 非 如 此 。 
在 内 核 源 代码 中 引用 学 术 的 工作 是 少 有 的 事情 ， 而 研究 论文 对 内 核 的 引用 也 并 不 多 见 。 
























































QD 有 经 验 的 开发 者 有 时 候 能 够 凭借 一 些 表面 迹象 判断 出 质量 差 的 源 代码 ， 这 种 迹象 被 称 为 “bad smell”。 一 一 译 者 注 


@) 请 注 





























FE 意 ， 我 对 此 没有 进行 任何 定量 分 析 ， 但 许多 开发 者 的 履历 表 很 容易 在 因特网 上 找到 ， 这 些 (还 有 常识 ) 支持 


























了 我 的 疑问 。 
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这 特别 令 人 惊讶 ， 因 为 学 术 界 过 去 曾经 与 UNIX 有 着 密切 的 关系 ， 特 别 是 BSD 系 列 的 UNIX。 可 以 
很 公平 地 说 ，BSD 是 学 术 研究 的 产物 ， 而 且 长 期 以 来 ， 学 术 界 都 是 该 项 目 背后 的 驱动 力量 。 
Linux 基 金 会 发 表 的 一 份 研究 KHCM] 表 明 ， 在 Linux 的 最 新 版 本 的 所 有 修改 中 ， 来 自 于 学 术 界 
的 贡献 大 约 占 0.8%。 考 虑 到 大 量 的 思想 在 学 术 界 传播 ，0.8% 的 比例 也 太 低 了 些 ， 为 Linux 内 核 和 学 术 
界 的 利益 考虑 ， 这 种 情形 是 值得 改进 的 。 开 源 就 是 共享 ， 而 共享 好 的 思想 也 是 一 个 有 价值 的 目标 。 
Linux 与 学 术 界 的 关系 最 初 有 点 奢 奢 绊 绊 。Linus Torvalds 编 写 Linux 最 初 的 动机 之 一 是 他 对 Minix 
的 不 满 ， 这 是 一 个 简单 的 教学 用 操作 系统 。 这 导致 了 Torvalds 和 Minix 的 创造 者 Andrew Tanenbaum 之 间 
的 一 场 著 名 的 辩论 。 

Tanenbaum 建 议 称 Linux 是 过 时 的 ， 因 为 其 设计 并 未 遵守 学 术 界 预期 未 来 操作 系统 应 该 遵守 的 规 
则 ， 其 论据 收集 在 一 个 Usenet 新 闻 组 中 ， 发 表 的 标题 是 “Linux is obsolete”。 很 自然 ， 这 导致 了 Linus 
Torvalds 的 回复 ， 其 论点 之 一 如 下 : 
Re 2: 你 的 工作 是 教授 和 研究 人 员 : 这 是 minix 的 一 些 脑残 设计 的 好 借口 。 
尽管 Linus 不 久 就 承认 这 个 回复 有 点 和 鲁莽， 但 它 反 应 了 内 核 社区 在 某 些 时 候 对 学 术 研 究 所 表现 的 
态度 。 实 际 的 操作 系统 和 以 操作 系统 为 目标 的 研究 似乎 有 点 不 怎么 搭 调 。 
有 时 候 可 能 真是 这 样 : 许多 学 术 研 究 都 不 会 集成 到 实际 产品 中 , 特别 是 涉及 一 些 基础 性 的 问题 时 。 
但 此 前 提 到 过 ， 研 究 也 有 实用 性 的 分 支 ， 这 些 通常 有 助 于 改进 内 核 。 遗 憾 的 是 ， 操 作 系统 的 研究 人 员 
和 实现 人 员 在 一 定 程 度 上 失去 了 联系 ， 而 Rob Pike， 贝 尔 实验 室 前 UNIX 团 队 的 一 个 成 员 ， 甚 至 翡 观 地 
声称 系统 软件 研究 已 经 边缘 化 了 。" 
于 种 种 原因 ， 向 内 核 页 献 代码 对 研究 人 员 来 说 是 比较 困难 的 , 一 个 原因 是 他 们 必须 考虑 许多 不 
同 的 操作 系统 。 跟 上 Linux 内 核 开发 的 脚步 已 经 比较 困难 了 ， 何 况 要 跟踪 当今 所 有 最 重要 的 操作 系统 ， 
这 实际 上 是 不 可 能 的 。 因 而 ,研究 人 员 对 其 思想 的 实现 通常 仅 限于 概念 证 明 。 将 这 些 思想 集成 到 内 核 
中 ， 需 要 两 个 社区 的 共同 努力 。 例 如 ， 考 虑 交换 令 牌 机 制 集 成 到 内 核 的 过 程 。 该 机 制 是 在 研究 中 提出 
的 《在 下 一 节 讨 论 ) ， 但 在 Linux 内 核 中 是 由 Rik van Riel 实 现 的 ， 他 是 一 位 内 核 开 发 者 ， 工 作 于 内 存 
管理 领域 。 该 方法 被 证 明 相 当成 功 ， 很 可 以 作为 学 术 界 与 Linux 内 核 之 间 进 一 步 协作 的 样板 。 
两 个 社区 之 间 的 交互 是 复杂 的 ， 这 是 由 内 核 开 发 的 以 下 两 个 方面 决定 的 。 
口 许多 开发 者 不 会 考虑 没有 具体 代码 的 提议 ， 并 拒绝 进一步 讨论 相关 问题 。 
口 即使 代码 提交 到 邮件 列表 ， 也 有 相当 一 部 分 工作 是 在 初始 提交 后 开始 的 。 将 提议 的 代码 针对 
有 具体 的 系统 进行 改编 ， 在 学 术 界 评价 不 高 ， 因 此 研究 人 员 有 一 种 避免 该 步骤 的 自然 倾向 。 
最 终 , 会 得 出 这 样 的 结论 : 内 核 开 发 与 学 术 研究 之 间 的 接口 ， 需 要 每 方 各 出 一 人 , 才能 彼此 协作 。 
如 果 这 是 不 可 能 的 ， 那 么 如 果 研 究 人 员 能 够 设法 尽 可 能 适应 内 核 开 发 的 文化 ， 也 会 很 有 好 处 。 
F.4.1 ”一些 例子 

本 节 介 绍 一 些 例 子 ， 主 要 涉及 一 些 转化 为 内 核 代 码 的 研究 成 果 ， 它 们 对 改进 内 核 的 特定 方面 提供 
了 帮助 。 请 注意 ， 本 节 所 选择 介绍 的 内 容 当然 不 全 面 。 而 且 ， 说 到 学 术 研 究 在 内 核 领域 的 影响 力 ， 即 
使 是 有 ， 实 际 上 也 是 可 以 忽略 的 。 本 节 主 要 是 强调 两 者 可 以 彼此 受益 。 

口 第 18 章 讨论 过 的 交换 令 牌 首先 由 S. Jiang 和 X. Zhang 在 论文 “Token-OrderedLRU : An Effective 

Replacement Policy and its Implementation in Linux Systems”〔 发 表 于 Performance Evaluation，, 

































































































































































































































































































































































































































































































































































































































































































































































































































































































































































@ 参见 www.cs.bell-labs.com/who/rob/utah2000.pdf。 由 于 Pike 还 声称 操作 系统 领域 唯一 的 进步 来 自 微软 公司 ， 我 当然 
不 相信 他 所 有 的 主张 ， 但 其 演讲 仍然 包含 了 许多 值得 注意 和 正确 的 想法 。 
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卷 60，2005 年 1 一 4 期 ) 中 提出 。 随 后 ，Rik van Riel 在 内 核 版 本 2.6.9 中 实现 了 该 机 制 。 有 趣 的 是 ， 


该 论文 扩 














在 第 


CLOCK Replacement” 
算法 ， 不 仅 根 据 最 后 访问 页 的 时 间 来 对 页 进行 排序 ， 还 合 六 
已 经 由 Rik van Riel 和 Peter Zijlstra 设 计 ， 该 方法 还 一 直 被 认为 是 一 个 可 
读者 在 前 文 各 章节 尚未 得 知 该 技术 的 原 
发 者 有 时 候 确实 在 活跃 


论文 的 补丁 
选 者 (参见 www.lwn.net/Articles/147879/)。 





展 了 
中 讨 





多 论 过 的 slab 分 配器 是 直接 
Slab Allocator : An Object-Caching Kernel Memory Allocator” 
的 会 议 录 中 。 

预测 MO 调度 器 的 技术 (在 第 6 章 提 到 过 
A Disk Scheduling Framework to Overcome Deceptive Idleness in Synchronous TO” 提出， 发 表 于 
2001 的 第 18 
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,人 





























内 核 版 本 2.2.14 来 示范 其 方法 的 有 效 性 ， 但 








日 没有 详细 讨论 ) 


基于 一 篇 论文 , 其 中 描述 了 Solaris 





2 ps 




















TCD 














议 的 会 


ACM Symposium on Operating Systems Principles 会 议 。 
18 章 讨论 过 ，Linux 采 用 了 一 种 LRU 技 术 的 变 体 来 确定 活动 页 ， 
分 。 由 S. Jiang、F. Chen 和 X. Zhang 发 表 的 论文 “CLOCK-Pro : An Effec 
(发 表 于 2005 年 USENIX 年 度 技术 会 









































F 考 虑 











该 补丁 尚未 进入 到 主线 内 核 。 但 它们 确实 是 一 些 实例 ， 


















































地 试图 将 研究 成 果 集成 到 内 核 中 。 
这 些 论 文 提出 的 思想 已 经 直接 集成 到 Linux 内 核 ， 作 为 现存 代码 的 直接 扩 
对 内 核 也 有 间接 的 有 影响， 如 下 所 示 。 
口 块 层 作为 文件 系统 和 磁盘 之 间 的 一 个 间接 层 ， 其 


了 逻辑 卷 管 
口 Ext 文 件 系 统 族 的 许 
Joy、 S.J. Leffler 和 R. S. Fabry (在 ACM Transactions on Computer Systems， 1984 重 
文 “A Fast File System for UNIX”。 该 论文 介绍 了 对 人 磁盘 上 多 种 可 能 块 长 的 利用 ， 关 
数据 序列 映射 到 磁盘 
思想 相 比 ， 跟 踊 较 陈旧 论文 对 内 核 的 间接 影响 


一 个 风 辑 
与 考察 直接 来 
























































器 的 基础 。 


般 结 
和 W. C. Hsieh 发 表 的 论文 “The Logical Disk : A New Approach to Improving File Systems ”。 
质 上 ， 该 论文 讲述 了 将 物理 磁盘 上 的 块 与 操作 系统 押 观 察 到 的 巡 辑 磁盘 解 簿 的 技术 ， 这 构成 


里 器 和 设备 映射 





tive Improvement 

议 录 ) 描述 了 一 和 
大 了 页 被 访问 的 频率 。 基 于 
J 能 的 合 


将 其 与 不 活动 页 进行 





相应 的 代码 从 未 包含 在 主线 内 核 中 。 
Pslab 系 统 的 实现 ; 
， 发 表 于 1994 年 夏天 USENIX 


“The 
会 议 


论文 “Anticipatory Scheduling : 
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表明 J 
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简单 : 


蔡 换 
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并 候 

















展 。 比 较 老 一 些 的 论文 


为 基于 由 W. de Jonge、M. F. Kaashoeck 




















多 关键 概念 发 源 于 其 他 文件 系统 ， 

















上 的 一 组 顺序 排 布 的 志 


















































| 算 机 趋向 于 
本 质 上 ， 
得 非常 普遍 ， 
的 思想 ， 在 第 
的 很 多 年 前 ， 


ha 





通用 ， 如 果 能 够 流 
能 已 经 被 相应 的 领域 吸 | 
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于 看 
i 行 起 来 ， 就 可 和 
攻 ， 
] 二进制 








究 的 








与 常识 无 法 区 分 
数字 进行 工作 


























8 章 讨 论 


新 的 。 




















个 具体 的 例子 是 M. K. McKusick、W.N. 
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轩 相 


VANo 























间 是 另 个 间接 来 











它们 作为 Plan 9 的 一 个 不 可 分 割 的 部 分 被 发 明 ， 





分 发 明 者 共 同 


许 














发 。 
F 多 作为 Linux 一 部 分 的 UNIX 基 


2/proc 也 是 以 Plan 9 为 模型 。 
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Q 请 注 i 















































本 思想 VAN 都 





Ny 
本 学 椒 





wl 


不 被 认为 是 














究 成 果 ， 


E 变 得 越 普遍 ， 也 就 越 难 识别 出 该 思想 的 应 
o 当然 ， 如 果 要 追 相 
的 论文 ， 这 有 必要 吗 ? 

UNIX 操 作 系 统 的 大 多 数 核心 思想 都 呈现 在 Linux 中 。 
但 在 UNIX 发 明 时 ， 这 些 思想 还 是 
过 。 命 名 空 





民 溯 源 的 话 ， 可 能 


现在 ， 这 些 思 7 
例如 ， 其 中 就 包括 几乎 
究 的 技术 : 
Plan 9 是 UNIX 的 后 继 者 ， 























Plan 9 不 是 在 
用 的 方法 论 与 学 术 机 构 非 常 类 似 : 发 表 有 关 Plan 9 的 论 
类 到 学 术 界 。cm.bell-labs.com/plan9 网 站 包含 了 有 关 Plan 9 的 更 多 信 


个 经 1 





的 学 术 机 构 中 











而 是 在 贝尔 实验 室 的 研究 部 门 ， 现 在 附属 于 











公文 ， 
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j。 在 茶 些 





自然 要 困难 得 多 。 
时 候 ， 








FE ) 发表 的 论 
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思想 越 
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， 组 织 相关 的 会 议 。 


多 都 已 经 传播 
| 以 表示 为 文件 
FE 被 主线 内 核 采纳 
IUNIX 的 一 部 








但 这 不 是 本 节 直 接 关 尘 





天 | 











的 内 


朗讯 科技 公司 。 
和 看， 


本 附 
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容 。 但 可 以 饶 有 趣味 地 观察 到 ，Linux 的 许多 概念 都 有 其 根源 ， 例 如 在 Vahalia 对 许多 种 UNIX 系 统 内 部 
实现 的 讨论 中 《〈[Vah96]， 高 度 推 荐 ! ) 。Salus 的 陈述 〈[Sal94]) 阐明 了 UNIX 的 历史 ， 可 用 于 理解 许 
多 东西 的 设计 方式 。 

F.4.2 采用 研究 成 果 


前 述 的 例子 说 明了 可 能 将 研究 成 果 集 成 到 Linux 内 核 。 但 考虑 到 操作 系统 研究 的 数量 级 ， 对 比 集 
成 到 Linux 内 核 中 的 成 果 数 量 ， 似 乎 有 些 障碍 阻止 了 将 成 果 从 一 方 传递 到 男 一 方 。 其 中 一 个 原因 就 是 
两 个 社区 的 运作 方式 相去 甚 远 。 据 我 所 知 ， 这 一 点 尚未 得 到 应 有 的 关注 (至 少 在 本 书 撰写 时 是 这 样 )。 
因此 ， 本 节 将 突出 强调 两 个 社区 的 一 些 本 质 性 的 差别 。 
请 注意 ， 内 核 源 代码 在 Documentation/ManagementStyle 文 档 中 包含 了 一 些 信 息 ， 讲 述 了 内 核 
发 者 如 何 处 理 项 目 管理 问题 。 该 文档 也 涉及 这 里 讨论 的 一 些 问 题 。 
不 同 的 社区 
对 许多 人 来 说 ， 软 件 开发 和 操作 系统 研究 看 起 来 都 是 干巴 巴 、 纯 粹 技术 性 的 事情 ， 但 二 者 都 有 巨 
大 的 社会 性 成 分 : 对 任何 工作 的 接受 ， 都 是 基于 社区 对 该 工作 的 接受 ， 也 就 是 被 各 个 开发 者 /研究 人 员 
接受 。 这 要 求 个 人 对 来 自 其 他 个 人 的 贡献 进行 评价 ， 大 多 数 读 者 可 能 都 会 同意 ， 在 这 个 存在 着 多 种 多 
样 不 同 或 复杂 性 格 的 世界 上 ， 这 总 是 一 件 困 难 的 事情 。 在 理想 化 的 世界 上 ， 评 价 可 以 完全 基于 客观 准 
则 进行 ， 但 实际 上 事实 并 非 如 此 :人 只 是 人 而 已 ， 同 情 、 个 人 品位 、 熟 悉 、 厌 恶 、 偏 见 和 彼此 沟通 能 力 
都 会 发 挥 关 键 的 作用 。 
解决 该 问题 的 一 种 途径 是 直接 忽略 它 ， 假 装 我 们 在 一 个 理想 世界 中 , 评价 是 在 一 个 纯粹 技术 性 的 
客观 层面 上 完成 。 这 样 ， 所 有 问题 都 会 自动 消失 。 这 个 解决 方案 被 采纳 的 频 度 之 高 异乎 寻常 ， 特 别 是 
在 官方 声明 中 。 
但 即使 证 实 了 问题 的 存在 ， 也 并 不 容易 解决 。 看 一 看 下 面 学 术 界 通常 怎 
值 〈 根 据 是 否 被 会 议 接纳 或 以 论文 形式 发 表 ， 而 确定 相关 工作 的 价值 )。 
(1) 在 获得 研究 成 果 〈 这 是 有 和 希望 的 ) 之 后 ， 成 果 会 归纳 到 一 篇 论文 中 ， 提 交 到 一 份 期 刊 〈 或 会 
议 ， 或 类 似 的 什么 ， 但 为 简单 起 见 ， 这 里 的 讨论 只 关注 出 版 物 )。 
(2) 论文 发 送 到 一 个 或 多 个 审 稿 人 ， 对 工作 进行 评价 。 他 们 必须 判断 论文 的 正确 性 、 有 效 性 、 在 
科学 上 的 重要 性 ， 还 可 以 指出 应 该 改进 的 地 方 。 审 阅 者 通常 是 匿名 的 ， 与 作者 本 人 或 其 职业 不 应 该 有 
直接 关联 。 
(3) 根据 审 稿 人 的 评价 ， 编 辑 可 以 决定 拒绝 或 接受 论文 。 在 后 一 种 情况 下 ， 编 辑 
对 审 稿 人 的 建议 做 一 些 改进 。 在 改进 之 后 ， 可 能 会 进行 另 一 轮 同行 审查 。 
通常 ， 审 稿 人 知道 作者 的 身份 ， 但 反之 则 不 然 。 
在 内 核 社区 中 ， 如 果 工 作 包含 在 某 个 官方 代码 树 中 ， 则 被 认为 是 值得 的 。 要 将 代码 加 入 这 些 代 码 
树 中 ， 基 本 上 需要 经 由 下 述 流程 。 
口 代码 发 送 到 适当 的 邮件 列表 。 
口 邮件 列表 上 的 每 个 人 都 可 以 要 求 修改 代码 ， 如 果 需 要 ， 还 可 以 对 改进 进行 公开 讨论 。 
口 修改 代码 ， 以 达到 社区 的 要 求 。 这 可 能 会 比较 环 手 ， 因 为 对 什么 是 改进 、 什 么 会 降低 代码 的 
品质 ， 通 常 有 一 些 正 交 的 意见 。 
口 重新 提交 代码 ， 重 新 开始 讨论 。 
口 在 代码 达到 所 期 望 的 形式 并 达成 一 致意 见 之 后 ， 将 被 集成 到 官方 代码 树 中 。 
请 注意 ， 有 些 人 可 能 在 其 领域 中 有 着 长 期 而 卓著 的 声誉 (自然 ， 这 又 是 一 个 社会 性 因素 ) ， 这 在 
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单 判断 一 项 工作 是 否 有 价 
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学 术 界 和 内 核 社区 都 能 缩短 实际 的 处 理 过 程 ， 但 这 里 不 关注 此 种 情况 。 

在 学 术 界 和 内 核 开发 社区 有 着 相似 性 , 二 者 都 有 其 长 处 和 短处 。 例如 , 在 两 个 社区 的 评审 过 程 中 ， 
有 一 些 重要 区 别 。 
口 审阅 向 内 核 提 供 的 代码 不 是 一 个 正式 的 过 程 ， 没 有 一 个 权威 机 构 来 发 起 代码 评审 。 审 阅 的 进 
行 完 全 是 自愿 、 没 有 协调 的 ， 如 果 没有 人 对 提交 的 代码 感 兴趣 ， 邮 件 列表 可 能 保持 绒 默 。 
尽管 学 术 界 的 审阅 通常 也 是 自愿 进行 、 没 有 报酬 的 ， 但 不 可 能 完全 忽略 提交 的 论文 。 论 文保 证 
会 得 到 一 些 反馈 ， 尽 管 有 可 能 非常 肤浅 。 
口 在 内 核 社区 中 ， 代 码 提交 者 和 审阅 者 彼此 了 解 对 方 的 身份 ， 还 可 以 直接 交互 。 在 学 术 界 ， 通 
常 不 是 这 样 ， 作 者 和 审阅 者 之 间 的 交流 需要 通过 编辑 这 个 桥梁 ， 他 们 之 间 的 交互 是 间接 的 。 
此 外 ， 在 编辑 决定 取舍 之 前 ， 作 者 和 审阅 者 之 间 的 交流 讨论 很 少 。 
口 在 学 术 界 ， 审 阅 的 结果 只 有 提交 者 、 审 稿 人 和 编辑 知道 。 在 内 核 社 区 ， 整 个 代码 评审 过 程 都 
是 公开 的 ， 每 个 人 都 可 以 阅读 到 。 
在 这 两 种 环境 下 ， 审 阅 者 都 可 能 向 提交 者 提出 苛刻 的 批评 。 在 学 术 界 ， 提 交 者 向 审阅 者 作出 的 陈 

述 措辞 通常 会 更 为 谨慎 ， 而 在 内 核 社区 ， 则 取决 于 提交 者 和 审阅 者 的 身份 。 
对 改进 任何 工作 的 质量 ,批评 都 是 有 价值 和 必要 的 ,但 接受 批评 是 一 件 复杂 的 问题 。 对 该 问题 的 
处 理 ， 是 内 核 开发 和 学 术 界 的 男 一 个 重要 区 别 。 
以 各 种 新 奇 的 、 通 常 是 无 礼 的 言辞 给 他 人 制造 困扰 ， 已 经 成 为 一 些 内 核 开 发 者 的 “商标 ”， 而 
相关 的 陈述 可 以 在 因特网 上 公开 获得 。 这 导致 了 一 个 严重 的 问题 ， 因 为 没有 人 愿意 被 当众 侮辱 ， 开 
发 者 可 能 为 此 避 而 远 之 。 几 个 领头 的 Linux 开 发 者 都 关注 到 了 这 个 问题 , 但 因为 邮件 列表 上 所 有 人 都 
是 成 年 人 ， 除 了 呼吁 更 公平 之 外 ， 不 能 以 其 他 任何 形式 解决 该 问题 ， 而 对 公平 的 呼吁 并 不 是 总 能 被 
接受 。 
在 学 术 界 ， 受 到 匿名 审 稿 人 的 苛刻 批评 当然 也 不 令 人 和 愉快， 但 私下 里 受到 指责 ， 比 当众 被 人 批评 
要 容易 接受 得 多 。 
读者 从 以 下 的 文档 片段 可 以 看 出 ， 在 解决 这 个 问题 时 ， 内 核 开 发 者 并 不 争取 做 到 完全 的 “政治 正 
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Documentation/ManagementStyle 
The option of being unfailingly polite really doesn't exist. Nobody will 
trust somebody who is so clearly hiding his true character. 


彼此 拖 后 腿 可 能 是 个 好 事情 ， 在 正确 运用 的 情况 下 ， 有 一 点 智力 挑战 的 意味 。 但 这 也 很 容易 做 得 
过 火 ， 导 致 人 身 攻击 ， 任 何人 当然 都 不 愿意 接受 。 但 遗憾 的 是 ， 在 内 核 社区 中 ， 每 个 人 都 应 该 对 此 有 
所 准备 。 
与 学 术 界 相 比 ， 内 核 社区 的 评审 过 程 在 社会 性 上 可 能 更 具 挑 战 性 ， 它 也 趋向 于 更 有 效率 ， 只 要 
人 们 不 被 这 种 方式 赶 走 ， 内 核 邮 件 列 表 上 的 补丁 在 被 认为 可 接受 之 前 ， 会 经 历 许 多 次 迭代 ， 每 次 迭 
代 过 程 中, 审阅 者 都 会 标识 出 遗留 的 问题 , 作者 可 以 更 改 。 因为 Linux 内 核 的 目标 是 做 到 世界 上 最 好 ， 
重要 的 是 只 集成 真正 优质 的 代码 。 这 样 的 代码 通常 并 非 台 就 能 得 到 ， 只 有 经 历 一 段 时 间 的 改进 
和 精炼 之 后 才 行 。 评 审 过 程 的 整个 目的 就 在 于 ， 形 成 尽 可 能 最 好 的 代码 ， 这 种 做 法 在 实际 上 通常 会 
有 效 。 

学 术 论文 的 审阅 ， 其 效果 通常 是 不 同 的 。 如 果 期 刊 拒绝 了 提交 的 论文 ， 作 者 当然 会 进行 修订 以 改 
正 缺 点 。 但 读者 可 以 自行 考虑 一 下 ， 论 文 进行 实质 性 修订 的 概率 。 一 方面 ， 提 交 者 需要 发 表 尽 可 能 
的 论文 来 获得 学 术 声 誉 ， 男 一 方面 ， 研 究 工作 可 以 提交 到 大 量 不 同 的 期 刊 〈 可 能 不 那么 知名 )， 而 这 
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AAA mal dg 情况 是 不 同 的: 或 者 你 

















F.5 小结 

































































区 和 学 术 界 合作 时 ， 尤 其 应 该 考虑 这 个 因素 。 








作为 实际 上 最 大 的 
是 将 开发 工作 分 布 到 整个 1 





程 是 如 何 组 织 的 ， 


























的 “文化 ”氛围 可 




















能 够 使 代码 进入 到 内 核 ， 或 者 大 量 的 工作 被 浪费 掉 。 “这 自然 提供 了 一 个 很 大 的 激励 ， 使 得 工作 重心 
能 够 投入 到 对 代码 的 改进 上 。 
尽管 初 看 起 来 ， 学 术 界 和 内 核 社区 用 于 评估 和 保证 提交 的 论文 /代码 的 质量 的 方法 类 似 ， 但 它们 
之 间 有 大 量 的 差别 。 对 于 两 者 思想 的 交流 ， 不 同 























能 是 一 个 相当 大 的 障碍 。 在 内 核 社 


有 十 














源 项 目 之 一 ，Linux 内 核 之 所 以 有 趣 ， 不 仅仅 是 从 技术 角度 来 看 ， 而 且 它 也 
时 界 上 和 相互 竞争 的 公司 的 一 种 新 颖 而 独特 的 方式 。 本 附录 讲述 了 其 开发 过 




















以 及 对 贡献 代码 有 什么 要 求 。 本 附录 还 分 析 了 内 核 开发 和 学 术 研 究 之 间 的 关联 。 在 











本 附录 中 ， 读 者 知道 了 这 两 者 交互 的 方式 ， 二 者 之 间 的 不 同 主要 起 
够 最 好 地 弥合 二 者 之 间 的 分 此 。 








GO 完全 可 能 在 内 








核 代 码 树 之 乡 

















维护 代码 ， 在 许多 情况 下 这 已 经 被 证 




















回报 价值 的 














标 仍然 是 将 


工作 集成 到 主线 内 核 中 。 

















明 是 有 








3 的， 但 





因 于 不 同 的 “文化 ”， 以 及 如 何 能 








发 者 (及 其 雇主 ) 最 终 和 最 具 
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众所周知 ，Linux 操 作 系 统 的 源 代码 复杂 、 文 档 少 ， 对 程序 员 的 要 求 高 ， 要 想 看 懂 这 些 代 码 并 不 是 一 件 容 
易 事 。 本 书 结合 内 核 版 本 2.6.24 源 代码 中 最 关键 的 部 分 ， 深 入 讨论 Linux 内 核 的 概念 、 结 构 和 实现 。 具 体 包 括 
进程 管理 和 调度 、 虚 拟 内 存 、 进 程 间 通信 、 设 备 驱 动 程序 、 虚 拟 文件 系统 、 网 络 、 时 间 管 理 、 数 据 同步 等 。 本 
书 引 导 你 阅读 内 核 源 代码 ， 熟 悉 Linux 所 有 的 内 在 工作 机 理 ， 充 分 展现 Linux 系 统 的 魅力 。 


本 书 适合 Linux 系 统 编程 人 员 、 系 统管 理 者 以 及 Linux 爱 好 者 学 习 使 用 。 
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最 前 沿 的 IT 类 电子 书 发 售 平台 



































































































































电子 出 版 的 时 代 已 经 来 临 。 在 许多 出 版 界 同行 还 在 犹 图 灵 社 区 进一步 把 传统 出 版 流程 与 电子 书 出 版 业务 
殉 簿 得 的 时 候 ， 图 灵 社区 已 经 采取 实际 行动 拥抱 这 个 紧密 结合 ， 目 前 已 实现 作 译 者 网 上 交 稿 、 编 辑 网 上 
出 版 业 巨 变 。 作 为 国内 第 一 家 发 售 电子 图 书 的 IT 类 出 审 稿 、 按 章 发 布 的 电子 出 版 模式 。 这 种 新 的 出 版 模 
版 商 ， 图 灵 社 区 目前 为 读者 提供 两 种 DRM-free 的 阅读 式 ， 我 们 称 之 为 “敏捷 出 版 ”， 它 可 以 让 读者 以 较 
本 验 :在 线 阅读 和 PDF。 快 的 速度 了 解 到 国外 最 新 技术 图 书 的 内 容 ， 弥 补 以 

攻 往 翻 译 版 技术 书 “ 出 版 即 过 时 ”的 缺憾 。 同 时 ， 敏 






































蛋 比 纸 原 书 ， 电 子 书 县 有 许多 明显 的 优势 。 它 不 仅 发 。 捷 出 版 使 得 作 、 译 、 编 、 读 的 交流 更 为 方便 ， 可 以 
布 快 ， 更 新 容易 ， 而 且 尽 可 能 采用 了 彩色 图 片 (即使 








提前 消灭 书稿 中 的 错误 ， 最 大 程度 地 保证 图 书 出 版 
的 质量 。 













































































有 的 书 纸 质 版 是 黑白 印刷 的 ) 。 读 者 还 可 以 方便 地 进 
行 搜索 、 剪 贴 、 复 制 和 打印 。 























最 方便 的 开放 出 版 平台 最 直接 的 读者 交流 平台 











































































































































































































图 灵 社 区 向 读者 开放 在 线 写作 功能 ， 协 助 你 实现 自 出 在 图 灵 社 区 ， 你 可 以 十 分 方便 地 写作 文章 、 提 交 勘 
版 和 开源 出 版 的 梦想 。 利 用 “合集 ”功能 ， 你 就 能 联 误 、 发 表 评 论 ， 以 各 种 方式 与 作 译 者 、 编 辑 人 员 和 
合 二 三 好 友 共 同 创作 一 部 技术 参考 书 ， 以 免费 或 收费 其 他 读者 进行 交流 互动 。 提 交 勘 误 还 能 够 获 赠 社区 
的 形式 提供 给 读者 。 (收费 形式 须 经 过 图 灵 社 区 立项 银子 。 

评审 。) 这 极 大 地 降低 了 出 版 的 门槛 。 只 要 你 有 写作 

的 意愿 ， 图 灵 社 区 就 能 帮助 你 实现 这 个 梦想 。 成 熟 的 你 可 以 积极 参与 社区 经 常 开展 的 访谈 、 审 读 、 评 选 
书稿 ， 有 机 会 入 选 出 版 计划 ， 同 时 出 版 纸 质 书 。 等 多 种 活动 ， 赢 取 积 分 和 银子 ， 积 累 个 人 声望 。 

图 灵 社 区 引进 出 版 的 外 文 图 书 ， 都 将 在 立项 后 马上 在 

社区 公布 。 如 果 你 有 意 翻译 哪 本 图 书 ， 欢 迎 你 来 社区 

请 。 只 要 你 通过 试 译 的 考验 ， 即 可 签约 成 为 图 灵 的 






























































译 者 。 当 然 ， 要 想 成 功 地 完成 一 本 书 的 翻译 工作 ， 是 
需要 有 坚强 的 新 力 的 。 























